language resources language technology text mining the
play

Language Resources, Language Technology, Text Mining, the - PowerPoint PPT Presentation

Language Resources, Language Technology, Text Mining, the Seman8c Web: How interoperability of machines can help humans in the mul8lingual web Felix Sasaki


  1. Language ¡Resources, ¡Language ¡ Technology, ¡Text ¡Mining, ¡the ¡Seman8c ¡ Web: ¡How ¡interoperability ¡of ¡machines ¡ can ¡help ¡humans ¡in ¡the ¡mul8lingual ¡web ¡ Felix ¡Sasaki ¡ DFKI ¡/ ¡University ¡of ¡Appl. ¡Sciences ¡Potsdam ¡ W3C ¡German-­‑Austrian ¡Office ¡ felix.sasaki@dSi.de ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 1 ¡

  2. Purpose ¡of ¡this ¡talk ¡(1) ¡ • Show ¡gaps ¡ – Between ¡machines ¡ – Between ¡machines ¡and ¡humans ¡ • … ¡which ¡we ¡need ¡to ¡fill ¡to ¡bridge ¡gaps ¡ between ¡humans ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 2 ¡

  3. Purpose ¡of ¡this ¡talk ¡(2) ¡ • Iden8fy ¡groups ¡/ ¡communi8es ¡ – To ¡fill ¡gaps ¡ – To ¡come ¡together ¡in ¡new ¡alliances ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 3 ¡

  4. Basics: ¡ ¡ What ¡are ¡machines ¡doing ¡ (not ¡only ¡on ¡the ¡Web)? ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 4 ¡

  5. Language ¡Technology ¡ • Summariza8on ¡ “These ¡texts ¡are ¡ LT ¡ about ¡... ¡“ ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 5 ¡

  6. Language ¡Technology ¡ • Machine ¡Transla8on ¡ “The ¡workshop ¡ このワークショップ LT ¡ takes ¡place ¡in ¡…“ ¡ は … で開催される ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 6 ¡

  7. Language ¡Technology ¡ • Spell ¡and ¡grammar ¡checking ¡ “The ¡worksop ¡ “The ¡workshop ¡ LT ¡ take ¡place ¡in ¡…“ ¡ takes ¡place ¡in ¡…“ ¡ • And ¡many ¡more ¡applica8ons ¡ • Coreference ¡resolu8on, ¡discourse ¡analysis, ¡ named ¡en8ty ¡recogni8on, ¡natural ¡language ¡ genera8on, ¡ques8on ¡answering, ¡… ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 7 ¡

  8. Text ¡mining ¡ • Finding ¡out ¡things ¡you ¡did ¡not ¡know ¡ • “Text ¡A ¡and ¡text ¡B ¡ are ¡similar” ¡ Text ¡ • “The ¡text ¡collec8on ¡ mining ¡ has ¡ ¡clusters ¡of ¡ topics: ¡…” ¡ Visualiza8on ¡ of ¡results ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 8 ¡

  9. Basics: ¡ ¡ What ¡are ¡machines ¡doing ¡ (not ¡only ¡on ¡the ¡Web)? ¡ How ¡are ¡they ¡doing ¡it? ¡ They ¡are ¡using ¡resources ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 9 ¡

  10. Resources ¡in ¡language ¡technology ¡ • Sample ¡resources ¡for ¡summariza8on ¡ “These ¡texts ¡are ¡ LT ¡ about ¡... ¡“ ¡ text ¡mining ¡ stop ¡word ¡ NLG ¡output ¡ … ¡ output ¡ list ¡ 10 ¡

  11. Language ¡Technology ¡ • Sample ¡resources ¡in ¡Machine ¡Transla8on ¡ “The ¡workshop ¡ このワークショップ LT ¡ takes ¡place ¡in ¡…“ ¡ は … で開催される ¡ (Training) ¡ Lexicon ¡ Grammar ¡ … ¡ corpora ¡ Genera8on ¡ 11 ¡

  12. Language ¡Technology ¡ • Sample ¡resources ¡for ¡spell ¡and ¡grammar ¡checking ¡ “The ¡worksop ¡ “The ¡workshop ¡ LT ¡ take ¡place ¡in ¡…“ ¡ takes ¡place ¡in ¡…“ ¡ Lexicon ¡ Grammar ¡ … ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 12 ¡

  13. Text ¡mining ¡ • Sample ¡resources ¡for ¡text ¡mining ¡ • “Text ¡A ¡and ¡text ¡B ¡ are ¡similar” ¡ Text ¡ • “The ¡text ¡collec8on ¡ mining ¡ has ¡ ¡clusters ¡of ¡ topics: ¡…” ¡ Stop ¡word ¡ Lexicon ¡ … ¡ list ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 13 ¡

  14. In ¡general: ¡you ¡need ¡three ¡types ¡of ¡ data: ¡input, ¡resources, ¡workflow ¡ Work-­‑ Output ¡ Input ¡ flow ¡ Resources ¡ Resources ¡ … ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 14 ¡

  15. What ¡gaps ¡need ¡to ¡be ¡filled ¡for ¡truly ¡ “mul8lingual ¡content ¡processing”? ¡ • Gap ¡1: ¡machines ¡don’t ¡use ¡metadata ¡available ¡ in ¡the ¡input ¡ • Gap ¡2: ¡machines ¡don’t ¡know ¡about ¡the ¡ workflow ¡(input) ¡data ¡goes ¡through ¡ • Gap ¡3: ¡machines ¡don’t ¡make ¡explicit ¡ – “Who” ¡they ¡are ¡ – What ¡resources ¡they ¡are ¡using ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 15 ¡

  16. Gap ¡1: ¡machines ¡don’t ¡use ¡metadata ¡ available ¡in ¡the ¡input ¡ • Input ¡from ¡www.postbank.de ¡ „Ob ¡Postbank ¡direkt, ¡Online-­‑Banking, ¡ Online-­‑Brokerage ¡oder ¡myBHW. ¡Die ¡ häufigsten ¡Fragen ¡zu ¡unseren ¡ Transak8onssystemen ¡finden ¡Sie ¡an ¡ dieser ¡Stelle.“ ¡ ¡ • Output ¡via ¡Google ¡translate ¡ “Whether ¡Postbank ¡direct, ¡online ¡ banking, ¡online ¡brokerage ¡or ¡myBHW. ¡ Frequently ¡asked ¡ques8ons ¡about ¡our ¡ transac8on ¡systems ¡can ¡be ¡found ¡at ¡ this ¡loca8on.” ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 16 ¡

  17. Gap ¡1: ¡machines ¡don’t ¡use ¡metadata ¡ available ¡in ¡the ¡input ¡ Fixed ¡terminology ¡ • Input ¡from ¡www.postbank.de ¡ should ¡not ¡have ¡ „Ob ¡Postbank ¡direkt, ¡Online-­‑Banking, ¡ Online-­‑Brokerage ¡oder ¡myBHW. ¡Die ¡ been ¡translated. ¡ häufigsten ¡Fragen ¡zu ¡unseren ¡ But ¡– ¡the ¡MT ¡tool ¡ Transak8onssystemen ¡finden ¡Sie ¡an ¡ had ¡no ¡chance ¡to ¡ dieser ¡Stelle.“ ¡ ¡ “know” ¡that ¡– ¡ • Output ¡via ¡Google ¡translate ¡ why? ¡ “Whether ¡Postbank ¡direct, ¡online ¡ banking, ¡online ¡brokerage ¡or ¡myBHW. ¡ Frequently ¡asked ¡ques8ons ¡about ¡our ¡ transac8on ¡systems ¡can ¡be ¡found ¡at ¡ this ¡loca8on.” ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 17 ¡

  18. Gap ¡2: ¡machines ¡don’t ¡know ¡about ¡ processes ¡data ¡goes ¡through ¡ • Input ¡from ¡the ¡data ¡base ¡– ¡the ¡ fixed ¡terminology ¡ “hidden ¡web”: ¡ (= ¡metadata) ¡… ¡ „Ob ¡<term>Postbank ¡direkt</term>, ¡ <term>Online-­‑Banking</term>, ¡ <term>Online-­‑Brokerage</term> ¡…“ ¡ ¡ publica8on ¡ process ¡ • Output ¡on ¡the ¡Web: ¡ „Ob ¡<em>Postbank ¡direkt</em>, ¡ ¡… ¡is ¡lost ¡ <em>Online-­‑Banking</em>, ¡ on ¡the ¡Web ¡  ¡ <em>Online-­‑Brokerage</em> ¡…“ ¡ ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 18 ¡

  19. Gap ¡3: ¡no ¡common ¡iden8fica8on ¡… ¡ • Of ¡metadata ¡and ¡processes ¡chains ¡(previous ¡ slides) ¡ • Of ¡resources ¡– ¡e.g. ¡what ¡is ¡a ¡lexicon ¡ – In ¡machine ¡transla8on? ¡ – In ¡localiza8on? ¡ – For ¡a ¡human ¡reader? ¡ – Ability ¡to ¡combine ¡tools ¡depends ¡on ¡knowing ¡ about ¡them ¡(capabili8es, ¡resources) ¡in ¡detail ¡ W3C ¡Workshop ¡ ¡“The ¡Mul8lingual ¡Web ¡-­‑ ¡Where ¡Are ¡We?” ¡26-­‑27 ¡October ¡2010, ¡Madrid ¡ 19 ¡

Recommend


More recommend