nlp resources construc on standardiza on exploita on api
play

NLP resources: construc.on, standardiza.on, exploita.on - PowerPoint PPT Presentation

NLP resources: construc.on, standardiza.on, exploita.on & API Karim Bouzoubaa outline Exploita.on NLP resources Construc.on


  1. ¡ NLP ¡resources: ¡ ¡ construc.on, ¡standardiza.on, ¡ exploita.on ¡& ¡API ¡ ¡ ¡ ¡ Karim ¡Bouzoubaa ¡

  2. outline ¡ • Exploita.on ¡ ¡ • NLP ¡resources ¡ • Construc.on ¡ • Standardiza.on ¡ • API ¡ ¡

  3. Exploita.on ¡

  4. Exploitation ¡ LRs ¡are ¡used ¡in ¡various ¡NLP ¡so7ware ¡tools: ¡ ¡ morphological, ¡syntac@c ¡and ¡seman@c ¡analysis ¡ • automa@c ¡transla@on ¡ • automa@c ¡genera@on ¡of ¡texts ¡ • spell-­‑checking ¡ • automa@c ¡summariza@on ¡ • handwri@ng ¡recogni@on ¡ • reformula@on ¡and ¡paraphrasing ¡ • informa@on ¡search ¡and ¡text ¡mining ¡ • 4 ¡

  5. outline ¡ • Exploita.on ¡ ¡ • NLP ¡resources ¡ • Construc.on ¡ • Standardiza.on ¡ • API ¡ ¡

  6. NLP ¡ Resources ¡ ¡

  7. Resources ¡ Introduction – Definition Types Examples Evaluation criteria

  8. Introduc.on ¡-­‑ ¡Defini.on ¡ q The ¡key ¡to ¡NLT ¡development ¡is ¡the ¡Language ¡Resource ¡ q Resource ¡ produc@on ¡ takes ¡ a ¡ lot ¡ of ¡ effort ¡ and ¡ is ¡ very ¡ expensive ¡ ¡ Example: ¡ The ¡ Arabic ¡ standard ¡ LC-­‑STAR ¡ phone@c ¡ lexicon ¡ of ¡ the ¡ European ¡ Linguis@c ¡ Resource ¡ Associa@on ¡ (ELRA) ¡ with ¡ 110,271 ¡ entries ¡ costs ¡ 21250.00 ¡ EUR ¡ (for ¡ use ¡ in ¡ academic ¡research) ¡ Language resources are language-related data, accessible in an electronic format, and used for the development of NLP systems 8 ¡

  9. Types ¡– ¡2 ¡categories ¡ 1. Corpus ¡ • wriTen: ¡monolingual ¡texts, ¡mul@lingual ¡texts, ¡annoted ¡texts, ¡ treebanks ¡ • speech: ¡reading ¡texts ¡aloud, ¡speeches, ¡dialogues, ¡radio ¡and ¡ television ¡broadcasts ¡ • Mul@media: ¡images, ¡sounds ¡and ¡videos ¡ 2. Lexicon ¡ • monolingual ¡and ¡mul@lingual ¡Dic@onaries ¡ • Gaze@ers ¡(geographical ¡dic@onary) ¡ • Terminologies ¡ • ontologies ¡

  10. Content ¡of ¡a ¡lexicon ¡ An ¡entry ¡in ¡the ¡lexicon ¡may ¡contain ¡: ¡ ¡ • morphological, ¡ syntac@c, ¡ seman@c ¡ and ¡ pragma@c ¡ informa@on ¡ • the ¡gramma@cal ¡category ¡(noun, ¡verb, ¡etc.), ¡ ¡ o subcategory ¡proper@es ¡(transi@ve ¡verb ¡or ¡not, ¡masculine ¡ or ¡feminine) ¡ • seman@c ¡ informa@on ¡ (animated ¡ name, ¡ verb ¡ requiring ¡ a ¡ human ¡subject ¡

  11. Examples 12 ¡

  12. Oxford ¡ dic.onary ¡

  13. verbNet ¡

  14. Evalua@on ¡criteria q Formal ¡(regardless ¡of ¡content) ¡ § Size ¡ § Maintenance ¡(durability, ¡scalability) ¡ § Compa@bility ¡ q Func.onal ¡(language ¡criteria) ¡ § Lexicographic ¡annota@on ¡(existence ¡and ¡ relevance) ¡ § Intrinsic ¡rules

  15. outline ¡ • Exploita.on ¡ ¡ • NLP ¡resources ¡ • Construc.on ¡ • Standardiza.on ¡ • API ¡ ¡

  16. Construc.on ¡

  17. Construc@on ¡ Produc.on ¡cycle ¡ Crea@ng ¡resources ¡ Example ¡(Contempory ¡Arabic) ¡ Reusing ¡ressources ¡ Example ¡of ¡free ¡resources ¡ Good ¡prac.ces ¡ ¡ Documenta@on ¡ Interoperability ¡ Viability ¡

  18. crea.ng ¡resources ¡ two approaches for developing LRs: ¡ q creating new resources q tuning existing resources ¡ 19 ¡

  19. crea.ng ¡resources ¡ Collect ¡ "authen@c" ¡ data, ¡ of ¡ a ¡ general ¡ nature ¡ or ¡ belonging ¡ to ¡ a ¡ par@cular ¡ sector ¡ of ¡ ac@vity, ¡ directly ¡ in ¡ digital ¡ form ¡ or, ¡ in ¡ some ¡cases, ¡by ¡digi@zing ¡them. ¡ 20 ¡

  20. Example of creating resources ¡ Contemporary Arabic ¡

  21. Resources’ ¡Reuse ¡ q The ¡opera@on ¡of ¡making ¡changes ¡to ¡a ¡resource ¡ for ¡the ¡purpose ¡of ¡performing ¡certain ¡func@ons ¡ and ¡ improving ¡ it ¡ in ¡ a ¡ different ¡ usage ¡ environment ¡from ¡the ¡original ¡one ¡ q Example : .... ¡ 22 ¡

  22. Example ¡of ¡free ¡resources ¡ Corpus ¡ q Corpus ¡of ¡Contemporary ¡Arabic ¡ q Khoja ¡POS ¡tagged ¡corpus ¡ q Quranic ¡Arabic ¡ q Collec@on ¡of ¡free ¡arabic ¡texts ¡and ¡books: ¡ - Almeshkat ¡ ¡ - Al-­‑Eman ¡ Lexicon ¡ q Buckwalter’s ¡list ¡of ¡Arabic ¡roots ¡ q Al-­‑Baheth ¡Al-­‑Arabi ¡ 23 ¡ ¡

  23. Good ¡prac@ces ¡ In ¡order ¡to ¡contribute ¡to ¡the ¡crea@on ¡of ¡a ¡set ¡of ¡ sustainable ¡ RLs, ¡ some ¡ principles ¡ must ¡ be ¡ respected: ¡ ¡ • Resource ¡documenta@on ¡ • Interoperability ¡of ¡resources 24 ¡

  24. Documenta.on ¡of ¡resources ¡ LRs ¡are ¡o7en ¡poorly ¡documented ¡or ¡undocumented ¡at ¡all. ¡ Documenta@on ¡should ¡be ¡as ¡comprehensive ¡as ¡possible, ¡ and ¡include ¡informa@on ¡on: ¡ • the ¡format ¡of ¡the ¡data ¡ • the ¡content ¡of ¡the ¡data ¡ • the ¡produc@on ¡context ¡ • the ¡possible ¡uses ¡ ¡ 25 ¡ ¡

  25. Resources interoperability ¡ q The ¡interoperability ¡of ¡LRs ¡is ¡the ¡ability ¡to ¡ operate ¡in ¡different ¡systems ¡ q The ¡formats ¡of ¡the ¡LRs ¡must ¡be ¡standard 26 ¡

  26. Interoperability – documentation - reuse ¡ Many ¡difficul@es ¡are ¡encountered ¡when ¡reusing ¡available ¡LRs ¡

  27. Interoperability – documentation - reuse ¡ • Contribute ¡ to ¡ the ¡ development ¡ of ¡ LRs ¡ respec@ng ¡ interoperability ¡rules ¡ – Availability ¡ – Portability ¡ – Reusability ¡ – normaliza@on ¡

  28. outline ¡ • Exploita.on ¡ ¡ • NLP ¡resources ¡ • Construc.on ¡ • Standardiza.on ¡ • API ¡ ¡

  29. Standardiza.on ¡

  30. why? ¡ q How ¡to ¡integrate ¡exis@ng ¡resources ¡into ¡one's ¡own ¡ contexts? ¡ q How ¡to ¡separate ¡the ¡resources ¡from ¡the ¡tools ¡that ¡ manage ¡them?

  31. Panorama ¡ standardisation agencies: ¡ CNIS : China National Institute of Standardization ¡ FNOR : Agence Française de Normalisation ¡ DIN : Deutsches Institut für Normung ¡ ANSI : American National Standards Institute ¡ W3C : World Wide Web Consortium ¡ TEI : Text Encoding Initiative ¡ ISO : the International Organization for Standardization ¡ projects: ¡ LIRICS :Linguistic Infrastructure for Interoperable Resources and Systems ¡ EAGLES : Expert Advisory Group on Language Engineering Standards ¡ Multext : Multilingual Text Tools and Corpora ¡ research structures: ¡ CLARIN : Common Language Resources and Technology Infrastructure ¡ FLaReNet : Fostering Language Resources Network ¡ Alpage : Analyse Linguistique Profonde A Grande Echelle. ¡ ¡

  32. Organization ¡

  33. standards proposition ¡ Publication ¡ International Standard (IS) ¡ Approbation ¡ Final Draft International Standard (FDIS) ¡ Enquête ¡ Draft International Standard (DIS) ¡ Commission ¡ Committee Draft (CD) ¡ Préparatoire ¡ new project of the WG ¡ Proposition ¡ New Work Item Proposal (NP) ¡ Préliminaire ¡ Preliminary Work Item (PWI) ¡

  34. LMF ¡ Modeling ¡Arabic ¡inflec@on ¡paradigms ¡according ¡to ¡the ¡LMF ¡standard ¡ • – Aïda ¡Khemakhem ¡et ¡al. ¡ ¡2007 ¡ Automa@c ¡conversion ¡of ¡editorial ¡dic@onaries ¡to ¡LMF ¡ • – Feten ¡Baccar ¡et ¡al. ¡2008, ¡Aïda ¡Khemakhem ¡et ¡al. ¡2009 ¡ Domain ¡ontology ¡genera@on ¡from ¡LMF ¡dic@onaries ¡ • – Feten ¡Baccar ¡et ¡al. ¡2010 ¡ Proposed ¡standardized ¡representa@on ¡of ¡standard ¡Arabic ¡lexicons ¡ • – Susanne ¡Salmon-­‑Alt ¡et ¡ ¡al ¡2013 ¡ Detec@on ¡of ¡anomalies ¡and ¡evalua@on ¡of ¡the ¡content ¡of ¡LMF ¡dic@onaries ¡ • – Wafa ¡WALI ¡et ¡al. ¡2014 ¡ Realiza@on ¡of ¡a ¡system ¡of ¡produc@on ¡of ¡Arabic ¡dic@onaries ¡respec@ng ¡the ¡LMF ¡ • standard ¡ – Mohammed ¡Reqqass ¡et ¡al. ¡2014 ¡

  35. LMF Example ¡

  36. LMF Example ¡

Recommend


More recommend