integra on of the thesaurus for the social sciences
play

Integra(on of the Thesaurus for the Social Sciences - PowerPoint PPT Presentation

Integra(on of the Thesaurus for the Social Sciences (TheSoz) in an Informa(on Extrac(on System Thierry Declerck, DFKI GmbH LaTeCH 2013, ACL Workshop,


  1. Integra(on ¡of ¡the ¡Thesaurus ¡for ¡the ¡ Social ¡Sciences ¡(TheSoz) ¡in ¡an ¡ Informa(on ¡Extrac(on ¡System ¡ ¡ Thierry ¡Declerck, ¡DFKI ¡GmbH ¡ LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

  2. Context ¡ • Various ¡projects ¡dealing ¡with ¡mulIlingual ¡ Ontology-­‑Based ¡InformaIon ¡ExtracIon ¡(OBIE) ¡ and ¡Cross-­‑Lingual ¡Access ¡to ¡SemanIc ¡ Repositories. ¡ • For ¡example ¡Monnet ¡(finished ¡in ¡April ¡2013) ¡ and ¡TrendMiner ¡(unIl ¡Oct. ¡2014) ¡ ¡ LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

  3. Monnet ¡Architecture ¡ ontology ¡ en ¡ Localization Lexicalization translator ¡ Corpus ¡ ¡Service ¡ Service Service es ¡ lemon ¡ de ¡ Knowledge Information Access and Extraction Presentation expert ¡ Service nl ¡ Service Knowledge ¡Base ¡ LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

  4. TrendMiner ¡Architecture ¡ LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

  5. MulIlingual ¡Knowledge ¡Sources ¡ • Examples ¡from ¡different ¡sources ¡and ¡types: ¡ – ¡ICB, ¡ ¡ – GICS, ¡ ¡ – XBRL, ¡ ¡ – RadLex, ¡ ¡ – FMA, ¡ ¡ – TheSoz, ¡ – DBPedia ¡(and ¡ ¡similar ¡FreeBase, ¡Schema.Org) ¡ LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

  6. Industry ¡ClassificaIon ¡Benchmark ¡(ICB) ¡ Subclasses ¡of ¡the ¡concept ¡5000 ¡with ¡English ¡label: ¡5000 ¡Consumer ¡Services ¡ Subclasses ¡of ¡the ¡concept ¡5000 ¡with ¡Spanish ¡label: ¡5000 ¡SERVICIOS ¡AL ¡CONSUMIDOR ¡ LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

  7. A ¡similar ¡taxonomy, ¡GICS ¡(simplified) ¡ ¡ Showing ¡just ¡some ¡mulIlingual ¡labels ¡and ¡definiIons ¡ • 1010 ¡Energy ¡(Energía ¡/ ¡Energie ¡/…) ¡ – 101010 ¡Energy ¡Equipment ¡& ¡Services ¡(Equipos ¡y ¡Servicios ¡ de ¡Energía ¡/ ¡Energiezubehör ¡und ¡-­‑dienste ¡/…) ¡ • 10101010 ¡ ¡Oil ¡& ¡Gas ¡Drilling ¡(Perforación ¡de ¡Pozos ¡ Petrolíferos ¡y ¡Gasíferos ¡/ ¡Erdöl-­‑ ¡& ¡Erdgasförderung ¡/ ¡) ¡ – Drilling ¡contractors ¡or ¡owners ¡of ¡drilling ¡rigs ¡that ¡ contract ¡their ¡services ¡for ¡drilling ¡wells ¡ – ContraIstas ¡de ¡perforación ¡o ¡propietarios ¡de ¡ torres ¡de ¡perforación ¡que ¡contratan ¡sus ¡servicios ¡ para ¡perforar ¡pozos. ¡ – Anbieter ¡von ¡Bohrdiensten ¡oder ¡Eigentümer ¡von ¡ Ölförder-­‑ ¡und ¡ ¡ ¡ ¡-­‑bohrausrüstungen, ¡die ¡ihre ¡ Bohrdienste ¡anbieten ¡ ¡ ¡ ¡ LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

  8. FAM ¡(FoundaIonal ¡Model ¡of ¡Anatomy) ¡ LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

  9. Thesaurus ¡for ¡Social ¡Science:TheSoz ¡ (simplified) ¡ concept ¡id ¡"10034303“ ¡ ¡ ¡ ¡ ¡ ¡term ¡"10034303" ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡prefLabel ¡id ¡"10034303" ¡ ¡ ¡prefLabel ¡de ¡"Abbrecher" ¡ ¡ ¡prefLabel ¡en ¡"drop-­‑out" ¡ ¡ ¡prefLabel ¡fr ¡"drop-­‑out" ¡ ¡ ¡altLabel ¡id ¡"10034307" ¡ ¡ ¡ ¡altLabel ¡de ¡"Studienabbrecher" ¡ ¡ ¡altLabel ¡en ¡"university ¡drop-­‑out" ¡ ¡ ¡altLabel ¡fr ¡“étudiant ¡qui ¡abandonne ¡ses ¡études“ ¡ LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

  10. TheSoz ¡(2) ¡ ¡ notaIon ¡"3.2.00" ¡ ¡ ¡ de ¡: ¡3.2.00 ¡Schule ¡und ¡Beruf ¡(berufliche ¡QualifikaIonselemente ¡im ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Bereich ¡der ¡schulischen ¡Ausbildung) ¡ ¡ en ¡: ¡3.2.00 ¡School ¡and ¡OccupaIon ¡(Elements ¡of ¡OccupaIonal ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡QualificaIon ¡in ¡School ¡EducaIon) ¡ ¡ fr ¡: ¡ ¡3.2.00 ¡École ¡et ¡profession ¡(éléments ¡de ¡qualificaIon ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡professionnelle ¡dans ¡le ¡domaine.. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡de ¡: ¡broader ¡notaIon ¡3.2 ¡ ¡:: ¡Beruf ¡und ¡QualifikaIon ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡en: ¡ ¡broader ¡notaIon ¡3.2 ¡ ¡:: ¡OccupaIon ¡and ¡QualificaIon ¡ ¡ fr ¡broader ¡notaIon ¡3.2 ¡ ¡:: ¡profession ¡et ¡qualificaIon ¡ ¡ de: ¡broader ¡notaIon ¡3 ¡ ¡:: ¡Interdiszipinäre ¡Anwendungsbereiche ¡der ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Sozialwissenschaqen ¡ ¡ en: ¡broader ¡notaIon ¡3 ¡:: ¡Interdisciplinary ¡ApplicaIon ¡Areas ¡of ¡Social ¡Sciences ¡ ¡ fr: ¡ ¡broader ¡notaIon ¡3 ¡:: ¡domaines ¡interdisciplinaires ¡d'applicaIon ¡des ¡sciences ¡ ¡ ¡ ¡ ¡ LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

  11. Lexicalization of TheSoz labels • Represented ¡in ¡the ¡lemon ¡model ¡ :university_drop-­‑out ¡[lemon:wriuenRep ¡"university ¡drop-­‑out"@en] ¡ lemon:sense ¡[lemon:reference ¡ontology:TheSoz10034307]; ¡ lemon:decomposiIon ¡( ¡:university_comp ¡ :drop-­‑out_comp ¡) ¡; ¡ lemon:phraseRoot ¡[ ¡lemon:consItuent ¡:NP ¡; ¡ lemon:edge ¡[lemon:consItuent ¡:NP ¡; ¡ lemon:edge ¡[lemon:consItuent ¡:NN ¡; ¡ lemon:leaf ¡university_comp ¡] ¡; ¡ lemon:edge ¡[lemon:consItuent ¡:NN ¡; ¡ lemon:leaf ¡drop-­‑out_comp ¡] ¡]; ¡ ¡ ]. ¡ LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

  12. Automatic Generation of IE grammars for the semantic annotation of text, according to TheSoz 1) ¡Using ¡the ¡Term ¡ID ¡of ¡TheSoz ¡as ¡names ¡ ¡ for ¡recogniIon ¡rules: ¡ term10034307 ¡= ¡ 2) ¡Using ¡the ¡corresponding ¡lexicalised ¡ ¡ labels ¡as ¡the ¡expressions ¡to ¡be ¡ ¡ recognized ¡by ¡the ¡IE ¡rule ¡(abstract ¡ 3) ¡Adding ¡possible ¡term ¡variants ¡to ¡the ¡ representaIon): ¡ rule): ¡ term10034307 ¡= ¡([lemma=„university“ ¡ term10034307 ¡= ¡[lemma=„university“ ¡ ¡ cat=„N“] ¡[lemma=„drop-­‑out“ ¡cat=„N“] ¡ cat=„N“] ¡[lemma=„drop-­‑out“ ¡cat=„N“] ¡; ¡ | ¡:var10034307) ¡; ¡ ¡ ¡ ¡ var10034307 ¡= ¡[lemma=„university“ ¡cat= „N“] ¡[lemma=„drop“ ¡cat=„V“] ¡[lemma= „out“ ¡cat=„P“] ¡; ¡ LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

  13. Automa(c ¡Genera(on ¡of ¡IE ¡grammars ¡for ¡the ¡ seman(c ¡annota(on ¡of ¡text, ¡according ¡to ¡TheSoz ¡(2) ¡ 4) ¡Linking ¡the ¡linguisIcally ¡annotated ¡ prefLabel ¡and ¡the ¡altLabel(s) ¡to ¡the ¡ corresponding ¡Concept ¡ID: ¡ concept10034303 ¡= ¡(term10034303 ¡| ¡ term10034307); ¡ 5) ¡Defining ¡the ¡annotaIon ¡generaIon ¡procedure ¡of ¡rules: ¡ Successful ¡applicaIon ¡of ¡ ¡the ¡rule ¡ ¡ concept10034303 ¡ can ¡ generate ¡the ¡following ¡annotaIon: ¡ CLASS= ¡TheSoz_ID=“10034303” ¡ ¡ altLabel_ID=“10034307“ ¡ altLabel ¡=“universQy ¡drop-­‑out@en“ ¡ ¡ SuperClass=TheSoz_ID_3.2 ¡ ¡ SuperClassLabel ¡= ¡„OccupaQon ¡and ¡QualificaQon“ ¡ altLabel_TranslaQon ¡ ¡= ¡„Studienabbrecher@de“ ¡ etc. ¡ LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

  14. Lessons ¡learned ¡ • Labels ¡of ¡knowledge ¡sources ¡need ¡to ¡follow ¡ harmonized ¡principles ¡ – Compact ¡labelling ¡but ¡complete ¡informaIon ¡ – Same ¡informaIon ¡across ¡mulIlingual ¡labels ¡ – Add ¡as ¡many ¡term ¡variants ¡as ¡possible ¡ (augmenIng ¡the ¡coverage ¡of ¡IE) ¡ • This ¡can ¡be ¡parIally ¡automaIcally ¡achieved ¡ LaTeCH ¡2013, ¡ACL ¡Workshop, ¡2013 ¡

Recommend


More recommend