Entity Linking with Multiple Knowledge Bases Bianca Pereira MSc. / PhD Day – November 2015
Motivation Entity Linking is the task of grounding entity mentions in text with Knowledge Base entries. h"ps://en.wikipedia.org/wiki/En8ty_linking ¡ h"ps://en.wikipedia.org/wiki/Knowledge_base ¡
Motivation Entity Linking is the task of grounding entity mentions in text with Knowledge Base entries.
Entity Linking with Multiple Knowledge Bases • Each Linked Data Knowledge Base is structured and described in its own way. • It is not feasible to have one Entity Linking solution for each Knowledge Base available. What do they have in common? Linked Data Principles (Linked Data Design Issues, 2005) 1. Use URIs as names for things. 2. Use HTTP URIs so that people can look up those names. 3. When someone looks up a URI, provide useful information, using the standards (RDF*, SPARQL) 4. Include links to other URIs so that they can discover more things
State-of-the-art Men8on ¡ Candidate ¡ Candidate ¡ En8ty ¡ Recogni8on ¡ Genera8on ¡ Selec8on ¡ Disambigua8on ¡ Men8on ¡1 ¡ c10 ¡ c4 ¡ Men8on ¡3 ¡ c1 ¡ c2 ¡ c3 ¡ c1 ¡ c9 ¡ c9 ¡ c4 ¡ Men8on ¡2 ¡ c8 ¡ c6 ¡ c7 ¡ c6 ¡ c5 ¡ c5 ¡ NIL ¡ c10 ¡ Men8on ¡4 ¡ Men8on ¡5 ¡
State-of-the-art Men8on ¡ Candidate ¡ Candidate ¡ En8ty ¡ Recogni8on ¡ Genera8on ¡ Selec8on ¡ Disambigua8on ¡ Features • Popularity • Prior probability, inDegree, outDegree, size of textual description, page rank, generality • Contextual • Surrounding words, keywords, whole document • Coherence • Intersection of neighborhood, distance, category
State-of-the-art Solu)on ¡ Popularity ¡ Contextual ¡ Coherence ¡ Ceccareli ¡et ¡al. ¡2013 ¡ X ¡ X ¡ Cucerzan ¡2007 ¡ X ¡ X ¡ Dredze ¡et ¡al. ¡2010 ¡ X ¡ X ¡ Han ¡et ¡al. ¡2011 ¡ X ¡ X ¡ Hoffart ¡et ¡al. ¡2011 ¡ X ¡ X ¡ X ¡ Kulkarni ¡et ¡al. ¡2009 ¡ X ¡ X ¡ X ¡ Mendes ¡et ¡al. ¡2011 ¡ X ¡ X ¡ Milne ¡and ¡Wi"en ¡2008 ¡ X ¡ X ¡ X ¡ Ra8nov ¡et ¡al. ¡2011 ¡ X ¡ X ¡ X ¡ Usbeck ¡et ¡al. ¡2014 ¡ X ¡ Zheng ¡et ¡al. ¡2010 ¡ X ¡
Knowledge Base Segmentation Goal: Explore the use of Knowledge Base segmentation to decrease ambiguity for Entity Disambiguation. - Knowledge Base Segmentation using Coherence - Knowledge Base Segmentation using Popularity
Knowledge Base Segmentation Based on Coherence Premise: Entities appearing in the same discourse are more closely related in the Knowledge Base than those that do not appear in the same discourse. Segmenta8on ¡based ¡on ¡dense ¡subgraphs ¡ Segmenta8on ¡centered ¡in ¡popular ¡en88es ¡ (LancichineX ¡et ¡al. ¡2001) ¡
Knowledge Base Segmentation Based on Coherence TAC-KBP 2014 EDL Task - More than 800,000 entities and more than 2.5 million relations extracted from Wikipedia 2008 Infoboxes. - Train set: 158 documents, 5786 mentions being 2553 NIL. - Test set: 139 documents, 5234 mentions being 2414 NIL. Evaluation - Accuracy (Does the modularization keep the correct candidate?) - What is the impact in the precision of disambiguation?
Knowledge Base Segmentation Based on Coherence Accuracy ¡ Method ¡ Train ¡ Test ¡ Dense ¡(smallest) ¡ 0.18 ¡ 0.17 ¡ Dense ¡(all) ¡ 0.32 ¡ 0.34 ¡ En8ty ¡(smallest) ¡ 0.45 ¡ 0.53 ¡ En8ty ¡(All) ¡ 0.46 ¡ 0.54 ¡ Impact ¡on ¡Disambigua)on ¡Precision ¡ Method ¡ Train ¡ Test ¡ BF ¡+ ¡HITS ¡ ¡ MW ¡+ ¡PR ¡ BF ¡+ ¡HITS ¡ MW ¡+ ¡PR ¡ None ¡ 0.362 ¡ 0.336 ¡ 0.404 ¡ 0.367 ¡ Dense ¡(smallest) ¡ 0.288 ¡ 0.288 ¡ 0.285 ¡ 0.285 ¡ Dense ¡(all) ¡ 0.340 ¡ 0.287 ¡ 0.421 ¡ 0.309 ¡ En8ty ¡(smallest) ¡ 0.242 ¡ 0.211 ¡ 0.307 ¡ 0.303 ¡ En8ty ¡(All) ¡ 0.240 ¡ 0.213 ¡ 0.296 ¡ 0.288 ¡
Knowledge Base Segmentation Based on Coherence Observations: - NIL mentions deeply affect the disambiguation. - Candidates for NIL entities cluster - Correct candidates do not cluster. - Incorrect Premise - Entities appearing in the same discourse are not necessarily more closely related than those that do not appear in the discourse. Need for a solution that allows navigation in the graph of the Knowledge Base without requiring dense clusters.
Knowledge Base Segmentation based on Popularity Premise: In cases of ambiguity the most popular entity is chosen, unless more context is provided in favor of the less popular. LESS ¡ AMBIGUITY ¡ Earth ¡ Ireland ¡ Brazil ¡ U.S. ¡ Canada ¡ Dublin ¡ Galway ¡ Niterói ¡ Aracaju ¡ Dublin ¡ Sea"le ¡ Dublin ¡ … ¡ … ¡ … ¡ … ¡ … ¡ … ¡ … ¡ MORE ¡ AMBIGUITY ¡
Knowledge Base Segmentation based on Popularity Premise: In cases of ambiguity the most popular entity is chosen, unless more context is provided in favor of the less popular. Men8on ¡1 ¡ C1_1 ¡ C2_2 ¡ C3_2 ¡ C10_2 ¡ C4_2 ¡ Men8on ¡3 ¡ Men8on ¡2 ¡ C9_2 ¡ C5_3 ¡ C8_3 ¡ C8_3 ¡ C6_2 ¡ C6_2 ¡ C7_2 ¡ Men8on ¡4 ¡
Knowledge Base Segmentation based on Popularity • 20 Reuters articles from CoNLL • Multiple Interpretations • Metonymy • 1 annotator • Annotation time – 17 hours • 24.5 mentions per article • 1.08 Candidates/mention • 15.18 Candidates/mention • 251 NILs • 192 NILs • 239 non NILs • 298 non NILs
Knowledge Base Segmentation based on Popularity 0.96 ¡ 1 ¡ 0.955 ¡ 0.9 ¡ 0.95 ¡ 0.8 ¡ 0.945 ¡ 0.7 ¡ 0.94 ¡ 0.6 ¡ 0.935 ¡ 0.5 ¡ 0.93 ¡ 0.4 ¡ 0.925 ¡ 0.3 ¡ 0.92 ¡ 0.2 ¡ 0.915 ¡ 0.1 ¡ 0.91 ¡ 0.905 ¡ 0 ¡ Precision ¡ Recall ¡ Fscore ¡ Precision ¡ Recall ¡ Fscore ¡ Baseline ¡ BF ¡(1 ¡hop) ¡+ ¡HITS ¡ BF ¡(2 ¡hops) ¡+ ¡HITS ¡ MW ¡+ ¡PR ¡ Hierarchical ¡(0.6) ¡ Hierarchical ¡(1) ¡
Conclusions and Future Work - NIL is still a big challenge in Entity Linking. - Entities are related through discourse but not necessarily closely related in the Knowledge Base. - Disambiguation based on navigation between segments of different level of generality seems promising. - Explore the use of popularity with other types of relations. - Resolve which Knowledge Base has the most relevant sense for what is represented in the text. - Use of contextual clues. How to provide lexicalization to Knowledge Bases without text? - Explore impact of KB model in Entity Linking. - Entity -> entity vs entity -> relator -> entity
Recommend
More recommend