av avirup sil ge geor orgiana dinu dinu and and radu radu
play

Av Avirup Sil, Ge Geor orgiana Dinu Dinu and and Radu Radu Flor - PowerPoint PPT Presentation

Av Avirup Sil, Ge Geor orgiana Dinu Dinu and and Radu Radu Flor orian IB IBM M T.J. Watson on Research Center Yor orktow own Heights, NY NY Gaithersburg, MD General Architecture for the IBM Entity Discovery &


  1. Av Avirup Sil, Ge Geor orgiana Dinu Dinu and and Radu Radu Flor orian IB IBM M T.J. Watson on Research Center Yor orktow own Heights, NY NY Gaithersburg, ¡MD ¡

  2. ¡ General Architecture for the IBM Entity Discovery & Linking (EDL) System § Mention Detection § Entity Linking & Clustering ¡ Adjusting the system to the TAC Trilingual EDL T ask ¡ Experiments and Results 2 ¡

  3. IBM MD IB IBM M EL EL Experiments Conclusion ¡ Standard IOB sequence classifier, trained on the task ¡ 2 main classifiers: CRF and Neural Network-based ¡ The Spanish system was jointly trained on English and Spanish ¡ Chinese system is a character-based system 3 ¡

  4. IBM MD IB IBM M EL EL Experiments Conclusion P ( y t | X , y t − 1 ) • Computed the probability: P ( y t | X , y t − 1 ) using a neural network • Uses Viterbi to find the best tag sequence • Contrary to popular belief, it does better when trained with linguistic features! 4 ¡

  5. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Both systems are high precision ¡ We combine them as follows § Start with the “best” system § For each consequent system ▪ Add any mentions that do not overlap with the current output CRF ¡ NN ¡ Combina0on ¡ English ¡ 0.715 ¡ 0.718 ¡ 0.727 ¡ Spanish ¡ 0.703 ¡ 0.698 ¡ 0.752 ¡ 5 ¡

  6. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Some “interesting” examples m.07_m9_ ¡ NIL01468 ¡ m.045m1_ ¡ NIL01371 ¡ m.0_6t_z8 ¡ m.02j9z ¡ HitlerWasASexyMofo ¡ Jesus_was_a_Panda ¡ EU ¡ ¡ Some others m.034ls ¡ m.019x9z ¡ ¡ m.019x9z ¡ m.019x9z ¡ (George ¡H.W. ¡Bush) ¡ ¡ ¡ ¡ ¡ ¡(Jeb ¡Bush) ¡ m.019x9z ¡ m.019x9z ¡ grandfather ¡ Jeb ¡Bush ¡ Jeb ¡Bush ¡ TEDL15_EVAL_22905 ¡ TEDL15_EVAL_22905 ¡ TEDL15_EVAL_27473 ¡ m.0345h ¡ NIL00929 ¡ NIL00009 ¡ NIL00009 ¡ m.0345h ¡ Germany ¡ Dylann ¡Roof ¡ TEDL15_EVAL_04270 ¡ TEDL15_EVAL_03416 ¡… ¡(21 ¡of ¡them) ¡ 6 ¡

  7. IBM MD IB IBM M EL EL Experiments Conclusion ¡ Reference Knowledge Base ¡ Preprocessing for IBM EL System ¡ Our Re-ranking model (and using the same model for other languages) ¡ Experiments 7 ¡

  8. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Information extraction from Wikipedia § April 2014 dump of the English corpus § ~4.3M Pages (unique KB ids/titles) § T ext § Redirects § Inlinks § Outlinks § Categories § Pr(title|mention) : prior probability 8 ¡

  9. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Information extraction from Wikipedia § April 2014 dump § ~4.3M KB Ids § T ext § Redirects § Inlinks § Outlinks § Categor ories § Pr(title|mention) : prior probability 9 ¡

  10. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Information extraction from Wikipedia On ¡June ¡29, ¡2012, ¡Holmes ¡had ¡filed ¡for ¡divorce ¡from ¡Cruise ¡in ¡ § April 2014 dump New ¡York ¡aIer ¡five ¡years ¡of ¡marriage.[100][101] ¡ § ~4.3M KB Ids Ethan ¡Hunt ¡(Cruise) ¡while ¡vacaPoning ¡is ¡alerted… ¡ § T ext § Redirects Cruise ¡joined ¡in ¡and ¡made ¡his ¡debut ¡for ¡Arsenal ¡F.C. ¡Reserves… ¡ § Inlinks … ¡ § Outlinks Thomas ¡Cruise ¡(footballer) ¡ Tom ¡Cruise ¡ § Categories § Pr Pr(title|mention on) : prior or prob obability 10 ¡

  11. ¡ Reference Knowledge Base ¡ Preprocessing for IBM EL System ¡ Our Re-ranking model ¡ Experiments 11 ¡

  12. IBM MD IBM IB M EL EL Experiments Conclusion IBM ¡SIRE ¡ “..Broad ¡catapulted ¡England ¡ ¡ “ [Broad] ¡ catapulted ¡ [England] ¡ ¡ to ¡a ¡74-­‑run ¡win ¡over ¡Australia… ¡ to ¡a ¡74-­‑run ¡win ¡over ¡ [Australia] … ¡ … ¡ 1. 1. Mention Me on … ¡ Tim ¡Bresnan ¡had ¡opener ¡David ¡ Detection on [Tim ¡Bresnan] ¡ had ¡opener ¡ ¡ Warner..” ¡ 2. 2. In In-Doc oc Cor oref [David ¡Warner] ..” ¡ Ex Extracted T ext T ext with mention ons Any Web Doc ocument Partition on the mention ons into o sets of mention ons 12 ¡

  13. IBM MD IBM IB M EL EL Experiments Conclusion IBM ¡SIRE ¡ “..Broad ¡catapulted ¡England ¡ ¡ “Stuart ¡Broad ¡catapulted ¡England ¡ ¡ Broa oad; En England; Australia to ¡a ¡74-­‑run ¡win ¡over ¡Australia… ¡ to ¡a ¡74-­‑run ¡win ¡over ¡Australia… ¡ … ¡ 1. 1. Me Mention on … ¡ Tim ¡Bresnan ¡had ¡opener ¡David ¡ Tim Br Tim Bresnan; David W esnan; David War arner ner Detection on Tim ¡Bresnan ¡had ¡opener ¡David ¡ Warner..” ¡ 2. 2. In-Doc In oc Cor oref Warner..” ¡ Ex Extracted T ext T ext with mention ons Any Web Doc ocument Partition on the “ Men0on-­‑En0ty ¡Link ” ¡Tuples: ¡ mention ons into o sets [Broad] ¡ ¡ ¡; ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡[England] ¡ ¡; ¡ ¡ ¡[Australia] ¡ of mention ons Ex Extract top op-K ¡ Candidate Candidate ¡ Connected ¡Component ¡1 ¡ • Entity Li En Links Stuart ¡ Neil England MenPons: ¡ England • Broad Broad England Broad ¡ Broad; ¡England; ¡Australia ¡ Rugby • Ins. Cricket ¡ Connected ¡Component ¡2 ¡ Team • Team ¡ MenPons: ¡ • Tim ¡Bresnan; ¡David ¡Warner ¡ • [Tim ¡Bresnan] ¡; ¡[David ¡Warner] ¡ … ¡ • Con onnected Com ompon onents … ¡ 13 ¡

  14. IBM MD IBM IB M EL EL Experiments Conclusion Mention Me on-En Entity_Li _Link T Tuples: uples: 1. { [Broa oad], Stuart_Broad , [En England], England_Cricket_Team,[ Australia Australia ], Australia_Cricket_Team } “Broad; England; Australia” Con onnected Com ompon onent 2. { [Broa oad], Neil Broad , [En England], England, [ Australia ], Australia } 3. … 4. { [Broad], Neil Broad, [England], England, [Australia], Australia_Cricket_T eam} 5. … Mention Me on-En Entity_Li _Link T Tuples: uples: “ Tim Bresnan; David Warner ” 1. { [Tim Br [Tim Bresnan] esnan], Tim_Bresnan , [David W [David War arner] ner], David_Warner_(actor) } Con onnected Com ompon onent 2. {{ [Tim Br Tim Bresnan esnan], Tim_Bresnan, [David W David War arner ner], David_Warner_(cricketer)} 3. … ¡ Re-ranking mod odel: ¡ Classifier Classifier: Maximum En Ma Entrop opy § 14 ¡

  15. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Local Features § Cosine Similarity § Domain Independent features § Count All (Category, Redirect Links, InLinks, Outlinks,..) § Count Unique (Category, Redirect Links, InLinks, Outlinks,..) ¡ Global Features § Features from Entity Links § Categor orical Relation on Cou ount § En Entity-Type-PMI MI § NIL Detector Features § T oken-level features § Link Overlap 15 ¡

  16. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Knowledge-base Independent features from Sil et.al. 2012 are ported to Wikipedia ¡ Example of such a feature: Count All (OutLinks) T ext: “… [Broa oad] catapulted [En England] to a 74-run win over [Australia] [Australia] in the [Ashes] [Ashes] T est series thanks to [Tim Br [Tim Bresnan] esnan] ...” ID Name Outlinks ID ID Na Name Outlinks Outlinks Neil_Broad Neil ¡Broad Australia, ¡Grand ¡Slam, ¡… Stuart_Broad Stuart Broad England; Australia; Ashes; Tim Bresnan, … Count All (Outlinks) {([Broad], Stuart_Broad)} Count All (Outlinks) {([Broad], Neil_Broad)} = Count<Outlink_1> + Count<Outlink_2> + .. = Count<Outlink_1> + Count<Outlink_2> + .. = Count<England> + Count<Australia> +… = Count<Australia> + Count<Grad Slam> +… = 1 + 1 + 1 + 1 +.. = 4 = 1 + 0 +.. = 1 16 ¡

  17. IBM MD IBM IB M EL EL Experiments Conclusion “ ..seam bowler [Broa England] to a 74-run win ” oad] catapulted [En England ¡ seam ¡bowler ¡ Obtain the embeddings [Mi Mikol olov ov13] of words from input and Wiki target 1. 2. Sum up all the embeddings from input and Wiki target 3. Compute: Cosine_Similarity (InputDoc, Wiki (Stuart_Broad) ) > Cosine_Similarity (InputDoc, Wiki (Neil_Broad) ) § 17 ¡

  18. IBM MD IB IBM M EL EL Experiments Conclusion “ ..seam bowler [Broa England] to a 74-run win ” oad] catapulted [En England ¡ seam ¡bowler ¡ Cosine_Similarity (InputDoc, Wiki (Stuart_Broad) ) > Cosine_Similarity (InputDoc, Wiki (Neil_Broad) ) 18 ¡

  19. IBM MD IBM IB M EL EL Experiments Conclusion ¡ Use Category Relations between entities in Wikipedia ¡ Ex Example: [Broad] was helped by [Tim Bresnan] [Broad] was helped by [Tim Bresnan] Neil_Broad ¡ Tim_Bresnan ¡ Stuart_Broad ¡ Tim_Bresnan ¡ Relationship in Wikipedia No relation No onship! English Cricketers In Indicates: A Poor oor Ma Match! 19 ¡

Recommend


More recommend