decentralized en ty level modeling for coreference resolu
play

Decentralized En.ty-Level Modeling for Coreference Resolu.on - PowerPoint PPT Presentation

Decentralized En.ty-Level Modeling for Coreference Resolu.on Greg Durre<, David Hall, and Dan Klein UC Berkeley En.ty-Level Modeling En.ty-Level Modeling New


  1. Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks

  2. Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks

  3. Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. = M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks

  4. Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. = M ALE M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks

  5. Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. = = M ALE M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks

  6. Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. = = M ALE F EMALE M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks

  7. Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. M ALE F EMALE M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks

  8. Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. M ALE F EMALE M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks

  9. Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. Maintains ¡tractability ¡of ¡pairwise ¡system, incorporates ¡en.ty-­‑level ¡informa.on M ALE F EMALE M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks

  10. B ASIC ¡Model ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]

  11. B ASIC ¡Model New ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]

  12. B ASIC ¡Model New New 1 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]

  13. B ASIC ¡Model New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]

  14. B ASIC ¡Model A 1 A 2 A 3 New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]

  15. B ASIC ¡Model Pr ( a i | x ) ∝ exp( w T f ( a i , x )) A 1 A 2 A 3 New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]

  16. B ASIC ¡Model Pr ( a i | x ) ∝ exp( w T f ( a i , x )) Head ¡match Both ¡proper ... A 1 A 2 A 3 New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]

  17. B ASIC ¡Model Pr ( a i | x ) ∝ exp( w T f ( a i , x )) New ¡ ⋀ ¡proper Head ¡match New ¡ ⋀ ¡two ¡words Both ¡proper ... ... A 1 A 2 A 3 New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]

  18. B ASIC ¡Model Pr ( a i | x ) ∝ exp( w T f ( a i , x )) A 1 A 2 A 3 New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]

  19. B ASIC ¡Model Pr ( a i | x ) ∝ exp( w T f ( a i , x )) A 1 A 2 A 3 New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]

  20. D ECENTRALIZED ¡Model A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  21. D ECENTRALIZED ¡Model P 1 P 3 P 2 A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  22. D ECENTRALIZED ¡Model P 1 P 3 P 2 A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  23. D ECENTRALIZED ¡Model P 1 P 3 P 2 M F A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  24. D ECENTRALIZED ¡Model P 1 P 3 P 2 M F M F A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  25. D ECENTRALIZED ¡Model P 1 P 3 P 2 M F M F M F A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  26. D ECENTRALIZED ¡Model P 1 P 3 P 2 A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  27. D ECENTRALIZED ¡Model P 1 P 3 P 2 A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  28. D ECENTRALIZED ¡Model P 1 P 3 P 2 = A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  29. D ECENTRALIZED ¡Model P 1 P 3 P 2 = A 1 A 2 A 3 New New 1 2 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  30. D ECENTRALIZED ¡Model P 1 P 3 P 2 = 1 A 1 A 2 A 3 New New 1 2 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  31. D ECENTRALIZED ¡Model P 1 P 3 P 2 = 1 A 1 A 2 A 3 New 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  32. D ECENTRALIZED ¡Model M F M F P 1 P 3 P 2 = 1 A 1 A 2 A 3 New 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  33. D ECENTRALIZED ¡Model M F M F P 1 P 3 P 2 = 1 1 A 1 A 2 A 3 New 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  34. D ECENTRALIZED ¡Model M F M F P 1 P 3 P 2 = 0 1 A 1 A 2 A 3 New 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  35. D ECENTRALIZED ¡Model P 1 P 3 P 2 = A 1 A 2 A 3 New New 1 2 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  36. D ECENTRALIZED ¡Model P 1 P 3 P 2 = A 1 A 2 A 3 1 2 New New New 1 2 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  37. D ECENTRALIZED ¡Model P 1 P 3 P 2 M F = A 1 A 2 A 3 1 2 New New New 1 2 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  38. D ECENTRALIZED ¡Model P 1 P 3 P 2 M F M F = A 1 A 2 A 3 1 2 New New New 1 2 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  39. D ECENTRALIZED ¡Model P 1 P 3 P 2 M F M F = A 1 A 2 A 3 1 2 New New New 1 2 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  40. D ECENTRALIZED ¡Model P 1 P 3 P 2 = A 1 A 2 A 3

  41. D ECENTRALIZED ¡Model P 1 P 3 P 2 = = A 1 A 2 A 3

  42. D ECENTRALIZED ¡Model P 1 P 3 P 2 = = = A 1 A 2 A 3

  43. D ECENTRALIZED ¡Model P 1 P 3 P 2 = = = } A 1 A 2 A 3 Pairwise model

  44. D ECENTRALIZED ¡Model } Property model P 1 P 3 P 2 = = = } A 1 A 2 A 3 Pairwise model

  45. D ECENTRALIZED ¡Model } Property model P 1 P 3 P 2 = = } Equality = factors } A 1 A 2 A 3 Pairwise model

  46. Inference

  47. Inference ¡Need ¡to ¡compute ¡expected ¡feature ¡counts: X⌘ ⇣X ⇣X X⌘ − E all f E gold f P 1 P 3 P 2 P 1 P 2 P 3 A 2 A 2 A 1 A 3 A 1 A 3

  48. Inference ¡Need ¡to ¡compute ¡expected ¡feature ¡counts: X⌘ ⇣X ⇣X X⌘ − E all f E gold f P 1 P 3 P 2 P 1 P 2 P 3 A 2 A 2 A 1 A 3 A 1 A 3 ¡Use ¡belief ¡propaga.on ¡to ¡compute ¡marginals ¡ ¡ ¡ ¡ ¡ over ¡variables

  49. Inference ¡Need ¡to ¡compute ¡expected ¡feature ¡counts: X⌘ ⇣X ⇣X X⌘ − E all f E gold f P 1 P 3 P 2 P 1 P 2 P 3 A 2 A 2 A 1 A 3 A 1 A 3 ¡Use ¡belief ¡propaga.on ¡to ¡compute ¡marginals ¡ ¡ ¡ ¡ ¡ over ¡variables ¡Decoding: ¡max ¡over ¡each ¡ ¡ ¡ ¡ ¡ ¡marginal A i

  50. Learning

  51. Learning ¡Op.mize ¡condi.onal ¡log ¡likelihood ¡of ¡training ¡data

  52. Learning ¡Op.mize ¡condi.onal ¡log ¡likelihood ¡of ¡training ¡data X Pr ( a i g | x i ) � � log i

  53. Learning ¡Op.mize ¡condi.onal ¡log ¡likelihood ¡of ¡training ¡data X Pr ( a i g | x i ) � � log i Training ¡ examples

  54. Learning ¡Op.mize ¡condi.onal ¡log ¡likelihood ¡of ¡training ¡data Gold ¡antecedent ¡vector X Pr ( a i g | x i ) � � log i Training ¡ examples

  55. Learning ¡Op.mize ¡condi.onal ¡log ¡likelihood ¡of ¡training ¡data Gold ¡antecedent ¡vector X Pr ( a i g | x i ) � � log i Observed ¡document ¡ Training ¡ proper.es examples

  56. Learning ¡Op.mize ¡condi.onal ¡log ¡likelihood ¡of ¡training ¡data 0 1 X X Pr ( a i g | x i ) log @ A i a i g ∈ A ( C )

  57. Learning ¡Op.mize ¡condi.onal ¡log ¡likelihood ¡of ¡training ¡data 0 1 X X Pr ( a i g | x i ) log @ A i a i g ∈ A ( C ) Antecedent ¡choices ¡ consistent ¡with ¡gold ¡ standard

  58. Learning

  59. Learning ¡Want ¡to ¡op.mize ¡for ¡MUC, ¡B 3 , ¡CEAF, ¡etc.

  60. Learning ¡Want ¡to ¡op.mize ¡for ¡MUC, ¡B 3 , ¡CEAF, ¡etc. ¡Use ¡a ¡decomposable ¡metric ¡as ¡a ¡proxy

  61. Learning ¡Want ¡to ¡op.mize ¡for ¡MUC, ¡B 3 , ¡CEAF, ¡etc. ¡Use ¡a ¡decomposable ¡metric ¡as ¡a ¡proxy New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  62. Learning ¡Want ¡to ¡op.mize ¡for ¡MUC, ¡B 3 , ¡CEAF, ¡etc. ¡Use ¡a ¡decomposable ¡metric ¡as ¡a ¡proxy False ¡Anaphor New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  63. Learning ¡Want ¡to ¡op.mize ¡for ¡MUC, ¡B 3 , ¡CEAF, ¡etc. ¡Use ¡a ¡decomposable ¡metric ¡as ¡a ¡proxy False ¡New False ¡Anaphor New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  64. Learning ¡Want ¡to ¡op.mize ¡for ¡MUC, ¡B 3 , ¡CEAF, ¡etc. ¡Use ¡a ¡decomposable ¡metric ¡as ¡a ¡proxy False ¡New Wrong ¡Link False ¡Anaphor New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  65. Learning ¡Want ¡to ¡op.mize ¡for ¡MUC, ¡B 3 , ¡CEAF, ¡etc. ¡Use ¡a ¡decomposable ¡metric ¡as ¡a ¡proxy k 1 ( False Anaphors ) + k 2 ( False News ) + k 3 ( Wrong Links ) False ¡New Wrong ¡Link False ¡Anaphor New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡

  66. Learning 0 1 X X Pr ( a i g | x i ) log @ A i a i g ∈ A ( C )

  67. Learning ¡Incorporate ¡this ¡loss ¡with ¡ so&max-­‑margin ¡by ¡ ¡ ¡adding ¡it ¡as ¡a ¡feature ¡to ¡the ¡pairwise ¡model 0 1 X X Pr ( a i g | x i ) log @ A i a i g ∈ A ( C ) [Gimpel ¡and ¡Smith ¡(2010)]

  68. Learning ¡Incorporate ¡this ¡loss ¡with ¡ so&max-­‑margin ¡by ¡ ¡ ¡adding ¡it ¡as ¡a ¡feature ¡to ¡the ¡pairwise ¡model 0 1 Pr 0 X X Pr ( a i g | x i ) log @ A i a i g ∈ A ( C ) [Gimpel ¡and ¡Smith ¡(2010)]

  69. Learning ¡Incorporate ¡this ¡loss ¡with ¡ so&max-­‑margin ¡by ¡ ¡ ¡adding ¡it ¡as ¡a ¡feature ¡to ¡the ¡pairwise ¡model 0 1 Pr 0 X X Pr ( a i g | x i ) + λ k w k 1 log @ A i a i g ∈ A ( C ) [Gimpel ¡and ¡Smith ¡(2010)]

  70. Experiments

  71. Experiments ¡CoNLL ¡2011 ¡dataset, ¡system ¡men.ons ¡from ¡ ¡ ¡ ¡ ¡ Lee ¡et ¡al. ¡(2011)

  72. Experiments ¡CoNLL ¡2011 ¡dataset, ¡system ¡men.ons ¡from ¡ ¡ ¡ ¡ ¡ Lee ¡et ¡al. ¡(2011) ¡Baselines: ¡Pairwise ¡system ¡Centralized ¡en.ty-­‑level ¡system ¡following ¡ ¡ ¡ ¡ ¡ ¡ Rahman ¡and ¡Ng ¡(2009)

Recommend


More recommend