Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks
Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks
Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. = M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks
Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. = M ALE M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks
Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. = = M ALE M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks
Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. = = M ALE F EMALE M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks
Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. M ALE F EMALE M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks
Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. M ALE F EMALE M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks
Our ¡Decentralized ¡Approach New ¡York ¡was ¡where ¡[James ¡Reed] ¡met ¡[Rose ¡Brooks]. ¡[Reed] ¡ was ¡introduced ¡to ¡[Brooks] ¡at ¡[his] ¡company’s ¡Christmas ¡party. Maintains ¡tractability ¡of ¡pairwise ¡system, incorporates ¡en.ty-‑level ¡informa.on M ALE F EMALE M ALE M ALE F EMALE M ALE F EMALE U NKNOWN U NKNOWN M ALE James ¡ Rose ¡ Reed Brooks his Reed Brooks
B ASIC ¡Model ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]
B ASIC ¡Model New ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]
B ASIC ¡Model New New 1 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]
B ASIC ¡Model New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]
B ASIC ¡Model A 1 A 2 A 3 New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]
B ASIC ¡Model Pr ( a i | x ) ∝ exp( w T f ( a i , x )) A 1 A 2 A 3 New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]
B ASIC ¡Model Pr ( a i | x ) ∝ exp( w T f ( a i , x )) Head ¡match Both ¡proper ... A 1 A 2 A 3 New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]
B ASIC ¡Model Pr ( a i | x ) ∝ exp( w T f ( a i , x )) New ¡ ⋀ ¡proper Head ¡match New ¡ ⋀ ¡two ¡words Both ¡proper ... ... A 1 A 2 A 3 New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]
B ASIC ¡Model Pr ( a i | x ) ∝ exp( w T f ( a i , x )) A 1 A 2 A 3 New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]
B ASIC ¡Model Pr ( a i | x ) ∝ exp( w T f ( a i , x )) A 1 A 2 A 3 New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡ [Denis ¡and ¡Baldridge ¡(2008)]
D ECENTRALIZED ¡Model A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 M F A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 M F M F A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 M F M F M F A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 = A 1 A 2 A 3 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 = A 1 A 2 A 3 New New 1 2 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 = 1 A 1 A 2 A 3 New New 1 2 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 = 1 A 1 A 2 A 3 New 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model M F M F P 1 P 3 P 2 = 1 A 1 A 2 A 3 New 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model M F M F P 1 P 3 P 2 = 1 1 A 1 A 2 A 3 New 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model M F M F P 1 P 3 P 2 = 0 1 A 1 A 2 A 3 New 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 = A 1 A 2 A 3 New New 1 2 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 = A 1 A 2 A 3 1 2 New New New 1 2 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 M F = A 1 A 2 A 3 1 2 New New New 1 2 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 M F M F = A 1 A 2 A 3 1 2 New New New 1 2 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 M F M F = A 1 A 2 A 3 1 2 New New New 1 2 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
D ECENTRALIZED ¡Model P 1 P 3 P 2 = A 1 A 2 A 3
D ECENTRALIZED ¡Model P 1 P 3 P 2 = = A 1 A 2 A 3
D ECENTRALIZED ¡Model P 1 P 3 P 2 = = = A 1 A 2 A 3
D ECENTRALIZED ¡Model P 1 P 3 P 2 = = = } A 1 A 2 A 3 Pairwise model
D ECENTRALIZED ¡Model } Property model P 1 P 3 P 2 = = = } A 1 A 2 A 3 Pairwise model
D ECENTRALIZED ¡Model } Property model P 1 P 3 P 2 = = } Equality = factors } A 1 A 2 A 3 Pairwise model
Inference
Inference ¡Need ¡to ¡compute ¡expected ¡feature ¡counts: X⌘ ⇣X ⇣X X⌘ − E all f E gold f P 1 P 3 P 2 P 1 P 2 P 3 A 2 A 2 A 1 A 3 A 1 A 3
Inference ¡Need ¡to ¡compute ¡expected ¡feature ¡counts: X⌘ ⇣X ⇣X X⌘ − E all f E gold f P 1 P 3 P 2 P 1 P 2 P 3 A 2 A 2 A 1 A 3 A 1 A 3 ¡Use ¡belief ¡propaga.on ¡to ¡compute ¡marginals ¡ ¡ ¡ ¡ ¡ over ¡variables
Inference ¡Need ¡to ¡compute ¡expected ¡feature ¡counts: X⌘ ⇣X ⇣X X⌘ − E all f E gold f P 1 P 3 P 2 P 1 P 2 P 3 A 2 A 2 A 1 A 3 A 1 A 3 ¡Use ¡belief ¡propaga.on ¡to ¡compute ¡marginals ¡ ¡ ¡ ¡ ¡ over ¡variables ¡Decoding: ¡max ¡over ¡each ¡ ¡ ¡ ¡ ¡ ¡marginal A i
Learning
Learning ¡Op.mize ¡condi.onal ¡log ¡likelihood ¡of ¡training ¡data
Learning ¡Op.mize ¡condi.onal ¡log ¡likelihood ¡of ¡training ¡data X Pr ( a i g | x i ) � � log i
Learning ¡Op.mize ¡condi.onal ¡log ¡likelihood ¡of ¡training ¡data X Pr ( a i g | x i ) � � log i Training ¡ examples
Learning ¡Op.mize ¡condi.onal ¡log ¡likelihood ¡of ¡training ¡data Gold ¡antecedent ¡vector X Pr ( a i g | x i ) � � log i Training ¡ examples
Learning ¡Op.mize ¡condi.onal ¡log ¡likelihood ¡of ¡training ¡data Gold ¡antecedent ¡vector X Pr ( a i g | x i ) � � log i Observed ¡document ¡ Training ¡ proper.es examples
Learning ¡Op.mize ¡condi.onal ¡log ¡likelihood ¡of ¡training ¡data 0 1 X X Pr ( a i g | x i ) log @ A i a i g ∈ A ( C )
Learning ¡Op.mize ¡condi.onal ¡log ¡likelihood ¡of ¡training ¡data 0 1 X X Pr ( a i g | x i ) log @ A i a i g ∈ A ( C ) Antecedent ¡choices ¡ consistent ¡with ¡gold ¡ standard
Learning
Learning ¡Want ¡to ¡op.mize ¡for ¡MUC, ¡B 3 , ¡CEAF, ¡etc.
Learning ¡Want ¡to ¡op.mize ¡for ¡MUC, ¡B 3 , ¡CEAF, ¡etc. ¡Use ¡a ¡decomposable ¡metric ¡as ¡a ¡proxy
Learning ¡Want ¡to ¡op.mize ¡for ¡MUC, ¡B 3 , ¡CEAF, ¡etc. ¡Use ¡a ¡decomposable ¡metric ¡as ¡a ¡proxy New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
Learning ¡Want ¡to ¡op.mize ¡for ¡MUC, ¡B 3 , ¡CEAF, ¡etc. ¡Use ¡a ¡decomposable ¡metric ¡as ¡a ¡proxy False ¡Anaphor New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
Learning ¡Want ¡to ¡op.mize ¡for ¡MUC, ¡B 3 , ¡CEAF, ¡etc. ¡Use ¡a ¡decomposable ¡metric ¡as ¡a ¡proxy False ¡New False ¡Anaphor New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
Learning ¡Want ¡to ¡op.mize ¡for ¡MUC, ¡B 3 , ¡CEAF, ¡etc. ¡Use ¡a ¡decomposable ¡metric ¡as ¡a ¡proxy False ¡New Wrong ¡Link False ¡Anaphor New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
Learning ¡Want ¡to ¡op.mize ¡for ¡MUC, ¡B 3 , ¡CEAF, ¡etc. ¡Use ¡a ¡decomposable ¡metric ¡as ¡a ¡proxy k 1 ( False Anaphors ) + k 2 ( False News ) + k 3 ( Wrong Links ) False ¡New Wrong ¡Link False ¡Anaphor New New New 1 1 2 ... ¡[James ¡Reed] 1 ¡met ¡[Rose ¡Brooks] 2 . ¡ ¡ ¡ ¡[Reed] 3 ¡was ¡... ¡
Learning 0 1 X X Pr ( a i g | x i ) log @ A i a i g ∈ A ( C )
Learning ¡Incorporate ¡this ¡loss ¡with ¡ so&max-‑margin ¡by ¡ ¡ ¡adding ¡it ¡as ¡a ¡feature ¡to ¡the ¡pairwise ¡model 0 1 X X Pr ( a i g | x i ) log @ A i a i g ∈ A ( C ) [Gimpel ¡and ¡Smith ¡(2010)]
Learning ¡Incorporate ¡this ¡loss ¡with ¡ so&max-‑margin ¡by ¡ ¡ ¡adding ¡it ¡as ¡a ¡feature ¡to ¡the ¡pairwise ¡model 0 1 Pr 0 X X Pr ( a i g | x i ) log @ A i a i g ∈ A ( C ) [Gimpel ¡and ¡Smith ¡(2010)]
Learning ¡Incorporate ¡this ¡loss ¡with ¡ so&max-‑margin ¡by ¡ ¡ ¡adding ¡it ¡as ¡a ¡feature ¡to ¡the ¡pairwise ¡model 0 1 Pr 0 X X Pr ( a i g | x i ) + λ k w k 1 log @ A i a i g ∈ A ( C ) [Gimpel ¡and ¡Smith ¡(2010)]
Experiments
Experiments ¡CoNLL ¡2011 ¡dataset, ¡system ¡men.ons ¡from ¡ ¡ ¡ ¡ ¡ Lee ¡et ¡al. ¡(2011)
Experiments ¡CoNLL ¡2011 ¡dataset, ¡system ¡men.ons ¡from ¡ ¡ ¡ ¡ ¡ Lee ¡et ¡al. ¡(2011) ¡Baselines: ¡Pairwise ¡system ¡Centralized ¡en.ty-‑level ¡system ¡following ¡ ¡ ¡ ¡ ¡ ¡ Rahman ¡and ¡Ng ¡(2009)
Recommend
More recommend