greed is good if randomized new inference for dependency
play

Greed is Good if Randomized: New Inference for Dependency - PowerPoint PPT Presentation

Greed is Good if Randomized: New Inference for Dependency Parsing Yuan Zhang CSAIL, MIT Joint work with Tao Lei, Regina Barzilay, and Tommi Jaakkola 1 Inference vs. Scoring Exact Inference


  1. Greed ¡is ¡Good ¡if ¡Randomized: ¡New ¡Inference ¡ for ¡Dependency ¡Parsing ¡ Yuan Zhang CSAIL, MIT Joint work with Tao Lei, Regina Barzilay, and Tommi Jaakkola 1 ¡

  2. Inference vs. Scoring Exact ¡ Inference ¡ Approximate ¡ Scoring ¡ Expressive ¡ Limited ¡ Func.on ¡ 2 ¡

  3. Inference vs. Scoring Minimum ¡ Exact ¡ Spanning ¡Tree ¡ Inference ¡ Approximate ¡ Scoring ¡ Expressive ¡ Limited ¡ Func.on ¡ 3 ¡

  4. Inference vs. Scoring Minimum ¡ Exact ¡ Spanning ¡Tree ¡ Inference ¡ Reranking ¡ Approximate ¡ Scoring ¡ Expressive ¡ Limited ¡ Func.on ¡ • Reranking: ¡incorporate ¡arbitrary ¡features ¡ 4 ¡

  5. Inference vs. Scoring Minimum ¡ Exact ¡ Spanning ¡Tree ¡ Dual ¡ DecomposiKon ¡ Inference ¡ Reranking ¡ Approximate ¡ Scoring ¡ Expressive ¡ Limited ¡ Func.on ¡ • Reranking: ¡incorporate ¡arbitrary ¡features ¡ • Dual ¡DecomposiKon: ¡search ¡in ¡full ¡space ¡ 5 ¡

  6. Parsing Complexity • High-­‑order ¡parsing ¡is ¡NP-­‑hard ¡(McDonald ¡et ¡al., ¡2006) ¡ • Hypothesis: ¡parsing ¡is ¡easy ¡on ¡average ¡ • Many ¡NP-­‑hard ¡problems ¡are ¡easy ¡on ¡average ¡ - MAX-­‑SAT ¡(Resende ¡et ¡al., ¡1997) ¡ - Set ¡cover ¡(Hochbaum, ¡1982) ¡ 6 ¡

  7. Parsing Complexity • High-­‑order ¡parsing ¡is ¡NP-­‑hard ¡(McDonald ¡et ¡al., ¡2006) ¡ • Hypothesis: ¡parsing ¡is ¡easy ¡on ¡average ¡ • Many ¡NP-­‑hard ¡problems ¡are ¡easy ¡on ¡average ¡ - MAX-­‑SAT ¡(Resende ¡et ¡al., ¡1997) ¡ - Set ¡cover ¡(Hochbaum, ¡1982) ¡ We ¡show ¡ • Analysis ¡on ¡average ¡parsing ¡complexity ¡ • A ¡simple ¡inference ¡algorithm ¡based ¡on ¡the ¡analysis ¡ 7 ¡

  8. Our Approach Minimum ¡ Exact ¡ Spanning ¡Tree ¡ Dual ¡ Our ¡ ¡ ¡ ¡ ¡ ¡ DecomposiKon ¡ Approach ¡ Inference ¡ Reranking ¡ Approximate ¡ Scoring ¡ Expressive ¡ Limited ¡ Func.on ¡ • Reranking: ¡incorporate ¡arbitrary ¡features ¡ • Dual ¡DecomposiKon: ¡search ¡in ¡full ¡space ¡ 8 ¡

  9. Core Idea • Climb ¡to ¡the ¡opKmal ¡tree ¡in ¡a ¡few ¡small ¡greedy ¡steps ¡ Randomized ¡Hill-­‑climbing ¡ For ¡ k ¡ = ¡1 ¡to ¡ K ¡ 1) Randomly ¡sample ¡a ¡dependency ¡tree ¡ 2) Greedily ¡improve ¡the ¡tree ¡one ¡edge ¡at ¡a ¡Kme ¡ 3) Repeat ¡(2) ¡unKl ¡converge ¡ Select ¡the ¡tree ¡with ¡the ¡highest ¡score ¡ ¡ 9 ¡

  10. Core Idea • Climb ¡to ¡the ¡opKmal ¡tree ¡in ¡a ¡few ¡small ¡greedy ¡steps ¡ Randomized ¡Hill-­‑climbing ¡ For ¡ k ¡ = ¡1 ¡to ¡ K ¡ 1) Randomly ¡sample ¡a ¡dependency ¡tree ¡ 2) Greedily ¡improve ¡the ¡tree ¡one ¡edge ¡at ¡a ¡Kme ¡ 3) Repeat ¡(2) ¡unKl ¡converge ¡ Select ¡the ¡tree ¡with ¡the ¡highest ¡score ¡ ¡ That’s ¡it! ¡ 10 ¡

  11. It Works! Dual ¡ Turbo ¡ 88.73% ¡ Decomposi;on ¡ Our ¡Full ¡ 89.44% ¡ Parsing ¡Performance ¡on ¡CoNLL ¡Dataset ¡ 11 ¡

  12. Example “ ¡I ¡ate ¡an ¡apple ¡today” ¡ 12 ¡

  13. Example Initial tree ROOT ¡ apple ate today I an “ ¡I ¡ate ¡an ¡apple ¡today” ¡ 13 ¡

  14. Example Initial tree ROOT ¡ apple ate today I an “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 14 ¡

  15. Example Initial tree ROOT ¡ apple apple today ate ate today an I an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 15 ¡

  16. Example ROOT ¡ apple apple today ate ate today an I an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 16 ¡

  17. Example ROOT ¡ apple apple today ate ate today an I an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 17 ¡

  18. Example ROOT ¡ apple apple today ate ate an today an I I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 18 ¡

  19. Example ROOT ¡ apple apple today ate ate an today an I I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 19 ¡

  20. Example ROOT ¡ apple ate apple today ate I an today an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 20 ¡

  21. Example ROOT ¡ apple ate apple today ate I an today an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 21 ¡

  22. Example ROOT ¡ apple ate apple today ate I an today an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 22 ¡

  23. Example ROOT ¡ apple ate apple today ate I an today an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 23 ¡

  24. Example ROOT ¡ apple ate today ate I apple today an an I “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 24 ¡

  25. Example ROOT ¡ ate I apple today an “ ¡I ¡ate ¡an ¡apple ¡today” ¡ Target tree ROOT ¡ ate I apple today an 25 ¡

  26. Why Greedy Has a Chance to Work ROOT ¡ ROOT ¡ apple ate …… ¡ ate today I apple today I an an y (0) y ( T ) Reachability : ¡transforming ¡any ¡tree ¡to ¡any ¡other ¡tree ¡ • maintaining ¡the ¡structure ¡a ¡valid ¡tree ¡at ¡any ¡point ¡ • using ¡as ¡few ¡as ¡ d ¡steps ¡( d ¡: ¡head ¡differences/hamming ¡distance) ¡ 26 ¡

  27. Greedy Hill-climbing ROOT ¡ ROOT ¡ apple ate …… ¡ ate today I apple today I an an y (0) y ( T ) increase ¡ S ( x , y ( t ) ) 27 ¡

  28. Greedy Hill-climbing ROOT ¡ ROOT ¡ apple ate …… ¡ ate today I apple today I an an y (0) y ( T ) increase ¡ S ( x , y ( t ) ) Arbitrary ¡features ¡in ¡the ¡scoring ¡func;on ¡ 28 ¡

  29. Challenge: Local Optimum ROOT ¡ ROOT ¡ apple ate …… ¡ ate today I apple today I an an y (0) y ( T ) increase ¡ S ( x , y ( t ) ) global ¡opKmum ¡ local ¡opKmum ¡ score ¡ S tree ¡ y 29 ¡

  30. Hill-climbing with Restarts ROOT ¡ ROOT ¡ apple ate …… ¡ ate today I apple today I an an score ¡ S tree ¡ y Overcome ¡local ¡opKma ¡via ¡restarts ¡ 30 ¡

  31. Hill-climbing with Restarts ROOT ¡ ROOT ¡ apple ate …… ¡ ate today I apple today I an an y (0) y ( T ) y (0) y ( T ) Random ¡ iniKalizaKon ¡ max ¡ Hill-­‑climbing ¡ (e.g. ¡uniform) ¡ …… ¡ …… ¡ y (0) y ( T ) Overcome ¡local ¡opKma ¡via ¡restarts ¡ 31 ¡

  32. Learning Algorithm • Follow ¡common ¡max-­‑margin ¡framework ¡ S ( x , ˆ y ) ≥ S ( x , y ) + | ˆ ∀ y ∈ T ( x ) y − y | − ξ § ¡ ¡ ¡ ¡ ¡is ¡the ¡gold ¡tree ¡ ˆ y 32 ¡

  33. Learning Algorithm • Follow ¡common ¡max-­‑margin ¡framework ¡ S ( x , ˆ y ) ≥ S ( x , y ) + | ˆ ∀ y ∈ T ( x ) y − y | − ξ § ¡ ¡ ¡ ¡ ¡is ¡the ¡gold ¡tree ¡ ˆ y • Adopt ¡passive-­‑aggressive ¡online ¡learning ¡framework ¡(Crammer ¡et ¡ al. ¡2006) ¡ ¡ • Decode ¡with ¡our ¡randomized ¡greedy ¡algorithm ¡ ¡ 33 ¡

  34. Analysis 34 ¡

  35. Analysis TheoreKcal ¡ Empirical ¡ First-­‑order ¡ 35 ¡

  36. Analysis TheoreKcal ¡ Empirical ¡ First-­‑order ¡ ? High-­‑order ¡ 36 ¡

  37. Analysis TheoreKcal ¡ Empirical ¡ First-­‑order ¡ ? High-­‑order ¡ 37 ¡

  38. Search Space Complexity: First-order 10 ¡words ¡ 38 ¡

  39. Search Space Complexity: First-order ≈ ¡2 ¡billion ¡trees ¡ 10 ¡words ¡ 39 ¡

  40. Search Space Complexity: First-order ≈ ¡2 ¡billion ¡trees ¡ 10 ¡words ¡ < ¡512 ¡local ¡opKma ¡ 40 ¡

  41. Search Space Complexity: First-order Theorem : ¡For ¡any ¡first-­‑order ¡scoring ¡funcKon: ¡ • there ¡are ¡at ¡most ¡2 n-­‑1 ¡locally ¡opKmal ¡trees ¡ • this ¡upper ¡bound ¡is ¡ .ght ¡ 41 ¡

Recommend


More recommend