Efficient solutions for word reordering in German-English phrase-based SMT Arianna Bisazza & Marcello Federico – FBK (Italy)
Outline ¡ • Why ¡German-‑English? ¡ • Why ¡phrase-‑based ¡SMT? ¡ • Goal ¡of ¡this ¡work ¡ • Techniques ¡to ¡achieve ¡it: ¡ 1. ¡ ¡early ¡distor5on ¡cost ¡ 2. ¡ ¡word-‑aOer-‑word ¡ reordering ¡pruning ¡ • Experiments ¡& ¡discussion ¡ ¡ 2 ¡ 2 ¡ Bisazza ¡& ¡Federico ¡ ¡– ¡ ¡Efficient ¡solu5ons ¡for ¡word ¡reordering ¡in ¡De-‑En ¡PSMT ¡
Why ¡German-‑English? ¡ Jedoch ¡ konnten ¡ sie ¡Kinder ¡in ¡Teilen ¡von ¡Helmand ¡und ¡Kandahar ¡im ¡Süden ¡aus ¡Sicherheitsgrund ¡ nicht ¡erreichen . ¡ But ¡they ¡ could ¡not ¡reach ¡ children ¡in ¡parts ¡of ¡Helmand ¡and ¡Kandahar ¡in ¡the ¡south ¡for ¡security ¡reasons. ¡ 3 ¡ 3 ¡ Bisazza ¡& ¡Federico ¡ ¡– ¡ ¡Efficient ¡solu5ons ¡for ¡word ¡reordering ¡in ¡De-‑En ¡PSMT ¡
Why ¡German-‑English? ¡ Jedoch ¡ konnten ¡ sie ¡Kinder ¡in ¡Teilen ¡von ¡Helmand ¡und ¡Kandahar ¡im ¡Süden ¡aus ¡Sicherheitsgrund ¡ nicht ¡erreichen . ¡ But ¡they ¡ could ¡not ¡reach ¡ children ¡in ¡parts ¡of ¡Helmand ¡and ¡Kandahar ¡in ¡the ¡south ¡for ¡security ¡reasons. ¡ German ¡word ¡order ¡ • Discon5nuous ¡verb ¡phrases, ¡main ¡verb ¡far ¡from ¡inflected ¡auxiliary ¡or ¡ modal ¡ • Verb-‑second ¡order ¡VS ¡English ¡SVO ¡ • Clause-‑final ¡verb ¡in ¡subordinate ¡clauses ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Long-‑range ¡reordering ¡of ¡isolated ¡words ¡or ¡short ¡phrases ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡is ¡frequent ¡and ¡important ¡for ¡transla5on ¡quality! ¡ ¡ ¡ ¡ ¡ ¡ 4 ¡ 4 ¡ Bisazza ¡& ¡Federico ¡ ¡– ¡ ¡Efficient ¡solu5ons ¡for ¡word ¡reordering ¡in ¡De-‑En ¡PSMT ¡
Why ¡phrase-‑based ¡SMT? ¡ • Shallow ¡modeling: ¡learns ¡direct ¡correspondences ¡between ¡ surface ¡forms ¡in ¡two ¡languages ¡ • Versa5le, ¡cost-‑effec5ve ¡ • Wrt ¡hierarchical ¡SMT: ¡smaller ¡models, ¡faster ¡decoding, ¡very ¡ compe55ve ¡for ¡transla5ng ¡between ¡similar ¡languages ¡ Most ¡popular ¡framework ¡in ¡SMT ¡produc5on ¡scenarios ¡today ¡ Problem: ¡doesn’t ¡handle ¡well ¡ long -‑range ¡reordering! ¡ (cf. ¡typical ¡configura5ons ¡use ¡DL=6 ¡up ¡to ¡10) ¡ 5 ¡ 5 ¡ Bisazza ¡& ¡Federico ¡ ¡– ¡ ¡Efficient ¡solu5ons ¡for ¡word ¡reordering ¡in ¡De-‑En ¡PSMT ¡
Most ¡popular ¡framework ¡in ¡SMT ¡produc5on ¡scenarios ¡today ¡ Problem: ¡doesn’t ¡handle ¡well ¡long-‑range ¡reordering! ¡ 6 ¡ 6 ¡ Bisazza ¡& ¡Federico ¡ ¡– ¡ ¡Efficient ¡solu5ons ¡for ¡word ¡reordering ¡in ¡De-‑En ¡PSMT ¡
Most ¡popular ¡framework ¡in ¡SMT ¡produc5on ¡scenarios ¡today ¡ Problem: ¡doesn’t ¡handle ¡well ¡long-‑range ¡reordering! ¡ Goal ¡of ¡this ¡work ¡ Improve ¡handling ¡of ¡large ¡reordering ¡search ¡spaces ¡in ¡PSMT. ¡ ¡ How? ¡ 1. an5cipate ¡payment ¡of ¡distor5on ¡penalty ¡for ¡long ¡backward ¡jumps ¡ 2. dynamically ¡prune ¡unlikely ¡long ¡jumps ¡ before ¡they ¡are ¡performed ¡ Beier ¡transla5on ¡quality ¡ and ¡faster ¡decoding ¡at ¡high ¡distor5on ¡limits ¡ 7 ¡ 7 ¡ Bisazza ¡& ¡Federico ¡ ¡– ¡ ¡Efficient ¡solu5ons ¡for ¡word ¡reordering ¡in ¡De-‑En ¡PSMT ¡
How ¡(1): ¡Early ¡Distor5on ¡Cost ¡ [Moore ¡& ¡Quirk ¡2007] ¡ ¡ Standard : ¡pay ¡jump ¡cost ¡ when ¡jumping ¡ Early : ¡accumulate ¡cost ¡gradually ¡ before ¡jumping ¡ TotDisto=0 ¡ ¡ ¡TotDisto=0 ¡ 1 ¡ 4 ¡ 1 ¡ 6 ¡ 1 ¡ 8 ¡ 1 ¡ 10 ¡ 1 ¡ 12 ¡ 1 ¡ 14 ¡ 8 ¡ 14 ¡ 14 ¡ 14 ¡ 8 ¡ 8 ¡ Bisazza ¡& ¡Federico ¡ ¡– ¡ ¡Efficient ¡solu5ons ¡for ¡word ¡reordering ¡in ¡De-‑En ¡PSMT ¡
How ¡(1): ¡Early ¡Distor5on ¡Cost ¡ [Moore ¡& ¡Quirk ¡2007] ¡ ¡ Standard : ¡pay ¡jump ¡cost ¡ when ¡jumping ¡ Early : ¡accumulate ¡cost ¡gradually ¡ before ¡jumping ¡ TotDisto=0 ¡ ¡ ¡TotDisto=0 ¡ 1 ¡ 4 ¡ Very ¡important ¡for ¡handling ¡ 1 ¡ 6 ¡ long ¡backward ¡jumps ¡ 1 ¡ 8 ¡ Implemented ¡in ¡Moses ¡ 1 ¡ 10 ¡ 1 ¡ 12 ¡ 1 ¡ 14 ¡ 8 ¡ 14 ¡ 14 ¡ 14 ¡ 9 ¡ 9 ¡ Bisazza ¡& ¡Federico ¡ ¡– ¡ ¡Efficient ¡solu5ons ¡for ¡word ¡reordering ¡in ¡De-‑En ¡PSMT ¡
How ¡(2): ¡Word-‑aOer-‑word ¡ reordering ¡pruning ¡ New ¡reordering ¡models ¡are ¡designed ¡every ¡year, ¡but ¡problem ¡ • of ¡long ¡reordering ¡is ¡s5ll ¡unsolved ¡ Exis5ng ¡word ¡reordering ¡models ¡are ¡not ¡perfect, ¡but ¡they ¡are ¡ • expected ¡to ¡guide ¡search ¡over ¡huge ¡search ¡spaces ¡ …then... ¡ ¡… ¡let’s ¡refine ¡the ¡reordering ¡search ¡space! ¡ 10 ¡ 10 ¡ Bisazza ¡& ¡Federico ¡ ¡– ¡ ¡Efficient ¡solu5ons ¡for ¡word ¡reordering ¡in ¡De-‑En ¡PSMT ¡
How ¡(2): ¡Word-‑aOer-‑word ¡ reordering ¡pruning ¡ Standard ¡search: ¡explore ¡all ¡jumps ¡within ¡fixed ¡DL ¡ DL=6 ¡ Our ¡method: ¡only ¡explore ¡long ¡reorderings ¡that ¡are ¡likely ¡according ¡ to ¡the ¡reordering ¡model ¡ Reo. ¡scores ¡ 0.2 ¡ 0.2 ¡ ¡0.4 ¡ ¡0.6 ¡ ¡ ¡0.6 ¡ 0.2 ¡ ¡ ¡ ¡0.7 ¡ ¡ ¡0.4 ¡ DL=6 ¡ 11 ¡ 11 ¡ Bisazza ¡& ¡Federico ¡ ¡– ¡ ¡Efficient ¡solu5ons ¡for ¡word ¡reordering ¡in ¡De-‑En ¡PSMT ¡
How ¡(2): ¡Word-‑aOer-‑word ¡ reordering ¡pruning ¡ Standard ¡search: ¡explore ¡all ¡jumps ¡within ¡fixed ¡DL ¡ DL=6 ¡ Our ¡method: ¡only ¡explore ¡long ¡reorderings ¡that ¡are ¡likely ¡according ¡ to ¡the ¡reordering ¡model ¡ Reo. ¡scores ¡ 0.2 ¡ 0.2 ¡ ¡0.4 ¡ ¡0.6 ¡ ¡ ¡0.6 ¡ 0.2 ¡ ¡ ¡ ¡0.7 ¡ ¡ ¡0.4 ¡ DL=6 ¡ 12 ¡ 12 ¡ Bisazza ¡& ¡Federico ¡ ¡– ¡ ¡Efficient ¡solu5ons ¡for ¡word ¡reordering ¡in ¡De-‑En ¡PSMT ¡
How ¡(2): ¡Word-‑aOer-‑word ¡ reordering ¡pruning ¡ Standard ¡search: ¡explore ¡all ¡jumps ¡within ¡fixed ¡DL ¡ DL=6 ¡ Our ¡method: ¡only ¡explore ¡long ¡reorderings ¡that ¡are ¡likely ¡according ¡ to ¡the ¡reordering ¡model ¡ Reo. ¡scores ¡ 0.2 ¡ 0.2 ¡ ¡0.4 ¡ ¡0.6 ¡ ¡ ¡0.6 ¡ ¡ ¡ ¡0.7 ¡ DL=6 ¡ ϑ=2 ¡ “Safe ¡zone” ¡always ¡explored ¡ 13 ¡ 13 ¡ Bisazza ¡& ¡Federico ¡ ¡– ¡ ¡Efficient ¡solu5ons ¡for ¡word ¡reordering ¡in ¡De-‑En ¡PSMT ¡
How ¡(2): ¡Word-‑aOer-‑word ¡ reordering ¡pruning ¡ Standard ¡search: ¡explore ¡all ¡jumps ¡within ¡fixed ¡DL ¡ Ra5onale: ¡ -‑ ¡don’t ¡waste ¡5me ¡exploring ¡ DL=6 ¡ unlikely ¡long ¡jumps ¡ Our ¡method: ¡only ¡explore ¡long ¡reorderings ¡that ¡are ¡likely ¡according ¡ -‑ ¡less ¡hypo’s ¡in ¡stack ¡=> ¡less ¡risk ¡ to ¡the ¡reordering ¡model ¡ of ¡search/model ¡errors ¡ Reo. ¡scores ¡ 0.2 ¡ 0.2 ¡ ¡0.4 ¡ ¡0.6 ¡ ¡ ¡0.6 ¡ ¡ ¡ ¡0.7 ¡ DL=6 ¡ ϑ=2 ¡ “Safe ¡zone” ¡always ¡explored ¡ 14 ¡ 14 ¡ Bisazza ¡& ¡Federico ¡ ¡– ¡ ¡Efficient ¡solu5ons ¡for ¡word ¡reordering ¡in ¡De-‑En ¡PSMT ¡
Recommend
More recommend