Simultaneous ¡Transla/on ¡for ¡Hiero ¡ ¡ Simon ¡Fraser ¡University ¡ Maryam ¡Siahbani, ¡Anoop ¡Sarkar ¡
Hierarchical ¡Phrase-‑based ¡Transla/on ¡ ¡ (Hiero) ¡ Synchronous Context-Free Grammar En ¡ X ¡-‑> ¡ ¡< 我 们 十分 X_1 ¡/ ¡we ¡are ¡very ¡much ¡X_1> ¡ Zh ¡ X ¡-‑> ¡ ¡< 我 们 十分 X_1 ¡/ ¡we ¡are ¡very ¡much ¡X_1> ¡ X-‑> ¡ ¡< 关注 X_1 ¡ 发 生 的 X_2 ¡/concerned ¡with ¡X_2 ¡happens ¡in ¡X_1> ¡ X-‑> ¡ ¡< 关注 X_1 ¡ 发 生 的 X_2 ¡/concerned ¡with ¡X_2 ¡happens ¡in ¡X_1> ¡ X ¡-‑> ¡ ¡< 事情 ¡/ ¡what ¡> ¡ X ¡-‑> ¡ ¡< 事情 ¡/ ¡what ¡> ¡ X ¡-‑> ¡ ¡< 非洲 地区 ¡/ ¡African ¡regions ¡> ¡ X ¡-‑> ¡ ¡< 非洲 地区 ¡/ ¡African ¡regions ¡> ¡ Align ¡Words ¡ 我 们 十分 ¡ 关注 ¡ 非洲 ¡ 地区 ¡ 发 生 ¡ 的 ¡ 事情 ¡ Phrase ¡pairs ¡ SCFG ¡ Decoder ¡ we ¡are ¡very ¡much ¡ ¡ concerned ¡with ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡happens ¡in ¡ what ¡ African ¡regions ¡ Output ¡ transla5on ¡ Find ¡the ¡correct ¡transla/on ¡ for ¡new ¡input ¡ 2 ¡
Hiero ¡Decoder ¡(CKY) ¡ we ¡are ¡very ¡much ¡concerned ¡with ¡what ¡happens ¡in ¡African ¡regions ¡. ¡ Language ¡Model ¡(LM) ¡ BoEom-‑up ¡parsing ¡ computa>on ¡ O(n^3) ¡ algorithm ¡ concerned ¡with ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡happens ¡in ¡ LM ¡ LM ¡ LM ¡ we ¡are ¡very ¡much ¡concerned ¡with ¡ X ¡-‑> ¡ ¡< 关注 X_1 ¡ 发 生 的 X_2 ¡/ ¡concerned ¡with ¡X_2 ¡happens ¡in ¡X_1> ¡ X_1= ¡African ¡regions ¡ ¡African ¡regions ¡ X_1 ¡ X_2= ¡what ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ what ¡ X_2 ¡ 我 们 ¡ 十分 ¡ 关注 ¡ 非洲 ¡ 地区 ¡ 发 生 ¡ 的 ¡ 事情 ¡ ¡ 。 3 ¡
LeU-‑to-‑Right ¡Decoding ¡ 我 们 ¡ 十分 ¡ 关注 ¡ 非洲 ¡ 地区 ¡ 发 生 ¡ 的 ¡ 事情 ¡ 0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡3 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡4 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡5 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡6 ¡ ¡ ¡ ¡ ¡ ¡ ¡7 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡8 ¡ ¡ [2,8] ¡ X ¡-‑> ¡ ¡< 我 们 十分 X_1 ¡/ ¡we ¡are ¡very ¡much ¡X_1> ¡ we ¡are ¡very ¡much ¡ X ¡-‑> ¡ ¡< ¡ 关注 X_1 ¡/ ¡concerned ¡with ¡X_1> ¡ concerned ¡with ¡ [3,8] ¡ <s> ¡[0,8] ¡ X ¡-‑> ¡ ¡<X_1 ¡ 发 生 X_2 事情 ¡/ ¡what ¡happens ¡X_2 ¡X_1> ¡ what ¡happens ¡ [6,7] ¡[3,5] ¡ <s> ¡ ¡ X ¡-‑> ¡ ¡< 的 ¡/ ¡in ¡> ¡ in ¡ LM ¡ <s> ¡ ¡we ¡are ¡very ¡much ¡ X ¡-‑> ¡ ¡< 非洲 地区 ¡/ ¡African ¡regions ¡> ¡ African ¡regions ¡ ¡ LM ¡ <s> ¡ ¡we ¡are ¡very ¡much ¡concerned ¡with ¡ [3,5] ¡ <s> ¡ ¡we ¡are ¡very ¡much ¡concerned ¡with ¡what ¡happens ¡ <s> ¡ ¡we ¡are ¡very ¡much ¡concerned ¡with ¡what ¡happens ¡in ¡ O(n^2) ¡ Fewer ¡LM ¡calls ¡ 4 ¡
LR-‑Hiero ¡ LR-‑Hiero ¡ Hiero ¡(CKY) ¡ Augmented ¡LR-‑Decoding ¡ (Chiang ¡ACL’05) ¡ (Siahbani ¡et ¡al., ¡EMNLP’13) ¡ LR ¡target ¡genera/on ¡ Improve ¡LR-‑Hiero ¡ (Watanabe ¡et ¡al., ¡ (Siahbani ¡&Sarkar ¡EMNLP’14) ¡ ACL’06) ¡ (Siahbani ¡& ¡Sarkar ¡AMTA’14) ¡ (Siahbani ¡et ¡al ¡SLT’14) ¡ 5 ¡
Hiero ¡vs ¡LR-‑Hiero ¡ 29 ¡ Hiero ¡ LR-‑Hiero ¡ 27 ¡ 25 ¡ BLEU ¡ Czech-‑English ¡ 23 ¡ German-‑English ¡ 21 ¡ Chinese-‑English ¡ 19 ¡ 17 ¡ 0 ¡ 2000 ¡ 4000 ¡ 6000 ¡ 8000 ¡ LM ¡Calls ¡ 6 ¡
Greibach ¡Normal ¡Form ¡ X ¡-‑> ¡ ¡< 我 们 十分 X_1 ¡/ ¡we ¡are ¡very ¡much ¡X_1> ¡ X ¡-‑> ¡ ¡< ¡ 关注 X_1 ¡/ ¡concerned ¡with ¡X_1> ¡ X ¡-‑> ¡ ¡<X_1 ¡ 发 生 X_2 事情 ¡/ ¡what ¡happens ¡X_2 ¡X_1> ¡ X ¡-‑> ¡ ¡< 的 ¡/ ¡in ¡> ¡ X ¡-‑> ¡ ¡< 非洲 地区 ¡/ ¡African ¡regions ¡> ¡ GNF ¡ Non-‑GNF ¡ X ¡-‑> ¡ ¡<X_1 ¡ 发 生 的 ¡X_2 ¡/ ¡X_2 ¡happens ¡in ¡X_1> ¡ 7 ¡
Simultaneous ¡ Transla>on ¡
hgp://site.interpretereduca/ononline.com/interpre/ng-‑jokes/ ¡
Simultaneous ¡Decoding ¡ 我 们 ¡ 十分 ¡ 关注 ¡ 非洲 ¡ 地区 ¡ 发 生 ¡ 的 ¡ 事情 ¡ 0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡3 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡4 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡5 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡6 ¡ ¡ ¡ ¡ ¡ ¡ ¡7 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡8 ¡ ¡ <s> ¡ ¡we ¡are ¡very ¡much ¡ ?? ¡ ?? ¡ <s> ¡ ¡we ¡are ¡very ¡much ¡concerned ¡with ¡ <s> ¡ ¡we ¡are ¡very ¡much ¡concerned ¡with ¡what ¡happens ¡ X ¡-‑> ¡ ¡<X_1 ¡ 发 生 X_2 事情 ¡/ ¡what ¡happens ¡X_2 ¡X_1> ¡ 10 ¡
Wait ¡/ll ¡the ¡end ¡… ¡ (higher ¡fluency ¡and ¡latency) ¡ Translate ¡incrementally ¡… ¡ (lower ¡fluency ¡and ¡latency) ¡
Do ¡not ¡segment ¡when ¡reordering ¡ is ¡required ¡
Sentence ¡Segmenta/on ¡ (Yarmohammadi ¡et ¡al ¡IJCNLP’13) ¡ (Oda ¡et ¡al ¡ACL’14) ¡ (Bangalore ¡et ¡al., ¡ (Matusov ¡IWSLT’06) ¡ NAACL’12) ¡ (Mieno ¡et ¡al ¡InterSpeech’15) ¡ (Fügen ¡et ¡al., ¡MT’07) ¡ (Fujita ¡et ¡al ¡ InterSpeech’13) ¡ (Grissom ¡et ¡al ¡ EMNLP ¡’14) ¡ Prehistory: ¡ Batch ¡and ¡ Monotone ¡ ¡ (Tillmann ¡et ¡al., ¡ACL’1997) ¡ (Pytlik ¡and ¡Yarowsky, ¡AMTA’06) ¡ 13 ¡
Simultaneous ¡ Transla>on ¡ using ¡GNF ¡SCFGs ¡ (Siahbani ¡et ¡al, ¡SLT ¡2014) ¡
Hiero ¡decoding ¡made ¡ possible ¡using ¡LR-‑Hiero ¡
Train ¡the ¡Segmenter ¡ • Produce ¡word ¡alignment ¡for ¡training ¡data ¡ (GIZA++) ¡ • Find ¡all ¡monotone ¡phrase ¡pair ¡boundaries ¡ • Make ¡sure ¡phrase ¡pairs ¡are ¡long ¡enough ¡ (phrases ¡of ¡length ¡3 ¡or ¡more) ¡ • Find ¡a ¡suitable ¡set ¡of ¡features ¡to ¡classify ¡ segment ¡boundaries ¡ • Train ¡a ¡ classifier ¡to ¡recognize ¡segment ¡ boundaries ¡
Datasets ¡ • Train ¡the ¡segmenter: ¡ – IWSLT ¡2011 ¡shared ¡task: ¡English-‑French ¡TED ¡talks ¡ • Train ¡the ¡transla/on ¡model: ¡ – EuroParl ¡v7 ¡plus ¡IWSLT ¡2011 ¡shared ¡task ¡data ¡ • Train ¡the ¡language ¡model: ¡ – WMT ¡2011 ¡French ¡data ¡(EuroParl, ¡News ¡ Commentary, ¡UN) ¡ • Tuning ¡set ¡and ¡Test ¡set ¡ – IWSLT ¡2010 ¡shared ¡task ¡data ¡( dev2010 , ¡ tst2010 ) ¡
Features ¡for ¡segmenter ¡ ¡ • Basic ¡ • Decoder ¡ – Word ¡at ¡segment ¡ – Language ¡model ¡(lm) ¡ boundary ¡(punct, ¡conj) ¡ – P(e|f) ¡phrase ¡pair ¡(tm 0 ) ¡ – Posi/on ¡of ¡boundary ¡ – P(f|e) ¡phrase ¡pair ¡(tm 1 ) ¡ – Length ¡of ¡segment ¡ – Lex(e|f) ¡lexical ¡(tm 3 ) ¡ • Part ¡of ¡speech ¡ – Lex(f|e) ¡lexical ¡(tm 4 ) ¡ – Trigram ¡before ¡segment ¡ – Log-‑linear ¡model ¡score ¡ (c) ¡ – Bi/trigram ¡at ¡end ¡of ¡ segment ¡ • Best ¡performing ¡ segmenter ¡F1 ¡= ¡81.6% ¡ – Basic ¡+ ¡POS ¡+ ¡(lm,tm 0 ,c) ¡
Results ¡ BLEU ¡ Time ¡(secs) ¡ No ¡ 25.72 ¡ 19.62 ¡ segmenta/on ¡ With ¡ 24.48 ¡ 0.84 ¡ segmenta/on ¡ ¡
Recommend
More recommend