Joint Word Alignment and Decipherment Improves Machine Translation Qing Dou, Ashish Vaswani, and Kevin Knight 10/26/2014 1 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Outline ¡ • What ¡is ¡Decipherment ¡ • Mo4va4on ¡ • Contribu4ons ¡ • Joint ¡Word ¡Alignment ¡and ¡Decipherment ¡ • Deciphering ¡Malagasy ¡ • Conclusions ¡ 2 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
What ¡is ¡Decipherment? ¡ • Le?er ¡Subs4tu4on ¡Cipher ¡ plaintext d e c i p h e r m e n t _ i s _ t h e _ a n a l y s i s _ o f _ d o c u m e n t s _ w r i t t e n _ i n _ a n c i e n t _ l a n g u a g e s 3 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
What ¡is ¡Decipherment? ¡ • Le?er ¡Subs4tu4on ¡Cipher ¡ plaintext d e c i p h e r m e n t _ i s _ t h e _ a n a l y s i s _ o f _ d o c u m e n t s _ w r i t t e n _ i n _ a n c i e n t _ l a n g u a g e s Encryption ciphertext 05 13 19 25 12 14 13 04 02 13 11 16 15 25 22 15 16 14 13 15 17 11 17 08 03 22 25 22 15 09 20 15 05 09 19 07 02 13 11 22 15 06 04 25 16 16 13 11 15 25 11 15 17 11 19 25 13 11 16 15 08 17 11 03 07 17 03 13 22 4 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
What ¡is ¡Decipherment? ¡ • Le?er ¡Subs4tu4on ¡Cipher ¡ a ¡ 17 ¡ o ¡ 09 ¡ plaintext b ¡ 01 ¡ p ¡ 12 ¡ d e c i p h e r m e n t _ i s _ t h e _ a n c ¡ 19 ¡ q ¡ 23 ¡ a l y s i s _ o f _ d o c u m e n t s _ w r i d ¡ 05 ¡ r ¡ 04 ¡ t t e n _ i n _ a n c i e n t _ l a n g u a g e ¡ 13 ¡ s ¡ 22 ¡ e s Decipherment ¡ f ¡ 20 ¡ t ¡ 16 ¡ Encryption ciphertext g ¡ 10 ¡ u ¡ 07 ¡ 05 13 19 25 12 14 13 04 02 13 11 16 15 h ¡ 14 ¡ v ¡ 24 ¡ 25 22 15 16 14 13 15 17 11 17 08 03 22 I ¡ 25 ¡ w ¡ 06 ¡ 25 22 15 09 20 15 05 09 19 07 02 13 11 j ¡ 18 ¡ x ¡ 26 ¡ 22 15 06 04 25 16 16 13 11 15 25 11 15 k ¡ 21 ¡ y ¡ 03 ¡ 17 11 19 25 13 11 16 15 08 17 11 03 07 l ¡ 08 ¡ z ¡ 27 ¡ 17 03 13 22 m ¡ 02 ¡ _ ¡ 15 ¡ n ¡ 11 ¡ 5 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Subs4tu4on ¡Cipher ¡and ¡Transla4on ¡ • Word ¡Subs4tu4on ¡Cipher ¡ plaintext the head of the german social democratic party … Decryption Encryption ciphertext 007834 000094 048235 007834 113485 087654 129823 032834 … • Word ¡subs4tu4ons ¡also ¡take ¡place ¡in ¡ transla4on ¡ 6 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Automa4c ¡Decipherment ¡ • A ¡Noisy ¡Channel ¡Model ¡Approach ¡(Knight ¡et ¡al. ¡ 2006) ¡ ¡ ¡ ¡ plaintext P(p) ¡ P(c|p) ¡ ciphertext ¡ ¡ c A model Substitute of plaintext 7 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Automa4c ¡Decipherment ¡ • A ¡Noisy ¡Channel ¡Model ¡Approach ¡(Knight ¡et ¡al. ¡ 2006) ¡ Search P(c|p) to maximize Plaintext unrelated to ¡ EM ciphertext ∑ P ( c ) = P ( p ) P ( c | p ) p ¡ ¡ plaintext P(p) ¡ P(c|p) ¡ ciphertext ¡ ¡ c P(p) Substitute 8 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Automa4c ¡Decipherment ¡ • A ¡Noisy ¡Channel ¡Model ¡Approach ¡(Knight ¡et ¡al. ¡ 2006) ¡ Search P(c|p) to maximize Plaintext unrelated to EM ciphertext ∑ P ( c ) = P ( p ) P ( c | p ) p ¡ ¡ plaintext P(p) ¡ P(c|p) ¡ ciphertext ¡ ¡ c P(p) Substitute N: Ciphertext length • Time ¡Complexity: ¡ O ( N ⋅ V 2 ⋅ R ) V: Vocabulary R: EM iteration (Forward-backward) ¡ 9 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Outline ¡ • What ¡is ¡Decipherment ¡ • Mo4va4on ¡ • Contribu4ons ¡ • Joint ¡Word ¡Alignment ¡and ¡Decipherment ¡ • Deciphering ¡Malagasy ¡ • Conclusions ¡ 10 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Mo4va4on ¡ • Decipherment ¡improves ¡machine ¡transla4on ¡ ¡ ¡ ¡ ¡(Dou ¡and ¡Knight ¡2013) ¡ ¡ Parallel ¡ Transla4on ¡ Alignment ¡ Decoder ¡ Data ¡ Table ¡ 11 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Mo4va4on ¡ • Decipherment ¡improves ¡machine ¡transla4on ¡ ¡ ¡ ¡ ¡(Dou ¡and ¡Knight ¡2013) ¡ ¡ Parallel ¡ Transla4on ¡ Alignment ¡ Decoder ¡ Data ¡ Table ¡ Initialize Non ¡ Transla4on ¡ Parallel ¡ Decipherment ¡ Table ¡ Data ¡ 12 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Mo4va4on ¡ • Decipherment ¡improves ¡machine ¡transla4on ¡ ¡ ¡ ¡ ¡(Dou ¡and ¡Knight ¡2013) ¡ ¡ Parallel ¡ Transla4on ¡ Alignment ¡ Decoder ¡ Data ¡ Table ¡ Initialize Non ¡ Transla4on ¡ Parallel ¡ Decipherment ¡ Table ¡ Data ¡ 13 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Mo4va4on ¡ • Joint ¡Alignment ¡and ¡Decipherment ¡? ¡ Parallel ¡ Data ¡ Transla4on ¡ Alignment ¡& ¡ Model ¡ Decipherment ¡ Non ¡ Parallel ¡ Data ¡ 14 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Contribu4ons ¡ • Proposed ¡a ¡new ¡framework ¡to ¡perform ¡joint ¡ word ¡alignment ¡and ¡decipherment ¡ ¡ • The ¡joint ¡framework ¡improves ¡both ¡word ¡ alignment ¡and ¡machine ¡transla4on ¡significantly ¡ • Released ¡Malagasy ¡treebank ¡and ¡15.3 ¡million ¡ word ¡Malagasy ¡news ¡data ¡ 15 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Outline ¡ • What ¡is ¡Decipherment ¡ • Mo4va4on ¡ • Contribu4ons ¡ • Joint ¡Word ¡Alignment ¡and ¡Decipherment ¡ • Deciphering ¡Malagasy ¡ • Conclusions ¡ 16 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Word ¡Alignment ¡ • Word ¡Alignment ¡Model ¡and ¡Objec4ve ¡ Foreign ¡ Objective: Sentences: ¡ J F ¡ ∑ ∏ P ( F | E ) = d ( a ) ⋅ t ( f j | e a j ) ¡ Word ¡ a j = 1 Alignments ¡ a ¡ English ¡ distortion translation Sentences: ¡ probabilities probabilities E ¡ 17 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Decipherment ¡ • Decipherment ¡Model ¡and ¡Objec4ve ¡ (Dependency based Decipherment Dou and Knight 2013) Foreign ¡ Objective: English ¡ Dependency ¡ Decipherment Bigrams: ¡ 2 e ¡ ∑ ∏ P ( F mono ) = P ( e 1 e 2 ) t ( f j | e j ) F mono ¡ e j = 1 LM translation LM: Dependency Language Model Probabilities probabilities (Created from dependency trees) (fixed) 18 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
A ¡New ¡Objec4ve ¡ Word Alignment Objective: Decipherment Objective: J 2 ∑ ∏ P ( F | E ) = d ( a ) ⋅ t ( f j | e a j ) ∑ ∏ P ( F mono ) = P ( e 1 e 2 ) t ( f j | e j ) a j = 1 e j = 1 Shared Parameters t ( f | e ) 19 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
A ¡New ¡Objec4ve ¡ Word Alignment Objective: Decipherment Objective: J 2 ∑ ∏ P ( F | E ) = d ( a ) ⋅ t ( f j | e a j ) ∑ ∏ P ( F mono ) = P ( e 1 e 2 ) t ( f j | e j ) a j = 1 e j = 1 Shared Parameters t ( f | e ) New Objective: P ( JOINT ) = P ( F | E ) + α P ( F mono ) 20 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Learning ¡Algorithm ¡ • EM ¡ 5 iterations of EM on Parallel text only EM ¡ Parallel ¡ Data ¡ 21 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Learning ¡Algorithm ¡ • EM ¡ Collect expected counts for: E ¡Step ¡ Non ¡Parallel ¡ t ( f | e ) Data ¡ EM ¡ Parallel ¡ Data ¡ E ¡Step ¡ Collect expected counts for: Parallel ¡ t ( f | e ) d ( a ) Data ¡ 22 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Learning ¡Algorithm ¡ • EM ¡ Collect expected counts for: E ¡Step ¡ Non ¡Parallel ¡ t ( f | e ) Data ¡ EM ¡ Sum up Parallel ¡ expected Data ¡ counts E ¡Step ¡ Collect expected counts for: Parallel ¡ t ( f | e ) d ( a ) Data ¡ 23 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Learning ¡Algorithm ¡ • EM ¡ E ¡Step ¡ Non ¡Parallel ¡ Data ¡ EM ¡ M ¡ Update parameters Parallel ¡ Step ¡ Data ¡ t ( f | e ) d ( a ) E ¡Step ¡ Parallel ¡ Data ¡ 24 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Learning ¡Algorithm ¡ • EM ¡ E ¡Step ¡ E ¡Step ¡ Non ¡Parallel ¡ Non ¡Parallel ¡ Data ¡ Data ¡ EM ¡ M ¡ M ¡ Parallel ¡ Step ¡ Step ¡ Data ¡ E ¡Step ¡ E ¡Step ¡ Parallel ¡ Parallel ¡ Data ¡ Data ¡ 25 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
E ¡Step ¡ • On ¡Parallel ¡Data ¡ ¡ ¡ ¡ ¡(Brown ¡et ¡al. ¡1993, ¡Vogel ¡and ¡Ney ¡1996) ¡ ¡ ¡ 26 Informa(on ¡Sciences ¡Ins(tute ¡ ¡
E ¡Step ¡ • On ¡Parallel ¡Data ¡ ¡ ¡ ¡ ¡(Brown ¡et ¡al. ¡1993, ¡Vogel ¡and ¡Ney ¡1996) ¡ ¡ • On ¡Non-‑parallel ¡Data ¡ ¡ ¡ ¡ ¡Time ¡complexity: ¡ O ( N ⋅ V 2 ⋅ R ) ¡ ¡ ¡ ¡V: ¡Vocabulary ¡size ¡ ¡N: ¡Ciphertext ¡length ¡ ¡ • Not ¡Scalable ¡when ¡ ¡ V ~10 5 , N ~10 7 27 ¡ Informa(on ¡Sciences ¡Ins(tute ¡ ¡
Recommend
More recommend