Class-Based Language Modeling for Translating into Morphologically Rich Languages Arianna Bisazza & Christof Monz
Phrase-based SMT Disto. ¡scores ¡ ¡ ¡ ¡word S1 ¡ ¡ ¡ word S2 ¡ ¡ ¡word S3 ¡ ¡ ¡ ¡word S4 ¡ ¡ word S5 ¡ ¡ ¡ ¡ word S6 ¡ ¡ ¡ word S7 ¡ ¡ ¡ ¡ ¡ SRC: ¡ ¡TRG: ¡ word T1 ¡ ¡ ¡ word T2 ¡ LM ¡scores ¡ 2 ¡ A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡
Phrase-based SMT Disto. ¡scores ¡ Disto. ¡scores ¡ ¡ ¡ ¡word S1 ¡ ¡ ¡ word S2 ¡ ¡ ¡word S3 ¡ ¡ ¡ ¡word S4 ¡ ¡ word S5 ¡ ¡ ¡ ¡ word S6 ¡ ¡ ¡ word S7 ¡ ¡ ¡ ¡ ¡ SRC: ¡ ¡TRG: ¡ word T1 ¡ ¡ ¡ word T2 ¡ ¡ ¡ ¡ ¡ ¡word T3 ¡ ¡ ¡word T4 ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡. ¡ ¡. ¡ LM ¡scores ¡ LM ¡scores ¡ 3 ¡ A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡
Phrase-based SMT Disto. ¡scores ¡ Disto. ¡scores ¡ ¡ ¡ ¡word S1 ¡ ¡ ¡ word S2 ¡ ¡ ¡word S3 ¡ ¡ ¡ ¡word S4 ¡ ¡ word S5 ¡ ¡ ¡ ¡ word S6 ¡ ¡ ¡ word S7 ¡ ¡ ¡ ¡ ¡ SRC: ¡ ¡TRG: ¡ word T1 ¡ ¡ ¡ word T2 ¡ ¡ ¡ ¡ ¡ ¡word T3 ¡ ¡ ¡word T4 ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡. ¡ ¡. ¡ LM ¡scores ¡ LM ¡scores ¡ ¡ ¡ ¡ ¡ ¡α TM-‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ α TM-‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ α DM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡α LM ¡ ¡ ¡+ ¡ + ¡ ¡ ¡ ¡… ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logP TM-‑d (f|e) ¡ logP TM-‑i (e|f) ¡ logP DM (f t-‑ 1 ,f t ) ¡ logP LM (e) ¡ 4 ¡ A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡
Phrase-based SMT ¡TRG: ¡ word T1 ¡ ¡ ¡ word T2 ¡ ¡ ¡ ¡ ¡ ¡word T3 ¡ ¡ ¡word T4 ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡. ¡ ¡. ¡ LM ¡scores ¡ LM ¡scores ¡ ¡ ¡ ¡ ¡ ¡α TM-‑d ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ α TM-‑i ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ α DM ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡α LM ¡ ¡ ¡+ ¡ + ¡ ¡ ¡ ¡… ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ logP TM-‑d (f|e) ¡ logP TM-‑i (e|f) ¡ logP DM (f t-‑ 1 ,f t ) ¡ logP LM (e) ¡ 5 ¡ A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡
N-gram language modeling 6 ¡ A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡
N-gram language modeling • English: ¡ P LM ¡ ≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ freedom ¡of ¡movement ¡ ¡must ¡be ¡ encouraged ¡ # ¡(must ¡be ¡* ¡) ¡ LM ¡score ¡ 7 ¡ A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡
N-gram language modeling • English: ¡ P LM ¡ ≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ freedom ¡of ¡movement ¡ ¡must ¡be ¡ encouraged ¡ # ¡(must ¡be ¡* ¡) ¡ LM ¡score ¡ • Morphologically ¡rich ¡language: ¡ P LM ¡ ≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡ incoraggiata ¡ # ¡(deve ¡essere ¡* ¡) ¡ LM ¡score ¡ 8 ¡ A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡
N-gram language modeling • English: ¡ P LM ¡ ≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ freedom ¡of ¡movement ¡ ¡must ¡be ¡ encouraged ¡ # ¡(must ¡be ¡* ¡) ¡ LM ¡score ¡ • Morphologically ¡rich ¡language: ¡ P LM ¡ ≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡ incoraggiata ¡ # ¡(deve ¡essere ¡* ¡) ¡ LM ¡score ¡ deve ¡essere ¡incoraggiato ¡ ¡120 ¡ Must ¡backoff ¡to ¡ devono ¡essere ¡incoraggia8 ¡ ¡ ¡ ¡ ¡54 ¡ shorter ¡history! ¡ dovrebbe ¡essere ¡incoraggiata ¡ ¡ ¡ ¡ ¡ ¡ ¡3 ¡ … ¡ ¡ ¡ ¡ ¡ ¡ ¡… ¡ deve ¡essere ¡ incoraggiata ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡ ¡ ¡ 9 ¡ A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡
N-gram language modeling • English: ¡ P LM ¡ ≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ freedom ¡of ¡movement ¡ ¡must ¡be ¡ encouraged ¡ # ¡(must ¡be ¡* ¡) ¡ LM ¡score ¡ • Morphologically ¡rich ¡language: ¡ P LM ¡ ≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡ incoraggiata ¡ # ¡(deve ¡essere ¡* ¡) ¡ Must ¡backoff ¡to ¡ shorter ¡history! ¡ 10 ¡ A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡
N-gram language modeling • English: ¡ P LM ¡ ≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ freedom ¡of ¡movement ¡ ¡must ¡be ¡ encouraged ¡ # ¡(must ¡be ¡* ¡) ¡ LM ¡score ¡ • Morphologically ¡rich ¡language: ¡ ¡(sing.fem.) ¡ ¡(sing.fem.) ¡ P LM ¡ ≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡ incoraggiata ¡ # ¡(deve ¡essere ¡* ¡) ¡ Must ¡backoff ¡to ¡ shorter ¡history! ¡ 11 ¡ A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡
N-gram language modeling • English: ¡ P LM ¡ ≈ ¡ ¡ ¡# ¡(must ¡be ¡encouraged) ¡ freedom ¡of ¡movement ¡ ¡must ¡be ¡ encouraged ¡ # ¡(must ¡be ¡* ¡) ¡ LM ¡score ¡ • Morphologically ¡rich ¡language: ¡ ¡(sing.fem.) ¡ ¡(sing.fem.) ¡ P LM ¡ ≈ ¡ ¡ ¡# ¡(deve ¡essere ¡incoraggiata) ¡ la ¡libertà ¡di ¡movimento ¡ deve ¡ ¡essere ¡ ¡ incoraggiata ¡ # ¡(deve ¡essere ¡* ¡) ¡ Long ¡dependencies ¡ important ¡for ¡inflec8on! ¡ Must ¡backoff ¡to ¡ shorter ¡history! ¡ 12 ¡ A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡
Class-based language modeling • IDEA: ¡ ¡group ¡words ¡with ¡similar ¡distribu8onal ¡behaviour ¡ into ¡equivalence ¡classes ¡(Brown ¡et ¡al. ¡1992) ¡ P class ( w i | w i − 1 i − n +1 ) = p ) = p 0 ( C ( w i ) | C ( w i − 1 i − n +1 )) · p 1 ( w i | C ( w i )) 13 ¡ A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡
Class-based language modeling • IDEA: ¡ ¡group ¡words ¡with ¡similar ¡distribu8onal ¡behaviour ¡ into ¡equivalence ¡classes ¡(Brown ¡et ¡al. ¡1992) ¡ P class ( w i | w i − 1 i − n +1 ) = p ) = p 0 ( C ( w i ) | C ( w i − 1 i − n +1 )) · p 1 ( w i | C ( w i )) Cx ¡ Cy ¡ Cz ¡ . ¡ ¡ ¡# ¡(incoraggiata) ¡ P CLASS ¡ ≈ ¡ ¡ ¡# ¡(Cx ¡ ¡Cy ¡ ¡Cz) ¡ # ¡(Cx ¡ ¡Cy ¡ ¡* ¡) ¡ # ¡(Cz) ¡ deve ¡ ¡ ¡essere ¡ ¡ incoraggiata ¡ 14 ¡ A.Bisazza ¡& ¡C.Monz ¡– ¡ ¡Class-‑based ¡LMs ¡for ¡Transla8ng ¡into ¡Morpho. ¡Rich ¡Languages ¡
Recommend
More recommend