From the Real World to Real Words: The MÉTÉO case. Philippe Langlais, Thomas Leplus, Simona Gandrabur and Guy Lapalme RALI Département d’informatique et de recherche opérationnelle Université de Montréal EAMT – May 30th 2005 Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 1 / 27
Once upon a time . . . Mid seventies : TAUM group (université de Montréal) → MÉTÉO 1 & 2 (Grimaila and Chandioux, 1992) ֒ MÉTÉO -systems in continuous use since 1984 → read (Hutchins and Somers, 1992) for more ֒ translating 45 000 words a day revised by professional translators Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 2 / 27
Once upon a time . . . Mid seventies : TAUM group (université de Montréal) → MÉTÉO 1 & 2 (Grimaila and Chandioux, 1992) ֒ MÉTÉO -systems in continuous use since 1984 → read (Hutchins and Somers, 1992) for more ֒ translating 45 000 words a day revised by professional translators Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 2 / 27
Once upon a time . . . Mid seventies : TAUM group (université de Montréal) → MÉTÉO 1 & 2 (Grimaila and Chandioux, 1992) ֒ MÉTÉO -systems in continuous use since 1984 → read (Hutchins and Somers, 1992) for more ֒ translating 45 000 words a day revised by professional translators Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 2 / 27
Once upon a time . . . Mid seventies : TAUM group (université de Montréal) → MÉTÉO 1 & 2 (Grimaila and Chandioux, 1992) ֒ MÉTÉO -systems in continuous use since 1984 → read (Hutchins and Somers, 1992) for more ֒ translating 45 000 words a day revised by professional translators Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 2 / 27
Parallel corpus Forecasts produced both in French and English over 2002-2003 Several hundred lines of Perl later + monitoring + sentence alignment (J APA ) = MÉTÉO bitext read (Leplus et al., 2004) for details English French corpus | pairs | | sent | e � = toks types toks types 4 187 041 488 391 30 446 549 10 429 37 284 810 11 141 TRAIN 4 187 041 301 459 30 290 318 3 352 37 284 810 4 416 TRAIN M 122 357 21 923 891 641 3 022 1 092 208 3 252 DEV 122 357 15 454 887 499 1 681 1 092 208 1 908 DEV M 36 228 7 878 269 927 1 874 333 370 1 989 TEST 36 228 5 994 268 820 1 378 333 370 1 495 TEST M ( M stands for meta-tokenized version) Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 3 / 27
Parallel corpus Forecasts produced both in French and English over 2002-2003 Several hundred lines of Perl later + monitoring + sentence alignment (J APA ) = MÉTÉO bitext read (Leplus et al., 2004) for details English French corpus | pairs | | sent | e � = toks types toks types 4 187 041 488 391 30 446 549 10 429 37 284 810 11 141 TRAIN 4 187 041 301 459 30 290 318 3 352 37 284 810 4 416 TRAIN M 122 357 21 923 891 641 3 022 1 092 208 3 252 DEV 122 357 15 454 887 499 1 681 1 092 208 1 908 DEV M 36 228 7 878 269 927 1 874 333 370 1 989 TEST 36 228 5 994 268 820 1 378 333 370 1 495 TEST M ( M stands for meta-tokenized version) Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 3 / 27
Example of a forecast in both languages FPCN18 CWUL 312130 FPCN78 CWUL 312130 SUMMARY FORECAST FOR RESUME DES PREVISIONS POUR WESTERN QUEBEC ISSUED BY L’OUEST DU QUEBEC EMISES ENVIRONMENT CANADA PAR ENVIRONNEMENT CANADA MONTREAL AT 4.30 PM EST MONTREAL 16H30 HNE LE MONDAY 31 DECEMBER 2001 LUNDI 31 DECEMBRE 2001 FOR TUESDAY 01 JANUARY POUR MARDI LE 01 JANVIER 2002. VARIABLE CLOUDINESS 2002. CIEL VARIABLE AVEC WITH FLURRIES. HIGH NEAR AVERSES DE NEIGE. MAX PRES MINUS 7. DE MOINS 7. END/LT FIN/TR Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 4 / 27
Motivation Context : TIDES, WPT’05, Verbmobil (Wahlster,2000), IWSLT (Akiba et al., 2004) The MÉTÉO task : → a really real task ֒ → specific domain ֒ → huge amount of data available ֒ → a reference system in daily use ֒ How well do corpus-based approaches on the MÉTÉO task ? Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 5 / 27
Motivation Context : TIDES, WPT’05, Verbmobil (Wahlster,2000), IWSLT (Akiba et al., 2004) The MÉTÉO task : → a really real task ֒ → specific domain ֒ → huge amount of data available ֒ → a reference system in daily use ֒ How well do corpus-based approaches on the MÉTÉO task ? Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 5 / 27
Motivation Context : TIDES, WPT’05, Verbmobil (Wahlster,2000), IWSLT (Akiba et al., 2004) The MÉTÉO task : → a really real task ֒ → specific domain ֒ → huge amount of data available ֒ → a reference system in daily use ֒ How well do corpus-based approaches on the MÉTÉO task ? Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 5 / 27
Motivation Context : TIDES, WPT’05, Verbmobil (Wahlster,2000), IWSLT (Akiba et al., 2004) The MÉTÉO task : → a really real task ֒ → specific domain ֒ → huge amount of data available ֒ → a reference system in daily use ֒ How well do corpus-based approaches on the MÉTÉO task ? Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 5 / 27
Motivation Context : TIDES, WPT’05, Verbmobil (Wahlster,2000), IWSLT (Akiba et al., 2004) The MÉTÉO task : → a really real task ֒ → specific domain ֒ → huge amount of data available ֒ → a reference system in daily use ֒ How well do corpus-based approaches on the MÉTÉO task ? Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 5 / 27
Motivation Context : TIDES, WPT’05, Verbmobil (Wahlster,2000), IWSLT (Akiba et al., 2004) The MÉTÉO task : → a really real task ֒ → specific domain ֒ → huge amount of data available ֒ → a reference system in daily use ֒ How well do corpus-based approaches on the MÉTÉO task ? Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 5 / 27
Outline History 1 Motivation 2 Approaches 3 Memory-based Translation Phrase-based SMT Bootstrapping the memory and/or the SMT Rescoring SMT output with a neural network Combination How good/bad is it ? 4 Conclusion & future work 5 Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 6 / 27
Pre/Post processing MONDAY .. CLOUDY PERIODS IN THE MORNING WITH 30 PERCENT CHANCE OF FLURRIES EARLY IN THE MORNING . ⇓ preprocessing __DAY1__ .. CLOUDY PERIODS IN THE MORNING WITH __INT1__ PERCENT CHANCE OF FLURRIES EARLY IN THE MORNING . ⇓ translation __DAY1__ .. DEVENANT NUAGEUX TOT EN MATINEE AVEC POSSIBILITE DE __INT1__ POUR CENT D AVERSES DE NEIGE EN MATINEE . ⇓ postprocessing LUNDI .. DEVENANT NUAGEUX TOT EN MATINEE AVEC POSSIBILITE DE 30 POUR CENT D AVERSES DE NEIGE EN MATINEE . Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 7 / 27
Pre/Post processing MONDAY .. CLOUDY PERIODS IN THE MORNING WITH 30 PERCENT CHANCE OF FLURRIES EARLY IN THE MORNING . ⇓ preprocessing __DAY1__ .. CLOUDY PERIODS IN THE MORNING WITH __INT1__ PERCENT CHANCE OF FLURRIES EARLY IN THE MORNING . ⇓ translation __DAY1__ .. DEVENANT NUAGEUX TOT EN MATINEE AVEC POSSIBILITE DE __INT1__ POUR CENT D AVERSES DE NEIGE EN MATINEE . ⇓ postprocessing LUNDI .. DEVENANT NUAGEUX TOT EN MATINEE AVEC POSSIBILITE DE 30 POUR CENT D AVERSES DE NEIGE EN MATINEE . Langlais, Leplus, Gandrabur and Lapalme The MÉTÉO case ( RALI Département d’informatique et de recherche opérationnelle Université EAMT – May 30th 2005 7 / 27
Recommend
More recommend