¡ ¡ Unsupervised ¡False ¡Friend ¡DisambiguaGon ¡ ¡ Using ¡Contextual ¡Word ¡Clusters ¡and ¡AutomaGc ¡Word ¡Alignments ¡ ¡ ¡ ¡ ¡ Maryam ¡Aminian , ¡Mahmoud ¡Ghoneim, ¡Mona ¡Diab ¡ ¡ CARE4Lang ¡ George ¡Washington ¡University ¡ ¡ SSST-‑9 ¡ CARE4Lang ¡ transforming ¡text ¡into ¡meaning ¡
False ¡Friend ¡ [Faux ¡amis] ¡ (Mitkov+ ¡2008) ¡ Similar ¡spelling ¡ Different ¡meaning ¡
False ¡Friend ¡ [Faux ¡amis] ¡ (Mitkov+ ¡2008) ¡ Similar ¡ Different ¡ False ¡ Language ¡1 ¡ Language ¡2 ¡ Spelling ¡ meaning ¡ Friend ¡ ✗ ¡ color ¡ (En) ¡ color ¡ (Sp) ¡ ¡ ¡ ✔ ¡ NO ¡ Similar ¡spelling ¡ Different ¡meaning ¡
False ¡Friend ¡ [Faux ¡amis] ¡ (Mitkov+ ¡2008) ¡ Similar ¡ Different ¡ False ¡ Language ¡1 ¡ Language ¡2 ¡ Spelling ¡ meaning ¡ Friend ¡ ✗ ¡ color ¡ (En) ¡ color ¡ (Sp) ¡ ¡ ¡ ✔ ¡ NO ¡ Similar ¡spelling ¡ ¡ Library ¡ (En) ¡ ✔ ¡ YES ¡ ✗ ¡ Librairie ¡ (Fr) ¡ ¡ (bookshop) ¡ ¡ Different ¡meaning ¡
False ¡Friend ¡ [Faux ¡amis] ¡ (Mitkov+ ¡2008) ¡ Similar ¡ Different ¡ False ¡ Language ¡1 ¡ Language ¡2 ¡ Spelling ¡ meaning ¡ Friend ¡ ✗ ¡ color ¡ (En) ¡ color ¡ (Sp) ¡ ¡ ¡ ✔ ¡ NO ¡ Similar ¡spelling ¡ ¡ Library ¡ (En) ¡ ✔ ¡ ✔ ¡ YES ¡ Librairie ¡ (Fr) ¡ ¡ (bookshop) ¡ ¡ Different ¡meaning ¡ ¡ GiT ¡ (En) ¡ ✔ ¡ ✔ ¡ YES ¡ GiT ¡ (Gr) ¡ (poison) ¡ ¡
False ¡Friend ¡in ¡Cross-‑Lang ¡Variant ¡Context ¡ Standard ¡Language ¡ Dialectal ¡Language ¡ ¡ (ST) ¡ (DA) ¡ ¡ ¡ Similar ¡spelling ¡ Uniform ¡ Such ¡as ¡ zy ¡ zy ¡ Clothing ¡ like ¡ Different ¡meaning ¡ Uniform ¡ zy ¡ Clothing ¡ Modern ¡Standard ¡Arabic ¡ EgypGan ¡ Less ¡ (MSA) ¡ (EGY) ¡ Frequent ¡
Background: ¡Arabic ¡DA ¡vs. ¡ST ¡ • DAs ¡have ¡no ¡standard ¡orthographies ¡ • DAs ¡permeate ¡social ¡media ¡ ¡ • Code ¡switching ¡between ¡ST ¡and ¡DA ¡within ¡the ¡ same ¡u\erance ¡is ¡pervasive ¡ • Numerous ¡NLP ¡tools ¡exist ¡for ¡ST ¡ • However, ¡DA ¡and ¡ST ¡variants ¡of ¡Arabic ¡are ¡ significantly ¡different ¡on ¡all ¡levels ¡of ¡linguisGc ¡ representaGon ¡ hampering ¡direct ¡applica/on ¡ of ¡ST ¡NLP ¡tools ¡to ¡DA ¡processing ¡
In ¡MT ¡context: ¡MoGvaGng ¡Example ¡ Egyp=an: ¡ mc ¡mlkyp ¡xASp ¡yEny ¡AqSd ¡zy ¡AlAtwbys ¡w+ ¡Almtrw ¡w+ ¡AlqTAr ¡. ¡. ¡. ¡Alx ¡ Reference: ¡ not ¡private ¡, ¡I ¡mean ¡like ¡buses ¡and ¡the ¡metro ¡and ¡trains ¡... ¡etc ¡. ¡ ¡
In ¡MT ¡context: ¡MoGvaGng ¡Example ¡ Egyp=an: ¡ mc ¡mlkyp ¡xASp ¡yEny ¡AqSd ¡zy ¡AlAtwbys ¡w+ ¡Almtrw ¡w+ ¡AlqTAr ¡. ¡. ¡. ¡Alx ¡ Not ¡ enough ¡DA ¡parallel ¡data ¡to ¡train ¡the ¡translaGon ¡ model ¡and ¡build ¡stand ¡alone ¡machine ¡translaGon ¡ systems ¡for ¡DA ¡ Robust ¡SMT ¡systems ¡exist ¡for ¡ST ¡ Reference: ¡ not ¡private ¡, ¡I ¡mean ¡like ¡buses ¡and ¡the ¡metro ¡and ¡trains ¡... ¡etc ¡. ¡ ¡
In ¡MT ¡context: ¡MoGvaGng ¡Example ¡ Egyp=an: ¡ mc ¡mlkyp ¡xASp ¡yEny ¡AqSd ¡zy ¡AlAtwbys ¡w+ ¡Almtrw ¡w+ ¡AlqTAr ¡. ¡. ¡. ¡Alx ¡ Robust ¡SMT ¡trained ¡ exclusively ¡with ¡ST ¡ data ¡ ¡ ¡ privately ¡, ¡I ¡mean ¡, ¡I ¡mean ¡, ¡I ¡do ¡not ¡like ¡the ¡bus ¡and ¡subway ¡ ý ¡ Transla=on: ¡ train ¡, ¡etc ¡. ¡ ¡ Reference: ¡ not ¡private ¡, ¡I ¡mean ¡like ¡buses ¡and ¡the ¡metro ¡and ¡trains ¡... ¡etc ¡. ¡ ¡
In ¡MT ¡context: ¡MoGvaGng ¡Example ¡ Egyp=an: ¡ mc ¡mlkyp ¡xASp ¡yEny ¡AqSd ¡zy ¡AlAtwbys ¡w+ ¡Almtrw ¡w+ ¡AlqTAr ¡. ¡. ¡. ¡Alx ¡ Such ¡as ¡ zy ¡ mvl ¡ Like ¡ Reference: ¡ not ¡private ¡, ¡I ¡mean ¡like ¡buses ¡and ¡the ¡metro ¡and ¡trains ¡... ¡etc ¡. ¡ ¡
In ¡MT ¡context: ¡MoGvaGng ¡Example ¡ Egyp=an: ¡ mc ¡mlkyp ¡xASp ¡yEny ¡AqSd ¡zy ¡AlAtwbys ¡w+ ¡Almtrw ¡w+ ¡AlqTAr ¡. ¡. ¡. ¡Alx ¡ Replace ¡ Such ¡as ¡ zy ¡ mvl ¡ Like ¡ Reference: ¡ not ¡private ¡, ¡I ¡mean ¡like ¡buses ¡and ¡the ¡metro ¡and ¡trains ¡... ¡etc ¡. ¡ ¡
In ¡MT ¡context: ¡MoGvaGng ¡Example ¡ Egyp=an: ¡ mc ¡mlkyp ¡xASp ¡yEny ¡AqSd ¡mvl ¡AlAtwbys ¡w+ ¡Almtrw ¡w+ ¡AlqTAr ¡. ¡. ¡. ¡Alx ¡ Replace ¡ Such ¡as ¡ zy ¡ mvl ¡ Like ¡ Reference: ¡ not ¡private ¡, ¡I ¡mean ¡like ¡buses ¡and ¡the ¡metro ¡and ¡trains ¡... ¡etc ¡. ¡ ¡
In ¡MT ¡context: ¡MoGvaGng ¡Example ¡ Egyp=an: ¡ mc ¡mlkyp ¡xASp ¡yEny ¡AqSd ¡mvl ¡AlAtwbys ¡w+ ¡Almtrw ¡w+ ¡AlqTAr ¡. ¡. ¡. ¡Alx ¡ Robust ¡SMT ¡trained ¡ exclusively ¡with ¡ST ¡ data ¡ ¡ ¡ not ¡privately ¡, ¡I ¡mean ¡, ¡I ¡mean ¡, ¡such ¡as ¡the ¡bus ¡and ¡subway ¡ þ ¡ Transla=on: ¡ train ¡, ¡etc ¡. ¡ ¡ Reference: ¡ not ¡private ¡, ¡I ¡mean ¡like ¡buses ¡and ¡the ¡metro ¡and ¡trains ¡... ¡etc ¡. ¡ ¡
Our ¡Goal ¡ ¡ Enhance ¡cross-‑ ¡language ¡variant ¡SMT ¡performance, ¡ crucially, ¡in ¡absence ¡of ¡ ¡ in-‑domain ¡training ¡data ¡ ¡ i.e. ¡using ¡an ¡ exclusively ¡ST ¡system ¡to ¡translate ¡DA ¡data ¡ ¡
Our ¡Approach ¡ Input ¡Sentence ¡ False ¡Friend ¡(FF) ¡ mc ¡mlkyp ¡xASp ¡yEny ¡AqSd ¡ ¡ ¡ ¡zy ¡ ¡ ¡ ¡ ¡AlAtwbys ¡w+ ¡Almtrw ¡w+ ¡AlqTAr ¡. ¡. ¡. ¡Alx ¡ Egyp=an: ¡ IdenGficaGon ¡ mvl ¡ SMT ¡System ¡ trained ¡with ¡ST ¡ FF ¡DisambiguaGon ¡ data ¡ ¡ (Replacement) ¡ Transla=on : ¡ not ¡privately ¡, ¡I ¡mean ¡, ¡I ¡mean ¡, ¡such ¡as ¡the ¡bus ¡and ¡subway ¡train ¡, ¡etc ¡. ¡ ¡ Sentence ¡with ¡replacement ¡ Reference: ¡ not ¡private ¡, ¡I ¡mean ¡like ¡buses ¡and ¡the ¡metro ¡and ¡trains ¡... ¡etc ¡. ¡ ¡ SMT ¡System ¡ trained ¡with ¡ ST ¡data ¡ ¡ TranslaGon ¡
Our ¡Approach ¡ Input ¡Sentence ¡ Employing ¡unsupervised ¡word ¡ ü False ¡Friend ¡(FF) ¡ PARL ¡Classifier ¡ alignment ¡from ¡parallel ¡(PARL) ¡corpus ¡ IdenGficaGon ¡ Replace ¡FF ¡with ¡a ¡semanGc ¡equivalent ¡ ü FF ¡DisambiguaGon ¡ WC ¡Classifier ¡ from ¡ST ¡ (Replacement) ¡ Using ¡unsupervised ¡word ¡clusters ¡(WC) ¡ ü to ¡model ¡the ¡context ¡ ¡ Sentence ¡with ¡replacement ¡ SMT ¡System ¡ Extrinsic ¡EvaluaGon ¡ trained ¡with ¡ ST ¡data ¡ ¡ TranslaGon ¡
PARL ¡Classifier ¡ ü There ¡is ¡no ¡labeled ¡data ¡with ¡FF ¡tags ¡ ü Training ¡data ¡for ¡PARL ¡is ¡created ¡automaGcally ¡
PARL ¡Classifier ¡ GeneraGng ¡Training ¡Data ¡ Source ¡ Target ¡ 1. ¡IdenGfy ¡words ¡used ¡in ¡both ¡DA ¡& ¡ST ¡ ¡ DA ¡ zy ¡ (Cross-‑variant ¡homographs) ¡ ST ¡ zy ¡
PARL ¡Classifier ¡ GeneraGng ¡Training ¡Data ¡ Source ¡ Target ¡ 2. ¡Aligned ¡English ¡word ¡ ¡in ¡DA ¡ ¡ DA ¡correspondent ¡ DA ¡ like ¡ zy ¡ of ¡the ¡target ¡word ¡ sense ¡ like ¡ layer ¡ Set ¡of ¡ST ¡ zy ¡ layer ¡ correspondents ¡of ¡ 3. ¡Set ¡of ¡all ¡aligned ¡English ¡words ¡ cloth ¡ the ¡target ¡word ¡ to ¡ST ¡word ¡ ST ¡ zy ¡ cloth ¡ uniform ¡ zy ¡ uniform ¡
PARL ¡Classifier ¡ GeneraGng ¡Training ¡Data ¡ correspondent ¡of ¡ like ¡ DA ¡word ¡ Weighted ¡ average ¡similarity ¡ This ¡example ¡will ¡be ¡ layer ¡ layer ¡ classified ¡as ¡FF ¡ Set ¡of ¡ Clustering ¡Synonyms ¡ correspondents ¡of ¡ cloth ¡ cloth ¡ ST ¡word ¡ uniform ¡ uniform ¡ Wu-‑Palmer ¡WordNet ¡ Similarity ¡Measure ¡ ( Wu ¡and ¡Palmer, ¡1994) ¡ ¡ ¡
Recommend
More recommend