Evalua&on)of) Machine)Transla&on)Quality ) Ma6eo)Negri) FBK)Trento,)Italy) negri@?k.eu ) ) Slides)from)(lots)of))presenta&ons)by:)) Philip)Koehn,)Andy)Way,)Eduard)Hovy,)François)Yvon,)Andrei)PopescuPBelis,)) Sharon)O’Brien,)Mauro)Ce6olo,)Marco)Turchi)…and)myself.) Disclaimer) “More)has)been)wri6en)about)MT)evalua&on)) over)the)past)50)years)than)about)MT)itself”) ) Hovy)et)al.:) Principles*of*Context0Based*Machine*Transla7on*Evalua7on .)) Machine)Transla&on,)16,)pp.)1–33,)2002) (a6ributed)to)Yorick)Wilks)) “It)is)impossible)to)write)a)comprehensive)overview)of)the)MT) evalua&on)literature”) Adam)Lopez.:) Sta7s7cal*Machine*Transla7on.* ACM)Compu&ng)Surveys)40(3))pp.)1–49,)August)2008. ) MT)Evalua&on,)Trento,)ISIT)School)P)November)2013)
Outline) • Importance)of)MT)Evalua&on) • Difficulty)of)MT)Evalua&on) • Human)evalua&on:)fluency/adequacy) • Automa&c)evalua&on:)) – ReferencePbased:)BLEU,)TER,)HTER)(chosen)among) MANY% others)) – ReferencePfree:)quality)es&ma&on)(es&ma&ng)postPedi&ng)effort)) MT)Evalua&on,)Trento,)ISIT)School)P)November)2013) The)importance)of)MT)evalua&on) • Answering)“ How$good$ is*an*MT*system? ”)as)a)way)to:) – Which)system)to)use)for)a)given)task) – Assess)and)compare)systems’)performance) – Define)the)state)of)the)art) – Drive)system)development)and)measure)improvements) – Decide)whether)to)apply)MT)at)all) • …Necessary)(yes,)not)sufficient))condi&ons)for)progress)in) any)research)field) • Difficult)task!)) MT)Evalua&on,)Trento,)ISIT)School)P)November)2013)
Difficulty)of)MT)evalua&on) • No)formal)defini&on)of)“transla&on” * ! )no)defini&on)of)“good) transla&on”)) • The)no&on)of)quality)is)inherently)subjec&ve) • Exact)quan&fica&on)is)difficult)(especially)for)long)sentences)) • MT)errors)are)very)varied)in)nature) % • Perfect)or)very)poor)transla&ons) are)easy)to)score,)but)what) happens)in)between?) ) Difficulty)of)MT)evalua&on) • Many)different)acceptable)transla&ons)for)the)same)sentence) ��������� ) – I*am*[experiencing|suffering*from|feeling]*a*throbbing*pain*.* – I*[feel|can*feel|have]*a*[throbbing*pain|painful*throbbing]*.** – [It*is*a|It’s*in|I’ve*got*a]*throbbing*pain*.** – It’s*throbbing*[and*it*really*hurts|with*pain]*.** – [It’s*painful*and|It*hurts*so*much]*it’s*throbbing*. $ MT)Evalua&on,)Trento,)ISIT)School)P)November)2013)
Difficulty)of)MT)evalua&on) • How)would)you)translate:) % It’s*raining*cats*and*dogs** Avere*la*stoffa*del*campione* Darsi*del*tu* MeKersi*in*proprio* Mi*prendono*i*cinque*minu7* Passarsela*bene* Vecchia*roccia* * • Literally,)its)meaning)or)the)corresponding)idiom)(if)any)?) MT)Evalua&on,)Trento,)ISIT)School)P)November)2013) Difficulty)of)MT)evalua&on) • Classifica&on)of)errors:)a)quite)rich)taxonomy) Note:)error)types)are)not)mutually)exclusive)and)oqen)coPoccur)(Vilar)et)al.)2006)) MT)Evalua&on,)Trento,)ISIT)School)P)November)2013)
Human)Vs)Automa&c)evalua&on) • Human%MT%evalua/on:%% – criteria:)adequacy)(fidelity))and)fluency)(intelligibility)) – pros:)very)accurate,)high)quality) – cons:)expensive,)slow,)subjec&ve) • Automa/c%MT%evalua/on:% – criteria:)“similarity”)to)professional)human)transla&on) – pros:)inexpensive,)quick,)objec&ve) – cons:)quality)is)“slightly”)lower)than)human)check) MT)Evalua&on,)Trento,)ISIT)School)P)November)2013) Human)evalua&on)) ) MT)Evalua&on,)Trento,)ISIT)School)P)November)2013)
Human)evalua&on) • Given:)) – MT)output,)source)and/or)reference)transla&on) • Task:)assess)the)quality)of)the)MT)output) • Metrics)) – Adequacy: )does)the)output)convey)the)same)meaning)as)the) input)sentence?)Is)part)of)the)message)lost,)added,)or)distorted?) …requires)bilingual)judges)or)a)reference)transla&on) – Fluency :)is)the)output)good)fluent)English?)This)involves)both) gramma&cal)correctness)and)idioma&c)word)choices.))))))))))))))))))))) …monolingual)judges)are)sufficient,)no)reference)needed) MT)Evalua&on,)Trento,)ISIT)School)P)November)2013) Human)evalua&on:)adequacy)and)fluency) • Source)sentence:) Le*chat*entre*dans*la*chambre.* (a))Adequate)fluent)transla&on:) )))))) The*cat*enters*the*room.* (b))Adequate)disfluent)transla&on:)))) The*cat* enter$in$ the*room.* (c))Fluent)inadequate)transla&on:) ))))) The* cats$ enter*the* bedroom .* (d))Disfluent)inadequate)transla&on:) Bedroom$ the* cats$enters$ the** MT)Evalua&on,)Trento,)ISIT)School)P)November)2013)
Human)evalua&on:)Likert)scales) Adequacy% Fluency% 5) all)meaning) 5) flawless)English) 4) most)meaning) 4) good)English) 3) much)meaning) 3) nonPna&ve)English) 2) li6le)meaning) 2) disfluent)English) 1) none) 1) incomprehensible) MT)Evalua&on,)Trento,)ISIT)School)P)November)2013) Human)evalua&on:)subjec&vity)) • Perfect)or)very)poor)transla&ons)are)easy)to)score…) )…but)what)happens)in)between?) * (a))Adequate)fluent)transla&on:) )))))) The*cat*enters*the*room.* (b))Adequate)disfluent)transla&on:)))) The*cat* enter$in$ the*room.* (c))Fluent)inadequate)transla&on:) ))))) The* cats$ enter*the* bedroom .* (d))Disfluent)inadequate)transla&on:) Bedroom$ the* cats$enters$ the** JUDGE1) JUDGE2) JUDGE3) b b a a a b adequacy) adequacy) adequacy) c c d c d d fluency) fluency) fluency)
Human)evalua&on:)subjec&vity)) Evaluators%disagree!% • …look)at)this)histogram)of)adequacy)judgments)by) different)human)evaluators) ) MT)Evalua&on,)Trento,)ISIT)School)P)November)2013) Human)evalua&on:)measuring)agreement) • Kappa)coefficient) K = p ( A ) − p ( E ) 1 − p ( E ) ) – p(A) :)propor&on)of)&mes)that)the)evaluators)agree) – p(E) :)propor&on)of)&me)that)they)would)agree)by)chance) )(5Ppoint)scale)→) p(E) )=)1/5)) – Complete)agreement:)K=1) – No)agreement)higher)than)chance:)K=0) • Example:)interPevaluator)agreement)in)WMT)2007) ) p(A)* p(E)* K* Fluency) .400) .2) .250) Adequacy) .380) .2) .226)
Human)evalua&on:)alterna&ves) • Ranking%transla/ons:% is)transla&on)X)be6er)than))transla&on)Y?) – Evaluators)are)more)consistent) p(A)* p(E)* K* Fluency) .400) .2) .250) Adequacy) .380) .2) .226) ) Sentence%ranking% .582% .333% .373% ) • Informa/veness: ) answer) comprehension) ques&ons) using) the) transla&on)( who?*where?*when?*names,*numbers,*dates*etc. )) – Very)hard)to)devise)ques&ons)) • Cloze%test:% restore)missing)words)from)MT)output) – Biased)to)the)competences)of)the)evaluator) Human)evalua&on:)alterna&ves) • Reading%/me% – people)read)more)quickly)a)wellPformed)text) % • PostLedi/ng%effort%(/me/HTER) ) – Time)required)to)turn)MT)into)a)good)transla&on) – HTER) (HumanPTargeted) Transla&on) Error) Rate)) –) number) of) edi&ng) opera&ons) required) to) turn) MT) output) into) an) acceptable)transla&on)
Automa&c)metrics)for)MT)evalua&on)) ) MT)Evalua&on,)Trento,)ISIT)School)P)November)2013) Requirements)for)automa&c)metrics) • Low%cost )(wrt)human)evalua&on)) • Objec/ve% (unbiased)) • Meaningful :)score)should)give)intui&ve)interpreta&on)of) transla&on)quality)) • Efficient :)to)be)computed)quickly)and)oqen) • Consistent :)repeated)use)of)metric)should)give)same)results) • Correct :)metric)must)rank)be6er)systems)higher))) ) MT)Evalua&on,)Trento,)ISIT)School)P)November)2013)
ReferencePbased)metrics) • Idea:)compute)a) similarity$ score)between)a) candidate$ transla&on)and)one)or)more)highPquality) reference % transla&ons) – References)are)created)by)human)experts)(e.g.)professional) translators)) – Several)references)allow)to)account)for)variability)of)good) transla&ons) ) • Criterion)for)valida&ng)automa&c)metrics:)automa&c)scores) must)correlate)with)human)ones)on)test)data) MT)Evalua&on,)Trento,)ISIT)School)P)November)2013) ReferencePbased)metrics) • Typically:) ) k 1 ∑ 1*≤*k*≤*4 ) sim ( ref i , cand ) k i = 1 – Sim% is)a)similarity)metric)between)sentences % – Sim% can)use)a)variety)of)proper&es:)string)distance,)word)precision/ recall,)syntac&c)similarity,)seman&c)distance,)etc.) % WER :)ra&o)of)smallest)edit)distance)and)output)length) BLEU :)weighted)sum)of)precision)of) n Pgrams) TER :)normalized)number)of)edits)to)match)the)closest)reference)) METEOR :)harmonic)mean)of)unigram)precision/recall)) NIST,%PER,%GTM,%HTER,%TERP,%CDER,%GTM,%BLANC,%PER,%ULC,%MTL NCD,%ATEC,%TESLA,%SEPIA,%IQTM,%BEWTLE,%MEANT, )etc.)
Recommend
More recommend