Informa(on ¡Retrieval ¡as ¡ ¡ Sta(s(cal ¡Transla(on ¡ Presented ¡by: ¡Lin ¡Gong ¡
Introduc(on ¡ How ¡do ¡people ¡search ¡a ¡query? ¡ Ideal ¡ Informa(on ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Query ¡ document ¡ need ¡ segment ¡ Query ¡genera(on! ¡ -‑> ¡Find ¡the ¡most ¡likely ¡documents ¡given ¡the ¡query. ¡
A ¡Closer ¡Look ¡ maximize ¡ query ¡ ¡ By ¡Baye’s ¡law: ¡ ¡
Main ¡Idea ¡ The ¡language ¡modeling ¡approach ¡is ¡novel ¡and ¡mo(vated. ¡ However, ¡it ¡has ¡two ¡problems: ¡ -‑ ¡Can ¡not ¡model ¡different ¡forms ¡or ¡styles ¡of ¡queries. ¡ -‑ ¡Can ¡not ¡address ¡the ¡important ¡issues ¡of ¡synonymy ¡and ¡ polysemy. ¡ High-‑performance ¡document ¡retrieval ¡systems ¡must ¡be ¡ sophis(cated ¡enough ¡to ¡handle ¡all ¡these ¡problems. ¡ The ¡paper ¡proposes ¡a ¡new ¡probabilis(c ¡approach ¡based ¡on ¡ sta(s(cal ¡machine ¡transla(on ¡and ¡aims ¡to ¡develop ¡a ¡general ¡ sta(s(cal ¡framework ¡for ¡handling ¡these ¡issues. ¡
What ¡is ¡Sta(s(cal ¡Machine ¡Transla(on? ¡ Machine ¡transla(on: ¡ Sta(s(cal ¡transla(on ¡system: ¡
Document-‑Query ¡Transla(on ¡ Model ¡1: ¡A ¡mixture ¡model ¡ Query: ¡m ¡ Document: ¡n ¡ q1 ¡ q2 ¡ q3 ¡ …. ¡ q m ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Document ¡: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡d1, ¡d2, ¡d3………….. ¡dn ¡
Model ¡1: ¡A ¡Mixture ¡Model ¡ Model ¡0 ¡
Model ¡1’: ¡A ¡Binomial ¡Model ¡ Possion ¡Distribu(on: ¡
Building ¡a ¡Transla(on-‑Based ¡IR ¡System ¡ Ø Use ¡mutual ¡informa(on ¡sta(s(c ¡to ¡construct ¡an ¡ ar(ficial ¡cumula(ve ¡distribu(on ¡func(on ¡over ¡words ¡ in ¡each ¡document. ¡ Ø Use ¡EM ¡algorithm ¡of ¡three ¡itera(ons ¡to ¡fit ¡the ¡ transla(on ¡probabili(es ¡of ¡Model ¡1 ¡and ¡Model ¡1’. ¡ Ø Do ¡experiments ¡on ¡TREC ¡data. ¡
Sample ¡Transla(on ¡Probabili(es ¡ ¡ A]er ¡EM ¡Algorithm ¡
Experimental ¡Results ¡ Precision ¡and ¡recall ¡curve ¡on ¡AP. ¡ Average ¡precision: ¡19.4% ¡ ¡ Average ¡recall: ¡10% ¡ ¡ Precision ¡and ¡recall ¡curve ¡on ¡SJMN. ¡ Average ¡precision: ¡27.3% ¡ ¡ Average ¡recall: ¡22.8% ¡ ¡
Experimental ¡Results ¡ Comparison ¡between ¡two ¡and ¡three ¡itera(ons ¡of ¡EM. ¡ ¡ Documents ¡with ¡shorter ¡query ¡length. ¡ Decrease ¡in ¡performance! ¡
Experimental ¡Results ¡ Precision ¡and ¡recall ¡curve ¡on ¡SDR. ¡ Average ¡precision: ¡22.2% ¡ ¡ Average ¡recall: ¡18.4% ¡ ¡ Comparison ¡between ¡Model ¡0 ¡and ¡LM. ¡ Performance ¡is ¡similar! ¡
Conclusion ¡ Ø Propose ¡an ¡approach ¡to ¡informa(on ¡retrieval ¡with ¡ sta(s(cal ¡machine ¡transla(on. ¡ ¡ Ø Present ¡two ¡models ¡for ¡document ¡query ¡genera(on ¡ process. ¡ Ø Train ¡the ¡parameters ¡with ¡EM ¡algorithm ¡and ¡do ¡ experiments ¡on ¡TREC ¡dataset. ¡
