empirical jus fica on of the gain and discount func on
play

Empirical Jus-fica-on of the Gain and Discount Func-on for - PowerPoint PPT Presentation

Empirical Jus-fica-on of the Gain and Discount Func-on for nDCG Evangelos Kanoulas Javed Aslam University of Sheffield Northeastern University Sheffield, UK


  1. Empirical ¡Jus-fica-on ¡of ¡the ¡Gain ¡ and ¡Discount ¡Func-on ¡for ¡nDCG ¡ Evangelos ¡Kanoulas ¡ Javed ¡Aslam ¡ University ¡of ¡Sheffield ¡ Northeastern ¡University ¡ Sheffield, ¡UK ¡ Boston, ¡USA ¡

  2. Overview ¡of ¡nDCG ¡ [Järvelin ¡and ¡Kekäläinen] ¡ • Mul--­‑graded ¡relevance ¡judgments ¡ – Documents ¡are ¡judged ¡as ¡non-­‑relevant, ¡relevant, ¡ highly ¡relevant, ¡etc… ¡ • Model/assump-ons ¡ – The ¡higher ¡the ¡relevance ¡of ¡a ¡document ¡the ¡more ¡ valuable ¡it ¡is ¡to ¡a ¡user ¡ – The ¡lower ¡in ¡a ¡ranked ¡list ¡a ¡document ¡appears, ¡the ¡ less ¡its ¡value ¡

  3. Overview ¡of ¡nDCG ¡ [Järvelin ¡and ¡Kekäläinen] ¡ • Relevance ¡grades ¡mapped ¡to ¡relevance ¡scores ¡ – (2 ¡for ¡Highly ¡Relevant, ¡1 ¡for ¡Relevant, ¡…) ¡ • Relevance ¡scores ¡mapped ¡to ¡gains, ¡g(rel i ) ¡ • Each ¡gain ¡value ¡is ¡discounted ¡by ¡a ¡ discount ¡factor ¡d i ¡ , ¡ a ¡ func-on ¡of ¡rank ¡i ¡ ¡ • Discounted ¡gain ¡values ¡are ¡summed ¡to ¡rank ¡k ¡, ¡ DCG(k) ¡ • ¡Normalized ¡by ¡DCG ¡of ¡an ¡op-mal ¡list ¡up ¡to ¡rank ¡k ¡ k DCG ( k ) ∑ nDCG ( k ) = optDCG ( k ) where DCG(k) = g ( rel i ) ⋅ d i i = 1

  4. Overview ¡of ¡nDCG ¡ [Järvelin ¡and ¡Kekäläinen] ¡ • nDCG ¡is ¡a ¡func-onal ¡of ¡ – a ¡gain ¡func-on ¡ – a ¡discount ¡func-on ¡ • Different ¡gain ¡and ¡discount ¡func-ons ¡ accommodate ¡different ¡user ¡search ¡paZerns ¡ – Gain ¡viewed ¡as ¡the ¡ gain ¡ returned ¡to ¡a ¡user ¡when ¡ examining ¡a ¡document ¡ – Discount ¡viewed ¡as ¡the ¡ persistence ¡ of ¡user ¡to ¡walk ¡ down ¡the ¡ranked ¡list ¡

  5. Overview ¡of ¡nDCG ¡ [Järvelin ¡and ¡Kekäläinen] ¡ • Some ¡decisions ¡to ¡be ¡made… ¡ – Gain ¡func-on ¡ • ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡most ¡commonly ¡employed ¡ rel ( i ) (2 rel ( i ) − 1) • ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡[Burges ¡et ¡al. ¡05] ¡ – Discount ¡func-on ¡ ¡ • 1/rank ¡ • 1/log b (rank) ¡ • 1/log 2 (rank+1) ¡, ¡most ¡commonly ¡employed ¡

  6. nDCG ¡and ¡User ¡Sa-sfac-on ¡ [Al-­‑Maskari ¡et ¡al. ¡07] ¡ • Cumula-ve ¡Gain ¡(CG) ¡more ¡correlated ¡to ¡user ¡ sa-sfac-on ¡than ¡ – Discounted ¡Cumula-ve ¡Gain ¡(DCG) ¡ – nDCG ¡ • Thus ¡: ¡A ¡methodological ¡selec-on ¡of ¡gain ¡and ¡ discount ¡func-on ¡is ¡needed ¡

  7. nDCG ¡and ¡User ¡Sa-sfac-on ¡ • Selec-ng ¡gain ¡and ¡discount ¡func-ons ¡that ¡ correlate ¡with ¡user ¡sa-sfac-on ¡is ¡expensive ¡ (if ¡at ¡all ¡possible) ¡ – Vast ¡differences ¡in ¡user ¡search ¡behavior ¡ – Many ¡possible ¡retrieval ¡tasks ¡ – Difficulty ¡in ¡measuring ¡user ¡sa-sfac-on ¡

  8. Alterna-ve ¡approach ¡ • Define ¡gain ¡and ¡discount ¡func-ons ¡based ¡on ¡desirable ¡ proper-es ¡of ¡the ¡metric ¡ – How ¡informa-ve ¡the ¡metric ¡is ¡ [Aslam ¡et. ¡al ¡05] ¡ – How ¡discrimina-ve ¡the ¡metric ¡is ¡ [Sakai ¡07] ¡ – How ¡stable/efficient ¡the ¡metric ¡is ¡ [Bodoff ¡and ¡Li ¡08] ¡ • How ¡different ¡the ¡ranking ¡of ¡systems ¡are ¡over ¡different ¡sets ¡of ¡ queries ¡ • How ¡many ¡queries ¡needed ¡for ¡the ¡metric ¡to ¡be ¡stable ¡over ¡ different ¡sets ¡

  9. Our ¡approach ¡ • Define ¡gain ¡and ¡discount ¡func-ons ¡based ¡on ¡desirable ¡ proper-es ¡of ¡the ¡metric ¡ – How ¡informa-ve ¡the ¡metric ¡is ¡ [Aslam ¡et. ¡al ¡05] ¡ – How ¡discrimina-ve ¡the ¡metric ¡is ¡ [Sakai ¡07] ¡ – How ¡stable/efficient ¡the ¡metric ¡is ¡ [Bodoff ¡and ¡Li ¡08] ¡ • How ¡different ¡the ¡ranking ¡of ¡systems ¡are ¡over ¡different ¡sets ¡of ¡ queries ¡ • How ¡many ¡queries ¡needed ¡for ¡the ¡metric ¡to ¡be ¡stable ¡over ¡ different ¡sets ¡

  10. Outline ¡ • Intro ¡ • Methodology ¡ ¡ – Variance ¡Decomposi-on ¡Analysis ¡ – Op-miza-on ¡ • Efficiency-­‑ ¡(stability-­‑) ¡op-mal ¡func-ons ¡ – Discount ¡func-on ¡ – Gain ¡func-on ¡ • Discrimina-ve ¡power ¡ • Conclusions ¡

  11. How ¡stable/efficient ¡is ¡nDCG? ¡ Hypothe-cally, ¡systems ¡run ¡on ¡ universe ¡of ¡all ¡topics ¡ • Performance ¡of ¡each ¡system ¡measured ¡by ¡mean ¡nDCG ¡ ¡ – Prac-cally, ¡systems ¡run ¡on ¡a ¡specific ¡ subset ¡of ¡topics ¡ • How ¡many ¡topics ¡are ¡necessary ¡so ¡that ¡ • mean ¡nDCG ¡values ¡are ¡the ¡same ¡for ¡both ¡sets, ¡and ¡ – ranking ¡of ¡systems ¡is ¡the ¡same ¡for ¡both ¡sets? ¡ – How ¡quickly, ¡in ¡terms ¡of ¡topics, ¡can ¡one ¡arrive ¡at ¡stable ¡ • system ¡rankings? ¡ Variance ¡Decomposi-on ¡ –

  12. Variability ¡in ¡a ¡metric ¡ 1.0 ¡ 0.8 ¡ nDCG ¡ 0.6 ¡ 0.4 ¡ 0.2 ¡ 0.0 ¡ Topics

  13. Variability ¡due ¡to ¡systems ¡ 1.0 ¡ 0.8 ¡ 0.6 ¡ nDCG ¡ 0.4 ¡ 0.2 ¡ Sys ¡1 ¡ Sys ¡20 ¡ 0.0 ¡ Sys ¡100 ¡ Q1 ¡ Q2 ¡ Q3 ¡ Q4 ¡ Q5 ¡ Q6 ¡ Q7 ¡ Q8 ¡ Q9 ¡ Q10 ¡

  14. Variability ¡due ¡to ¡topics ¡ 0.8 ¡ 0.7 ¡ 0.6 ¡ Q1 ¡ nDCG ¡ Q2 ¡ 0.5 ¡ Sys ¡15 ¡ Q3 ¡ Sys ¡13 ¡ 0.4 ¡ Sys ¡11 ¡ Sys ¡9 ¡ 0.3 ¡ Sys ¡7 ¡ 0.2 ¡ Sys ¡5 ¡ 0.1 ¡ Sys ¡3 ¡ 0.0 ¡ Sys ¡1 ¡ Topics

  15. Variability ¡due ¡to ¡system-­‑topic ¡ interac-on ¡ 1.0 ¡ 0.8 ¡ 0.6 ¡ nDCG ¡ Sys ¡3 ¡ 0.4 ¡ Sys ¡7 ¡ 0.2 ¡ Sys ¡9 ¡ 0.0 ¡ Q11 ¡ Q12 ¡ Q13 ¡ Topics Q14 ¡ Q15 ¡

  16. Variability ¡due ¡to ¡system-­‑topic ¡ interac-on ¡ 1.0 ¡ 0.8 ¡ 0.6 ¡ nDCG ¡ Sys ¡3 ¡ 0.4 ¡ Sys ¡7 ¡ 0.2 ¡ Sys ¡9 ¡ 0.0 ¡ Q11 ¡ Q12 ¡ Q13 ¡ Topics Q14 ¡ Q15 ¡

  17. nDCG ¡variance ¡component ¡ 1 ¡topic ¡ System ¡ 11% ¡ System ¡Topic ¡ 50% ¡ Topic ¡ 39% ¡

  18. nDCG ¡variance ¡components ¡ • How ¡stable ¡are ¡the ¡ nDCG ¡values ¡ σ 2 ( system ) Φ = σ 2 ( system ) + σ 2 ( topic ) + σ 2 ( system topic ) System ¡ 11% ¡ 1 ¡topic ¡ System ¡Topic ¡ 50% ¡ Topic ¡ 39% ¡

  19. nDCG ¡variance ¡components ¡ • How ¡reliable ¡are ¡the ¡ nDCG ¡values ¡ σ 2 ( system ) Φ = σ 2 ( system ) + σ 2 ( topic ) # of topics + σ 2 ( system topic ) # of topics System ¡ Topic ¡ 25% ¡ 10 ¡topics ¡ System ¡ 55% ¡ Topic ¡ 20% ¡

  20. nDCG ¡variance ¡components ¡ • How ¡reliable ¡are ¡the ¡ nDCG ¡values ¡ σ 2 ( system ) Φ = σ 2 ( system ) + σ 2 ( topic ) # of topics + σ 2 ( system topic ) System ¡ # of topics Topic ¡ 8% ¡ Topic ¡ 6% ¡ 50 ¡topics ¡ System ¡ 86% ¡

  21. Op-miza-on ¡framework ¡ • Consider ¡gain ¡and ¡discount ¡func-on ¡employed ¡by ¡nDCG ¡as ¡ unknown ¡ • Impose ¡natural ¡constraints ¡ – Non-­‑increasing ¡discount ¡func-on ¡ – Non-­‑decreasing ¡gain ¡func-on ¡ • What ¡is ¡the ¡gain ¡and ¡discount ¡func-on ¡that ¡maximizes ¡ ¡ ¡ ¡ ¡ ¡ ¡? ¡ ¡ Φ • Given ¡than ¡ ¡ ¡ ¡ ¡ ¡ ¡is ¡monotonically ¡non-­‑decreasing ¡func-on ¡of ¡ Φ the ¡number ¡of ¡topics ¡ – ¡Topic ¡set ¡size ¡= ¡1 ¡ ¡

  22. Outline ¡ • Intro ¡ • Methodology ¡ ¡ – Variance ¡Decomposi-on ¡Analysis ¡ – Op-miza-on ¡ • Efficiency-­‑op-mal ¡func-ons ¡ – Discount ¡func-on ¡ – Gain ¡func-on ¡ • Discrimina-ve ¡power ¡ • Conclusions ¡

  23. Experimental ¡Setup ¡ • TREC ¡9 ¡and ¡10 ¡Web ¡track ¡and ¡TREC ¡12 ¡Robust ¡ track ¡ • 3 ¡relevance ¡grades ¡ – ¡highly ¡relevant, ¡relevant, ¡non-­‑relevant ¡ • All ¡systems ¡run ¡over ¡50 ¡queries ¡

  24. Op-mal ¡discount ¡func-on ¡ • Op-miza-on ¡ Φ – Objec-ve ¡func-on, ¡ – Observa-on: ¡nDCG ¡immune ¡to ¡discount ¡func-on ¡ scaling ¡ – Constraints ¡ • Discount ¡func-on ¡is ¡a ¡probability ¡distribu-on ¡ • Discount ¡func-on ¡is ¡non-­‑increasing ¡

Recommend


More recommend