modeling rich interac1ons in session search georgetown
play

Modeling Rich Interac1ons in Session Search Georgetown - PowerPoint PPT Presentation

Modeling Rich Interac1ons in Session Search Georgetown University at TREC 2014 Session Track Jiyun Luo, Xuchu Dong and Grace Hui Yang Department of


  1. Modeling ¡Rich ¡Interac1ons ¡in ¡Session ¡ Search ¡– ¡Georgetown ¡University ¡at ¡TREC ¡ 2014 ¡Session ¡Track ¡ ¡ Jiyun ¡Luo, ¡Xuchu ¡Dong ¡and ¡Grace ¡Hui ¡Yang ¡ Department ¡of ¡Computer ¡Science ¡ Georgetown ¡University ¡ ¡

  2. Introduc:on ¡ • Session ¡search ¡ – Document ¡retrieval ¡for ¡an ¡en:re ¡search ¡session. ¡ ¡ • TREC ¡Session ¡Track ¡provides ¡log ¡data ¡which ¡records ¡ – A ¡sequence ¡of ¡query ¡changes ¡ q 1 ,q 2 …q n-­‑1 ,q n ¡ – The ¡ranked ¡list ¡for ¡each ¡past ¡query ¡ – Document ¡clicked ¡informa:on ¡and ¡dwell ¡:me. ¡ ¡ • TREC ¡2014 ¡Session ¡Track: ¡ – RL1 ¡using ¡the ¡last ¡query ¡of ¡a ¡session ¡ – RL2 ¡using ¡any ¡informa:on ¡in ¡current ¡session ¡ – RL3 ¡using ¡informa:on ¡from ¡other ¡sessions ¡ • We ¡use: ¡ ¡ – ClueWeb12 ¡Category ¡A ¡as ¡our ¡corpus ¡ 2 ¡

  3. Outline ¡ • Introduc:on ¡ • Methods ¡and ¡Approaches ¡ – Ad-­‑hoc ¡Retrieval ¡Model ¡(Ad-­‑hoc) ¡ – Query ¡Change ¡Retrieval ¡Model ¡(QCM) ¡ – Weighted ¡QCM ¡ – User-­‑Click ¡Model ¡ – Clustering ¡ – Session ¡Performance ¡Predic:on ¡and ¡Replacement ¡ • Submissions ¡ • Evalua:on ¡Result ¡ • Conclusion ¡ 3 ¡

  4. Ad-­‑hoc ¡Retrieval ¡Model ¡(Ad-­‑hoc) ¡ • Mul:nomial ¡ Language ¡ Modeling ¡ + ¡ Dirichlet ¡ Smoothing. ¡ • Term ¡weight ¡P(t|d) ¡as: ¡ ¡ ¡ ¡ • μ ¡is ¡the ¡Dirichlet ¡smoothing ¡parameter, ¡and ¡is ¡ set ¡= ¡5000. ¡ 4 ¡

  5. Query ¡Change ¡Retrieve ¡Model ¡(QCM) ¡ • Idea : ¡Query ¡Change ¡is ¡an ¡important ¡form ¡of ¡user ¡feedback ¡ ¡ – Dongyi ¡Guan, ¡Sicong ¡Zhang, ¡and ¡Hui ¡Yang. ¡2013. ¡U:lizing ¡query ¡change ¡ for ¡session ¡search. ¡ ¡(SIGIR ¡'13). ¡ ¡ • Defining ¡query ¡change ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡as ¡the ¡syntac:c ¡edi:ng ¡ q Δ i changes ¡between ¡two ¡adjacent ¡queries: ¡ q q q Δ = − i i i 1 − q q • Added ¡term ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ; ¡ Removed ¡term ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ; ¡ Theme ¡term ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ q + Δ − Δ theme i i ¡ Table ¡1 ¡A ¡example ¡of ¡Query ¡Change ¡ Session ¡ Queries ¡ Query ¡Change ¡ Q theme ¡ ¡ Q 1 ¡= ¡hydropower ¡efficiency ¡ +Δq 2 ¡= ¡environment ¡ hydropower ¡ ¡ ¡ Q 2 ¡= ¡hydropower ¡environment ¡ -­‑Δq 2 ¡= ¡efficiency ¡ session ¡52 ¡ Q 3 ¡= ¡hydropower ¡damage ¡ +Δq 3 ¡= ¡damage ¡ hydropower ¡ ¡ -­‑Δq 3 ¡= ¡environment ¡ 5 ¡

  6. Query ¡Change ¡Retrieve ¡Model ¡(QCM) ¡ Increase ¡weights ¡ • The ¡relevance ¡score ¡between ¡one ¡query ¡q i ¡and ¡a ¡ Increase ¡weights ¡ for ¡novel ¡added ¡ document ¡d ¡is ¡calculated ¡by: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ for ¡theme ¡terms ¡ terms ¡ ¡ Score ( q i , d ) = log P ( q i | d ) + α W Theme − β W Add , In + ε W Add , Out − δ W Re move Current ¡reward/ ¡ Decrease ¡weights ¡ Decrease ¡weights ¡ relevance ¡score ¡ for ¡removed ¡terms ¡ for ¡old ¡added ¡ terms ¡ 6 ¡

  7. Query ¡Change ¡Retrieve ¡Model ¡(QCM) ¡ • The ¡relevance ¡score ¡between ¡one ¡query ¡q i ¡and ¡a ¡ document ¡d ¡is ¡calculated ¡by: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Score ( q i , d ) = log P ( q i | d ) + α W Theme − β W Add , In + ε W Add , Out − δ W Re move ¡ • The ¡QCM ¡model ¡combines ¡all ¡queries ¡in ¡a ¡session ¡with ¡ a ¡discount ¡factor ¡Υ: ¡ ¡ ¡ n ∑ γ n − i Score ( q i , d ) Score qcm ( q 1.. n , d ) = i = 1 7 ¡

  8. Weighted ¡QCM ¡ • Weighted ¡QCM ¡combines ¡queries ¡based ¡on ¡query ¡ quality ¡which ¡is ¡indicated ¡by ¡user ¡click ¡ – Strong ¡SAT-­‑Click ¡a ¡clicked ¡document ¡with ¡dwelled ¡:me ¡>= ¡30 ¡seconds ¡ ¡ – Weak ¡SAT-­‑Click ¡ a ¡clicked ¡document ¡with ¡dwell ¡:me ¡>= ¡10 ¡seconds ¡and< ¡ 30 ¡seconds ¡ ¡ 8 ¡

  9. Weighted ¡QCM ¡ • Weighted ¡QCM ¡combines ¡queries ¡based ¡on ¡query ¡ quality ¡which ¡is ¡indicated ¡by ¡user ¡click ¡ – Strong ¡SAT-­‑Click ¡a ¡clicked ¡document ¡with ¡dwelled ¡:me ¡>= ¡30 ¡seconds ¡ ¡ – Weak ¡SAT-­‑Click ¡ a ¡clicked ¡document ¡with ¡dwell ¡:me ¡>= ¡10 ¡seconds ¡and< ¡ 30 ¡seconds ¡ ¡ !"#$% !"#$ ! ! . . ! , ! = !"#$% ( ! ! , ! ) + ! ! !"#$% ( ! ! , ! ) ! ! ! ∈ ! !""# ! ! ∈ ! !"# The ¡good ¡query ¡set: ¡ The ¡bad ¡query ¡set: ¡ Queries ¡bringing ¡at ¡least ¡ Queries ¡bringing ¡no ¡ one ¡SAT-­‑Click ¡+ ¡the ¡ SAT-­‑Click ¡ current ¡query ¡ 9 ¡

  10. User-­‑Click ¡Model ¡ • We ¡boost ¡a ¡document’s ¡ranking ¡score, ¡if ¡it ¡is ¡SAT-­‑ Clicked ¡by ¡users ¡ ¡ – Session ¡Level ¡User-­‑Click ¡Model ¡for ¡RL2 ¡ score ¡from ¡QCM ¡ boost ¡from ¡Session ¡ model ¡ level ¡User-­‑Click ¡model ¡ Ψ ¡points ¡for ¡a ¡Strong ¡SAT-­‑Click, ¡θ ¡ normaliza1on ¡to ¡(0,1) ¡ points ¡for ¡a ¡Weak ¡SAT-­‑Click, ¡sum ¡up ¡ for ¡the ¡whole ¡session ¡ 10 ¡

  11. User-­‑Click ¡Model ¡ – Topic ¡Level ¡User-­‑Click ¡Model ¡for ¡RL3 ¡ boost ¡from ¡ Topic ¡level ¡ User-­‑Click ¡model ¡ similar ¡to ¡session ¡level ¡User-­‑Click ¡ model, ¡however ¡calcula:on ¡is ¡done ¡ for ¡ the ¡whole ¡session ¡cluster ¡ • A ¡session ¡cluster ¡is ¡a ¡set ¡of ¡sessions ¡that ¡sharing ¡similar ¡search ¡ topics ¡ 11 ¡

  12. Clustering ¡ • Topic ¡ID ¡is ¡not ¡obtainable ¡in ¡real ¡search ¡prac:ce. ¡ ¡ – cluster ¡sessions ¡by ¡comparing ¡queries’ ¡similarity ¡ Ø Convert ¡all ¡queries ¡in ¡one ¡session ¡to ¡a ¡term ¡vector ¡ Ø Assign ¡idf ¡value ¡as ¡weight ¡to ¡each ¡dimension ¡ Ø Cluster ¡sessions ¡based ¡on ¡the ¡Euclidean ¡distance ¡of ¡ these ¡vectors ¡ • We ¡use ¡K-­‑means ¡clustering ¡algorithm ¡and ¡set ¡K ¡= ¡60 ¡ ¡ 12 ¡

  13. Session ¡Performance ¡Predic1on ¡and ¡Replacement ¡ ¡ • For ¡sessions ¡that ¡share ¡similar ¡search ¡topics ¡ – predict ¡their ¡performance ¡ ¡ – replace ¡bad ¡sessions’ ¡results ¡with ¡good ¡sessions’ ¡ • Predict ¡session ¡performance ¡ – Extract ¡several ¡features ¡(n) ¡from ¡the ¡sessions ¡ – Rank ¡sessions ¡by ¡formula: ¡ ¡ 1 !"#$% ! ! = ∗ ! ( ! ! ) ! # ! !" ! !"!!#$%! ! !"#$!%&$'( ! ! ! = TRUE ! ! ! . . ! 13 ¡

  14. Session ¡Performance ¡Predic1on ¡and ¡Replacement ¡ ¡ • Features ¡Table ¡ Table&2&Features&Extracted&for&each&Session& Feature Definition F 1 Search intent is comparison F 2 No user-click in session s ! !"#$$ ≤ 5s. ! !"#$$ ! !" ! ! ℎ ! ! !"# ! !" ! !"#$$ ! time in a session. F 3 # of unique terms in session s ≥ 20. F 4 ( ! ) F 5 ! !"#$$ _ !"# _ !"#!$ ! !"#$$ _ !"# _ !"#!$ < 2 F 6 Session s does not contain the most frequent search term in T ( s ). # of unique terms in session s ≤ 6 F 7 # ! !" ! !"# ! !"#!$% ! !" ! !"!!#$% ! ! ′ F 8 ! ! ∈ ! ( ! ) # ! !" ! !"# ! !"#!$% ! !" ! !"!!#$% ! ! < | ! ( ! ) | ! * ¡T(s) ¡means ¡a ¡session ¡cluster ¡including ¡session ¡s ¡ 14 ¡

  15. Outline ¡ • Introduc:on ¡ • Methods ¡and ¡Approaches ¡ – Ad-­‑hoc ¡Retrieval ¡Model ¡(Ad-­‑hoc) ¡ – Query ¡Change ¡Retrieval ¡Model ¡(QCM) ¡ – Weighted ¡QCM ¡ – User-­‑Click ¡Model ¡ – Clustering ¡ – Session ¡Performance ¡Predic:on ¡and ¡Replacement ¡ • Submissions ¡ • Evalua:on ¡Result ¡ • Conclusion ¡ 15 ¡

Recommend


More recommend