leveraging temporal dynamics of document content in
play

Leveraging Temporal Dynamics of Document Content in - PowerPoint PPT Presentation

Leveraging Temporal Dynamics of Document Content in Relevance Ranking Jonathan L. Elsas (CMU) Susan T. Dumais (MSR) Outline Document Dynamics on


  1. Leveraging ¡Temporal ¡Dynamics ¡of ¡ Document ¡Content ¡in ¡ ¡ Relevance ¡Ranking ¡ Jonathan ¡L. ¡Elsas ¡(CMU) ¡ Susan ¡T. ¡Dumais ¡(MSR) ¡

  2. Outline ¡ • Document ¡Dynamics ¡on ¡the ¡Web ¡ – Previous ¡Work ¡on ¡Change ¡& ¡What’s ¡Missing ¡ • Our ¡SeHng: ¡Ranking ¡Dynamic ¡Documents ¡ – Test ¡CollecJon ¡& ¡Measuring ¡change ¡ • Two ¡ways ¡to ¡leverage ¡change ¡in ¡ranking ¡ – Document ¡Prior ¡based ¡on ¡Gross ¡Change ¡Measures ¡ – Document ¡RepresentaJon ¡based ¡on ¡Term-­‑Level ¡ Change ¡ • Discussion ¡

  3. The ¡Web ¡is ¡Dynamic ¡

  4. The ¡Web ¡is ¡Dynamic ¡ 2007 ¡ 10 ¡Years ¡ 1998 ¡

  5. The ¡Web ¡is ¡Dynamic ¡ 1996 ¡ 2010 ¡ 14 ¡Years ¡

  6. The ¡Web ¡is ¡Dynamic ¡ 10 ¡Minutes ¡

  7. Previous ¡Work ¡on ¡Dynamics ¡ Characterizing ¡Change ¡ ImplicaJons ¡of ¡Change ¡

  8. Characterizing ¡Change ¡ Change ¡& ¡Page ¡ Type ¡/ ¡Source ¡ Fe_erly ¡et ¡al, ¡WWW03 ¡ New ¡Content ¡& ¡ Links ¡ Ntoulas ¡et ¡al, ¡ ¡WWW04 ¡ Within-­‑Doc. ¡ Change ¡ Adar ¡et ¡al, ¡WSDM ¡2009 ¡

  9. ImplicaJons ¡of ¡Change ¡ On ¡Browsing ¡ Adar, ¡et ¡al ¡UIST’08 ¡ On ¡Indexing ¡ Berberich, ¡et ¡al ¡SIGIR’07 ¡ On ¡Crawling ¡ ¡ Olston ¡& ¡Pandey, ¡ WWW08 ¡

  10. ImplicaJons ¡of ¡Change ¡ On ¡Ranking? ¡

  11. ImplicaJons ¡of ¡Change ¡on ¡Ranking ¡ • Gross ¡Measures ¡of ¡Document ¡Change ¡ Are ¡there ¡general ¡characterisJcs ¡of ¡document ¡ dynamics ¡indicate ¡high ¡quality ¡pages? ¡ • RepresenJng ¡Term-­‑Level ¡Change ¡Within ¡the ¡ Document ¡ Are ¡there ¡characterisJcs ¡of ¡a ¡document’s ¡dynamic ¡ content ¡that ¡indicate ¡some ¡content ¡may ¡be ¡more ¡ important? ¡

  12. Test ¡Setup: ¡Queries ¡& ¡Documents ¡ • 18K ¡Queries, ¡2.5M ¡Judged ¡Documents ¡ – 5-­‑level ¡relevance ¡judgment ¡(Bad…Perfect) ¡ • 2.5M ¡Documents ¡crawled ¡weekly ¡for ¡10 ¡weeks ¡ • NavigaJonal ¡queries ¡ – 2k ¡queries ¡idenJfied ¡with ¡a ¡“Perfect” ¡judgment ¡ • 60/40 ¡Training/Test ¡split ¡

  13. Test ¡Setup: ¡Queries ¡& ¡Documents ¡ • 18K ¡Queries, ¡2.5M ¡Judged ¡Documents ¡ – 5-­‑level ¡relevance ¡judgment ¡(Bad…Perfect) ¡ We ¡focus ¡on ¡NavigaJonal ¡Queries ¡ here ¡for ¡ease ¡of ¡evaluaJon. ¡ • 2.5M ¡Documents ¡crawled ¡weekly ¡for ¡10 ¡weeks ¡ • NavigaJonal ¡queries ¡ – 2k ¡queries ¡idenJfied ¡with ¡a ¡“Perfect” ¡judgment ¡ • 60/40 ¡Training/Test ¡split ¡

  14. Measuring ¡Change: ¡Shingleprints ¡ D(J) ¡ D(J+1) ¡ #be9e ¡ #be9e ¡ #aaef ¡ #81d3 ¡ #a559 ¡ #a559 ¡ #18ef ¡ #18ef ¡ #744e ¡ #fa6e ¡ #b256 ¡ #b256 ¡ Sh(D(J)) ¡ Sh(D(J+1)) ¡ Broder, ¡et ¡al, ¡“SyntacJc ¡Clustering ¡of ¡the ¡Web” ¡ Computer ¡Networks ¡& ¡ISDN ¡Sys., ¡1997 ¡

  15. Change ¡& ¡ Relevance ¡ 60% Documents Changed 40 20 0 0 0 1 1 2 2 3 3 4 4 Relevance Level

  16. Change ¡& ¡ Relevance ¡ 62.9% ¡ 60% Documents Changed Ave: ¡ 37.3% ¡ 40 20 0 0 0 1 1 2 2 3 3 4 4 Relevance Level

  17. Change ¡Amount ¡& ¡ Relevance ¡ 0.24 Average ShDiff ( D ) 0.16 0.08 0 0 0 1 1 2 2 3 3 4 4 Relevance Level

  18. Change ¡& ¡ Relevance ¡ • More ¡relevance ¡documents ¡tend ¡to ¡change ¡ more ¡open, ¡ and ¡ to ¡a ¡greater ¡degree ¡than ¡non-­‑ relevant ¡documents. ¡ • Could ¡favoring ¡dynamic ¡documents ¡in ¡ranking ¡ improve ¡performance? ¡

  19. Favoring ¡Dynamic ¡Documents ¡ Language-­‑Modeling ¡Ranking ¡FuncJon: ¡

  20. Favoring ¡Dynamic ¡Documents ¡ Language-­‑Modeling ¡Ranking ¡FuncJon: ¡ Uniform ¡Prior: ¡ “StaJc ¡Model” ¡

  21. Favoring ¡Dynamic ¡Documents ¡ Language-­‑Modeling ¡Ranking ¡FuncJon: ¡ Uniform ¡Prior: ¡ “Change” ¡Prior: ¡

  22. Favoring ¡Dynamic ¡Documents ¡ ● ● Change ¡Prior ¡ 10 % Gain/Loss in NDCG ● 5 ● Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff

  23. Favoring ¡Dynamic ¡Documents ¡ ● ● Change ¡Prior ¡ 10 % Gain/Loss in NDCG ● 5 Big ¡ ¡improvement ¡at ¡higher ¡ranks, ¡but ¡ ● possible ¡over-­‑fiHng ¡at ¡rank ¡1 ¡ Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff

  24. Change ¡Within ¡the ¡Document ¡ Are ¡there ¡characterisJcs ¡of ¡a ¡document’s ¡ dynamic ¡content ¡that ¡indicate ¡some ¡content ¡ may ¡be ¡more ¡important? ¡

  25. Change ¡Within ¡the ¡Document ¡ Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡ Time ¡ Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡

  26. Change ¡Within ¡the ¡Document ¡ Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡ Time ¡ Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡

  27. Change ¡Within ¡the ¡Document ¡ Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡ Time ¡ Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡

  28. Change ¡Within ¡the ¡Document ¡ Merrymaking ¡ Latkes ¡ Short-­‑Lived ¡Vocabulary ¡ Frighrully ¡ Cooks ¡ Long-­‑Lived ¡Vocabulary ¡ Dinner ¡ Recipes ¡ Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡ Time ¡

  29. Leveraging ¡Change ¡Within ¡the ¡ Document ¡ IdenJfying ¡transient ¡& ¡permanent ¡vocabulary: ¡ • Short-­‑lived : ¡come ¡& ¡go ¡quickly ¡ ¡ ¡ ¡in ¡fewer ¡than ¡50% ¡of ¡the ¡document’s ¡slices ¡ • Medium-­‑lived : ¡ ¡ ¡ ¡ ¡in ¡50-­‑90% ¡of ¡the ¡document's ¡slices ¡ • Long-­‑lived : ¡tend ¡to ¡sJck ¡for ¡a ¡long ¡Jme ¡ ¡ ¡ ¡in ¡> ¡90% ¡of ¡the ¡document’s ¡slices ¡

  30. Leveraging ¡Change ¡Within ¡the ¡ Document ¡ Model ¡relevance ¡as ¡a ¡ mixture ¡of ¡LONG-­‑ ¡ MEDIUM-­‑ ¡and ¡SHORT-­‑lived ¡vocabulary: ¡ “Dynamic ¡Model” ¡

  31. Leveraging ¡Change ¡Within ¡the ¡ Document ¡ Model ¡relevance ¡as ¡a ¡ mixture ¡of ¡LONG-­‑ ¡ MEDIUM-­‑ ¡and ¡SHORT-­‑lived ¡vocabulary: ¡ DifferenJally ¡weight ¡ long-­‑lived ¡and ¡short-­‑ lived ¡vocabulary. ¡ “Dynamic ¡Model” ¡

  32. Leveraging ¡Change ¡Within ¡the ¡ Document ¡ ● ● Change ¡Prior ¡ 10 % Gain/Loss in NDCG ● Dynamic ¡Model ¡ 5 ● Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff

  33. Leveraging ¡Change ¡Within ¡the ¡ Document ¡ ● ● Consistent ¡& ¡significant ¡improvement ¡ Change ¡Prior ¡ at ¡all ¡rank ¡cutoffs. ¡ 10 % Gain/Loss in NDCG ● Dynamic ¡Model ¡ 5 ● Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff

  34. Change ¡& ¡Relevance ¡Ranking ¡ • Presented ¡two ¡methods ¡for ¡leveraging ¡ changing ¡content ¡in ¡relevance ¡ranking: ¡ – Query-­‑Independent ¡Change ¡Prior, ¡ favoring ¡ dynamic ¡documents ¡irrespecJve ¡of ¡query ¡ – Dynamic ¡Document ¡Representa@on , ¡differenJally ¡ weighJng ¡long-­‑term ¡and ¡short-­‑term ¡vocabulary ¡ • Combined ¡Model: ¡Best ¡of ¡both ¡worlds? ¡

  35. Combined ¡Model ¡ Dynamic ¡Model ¡+ ¡Change ¡Prior ¡ 15 ● ● Change ¡Prior ¡ % Gain/Loss in NDCG 10 ● Dynamic ¡Model ¡ 5 ● Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff

Recommend


More recommend