Leveraging ¡Temporal ¡Dynamics ¡of ¡ Document ¡Content ¡in ¡ ¡ Relevance ¡Ranking ¡ Jonathan ¡L. ¡Elsas ¡(CMU) ¡ Susan ¡T. ¡Dumais ¡(MSR) ¡
Outline ¡ • Document ¡Dynamics ¡on ¡the ¡Web ¡ – Previous ¡Work ¡on ¡Change ¡& ¡What’s ¡Missing ¡ • Our ¡SeHng: ¡Ranking ¡Dynamic ¡Documents ¡ – Test ¡CollecJon ¡& ¡Measuring ¡change ¡ • Two ¡ways ¡to ¡leverage ¡change ¡in ¡ranking ¡ – Document ¡Prior ¡based ¡on ¡Gross ¡Change ¡Measures ¡ – Document ¡RepresentaJon ¡based ¡on ¡Term-‑Level ¡ Change ¡ • Discussion ¡
The ¡Web ¡is ¡Dynamic ¡
The ¡Web ¡is ¡Dynamic ¡ 2007 ¡ 10 ¡Years ¡ 1998 ¡
The ¡Web ¡is ¡Dynamic ¡ 1996 ¡ 2010 ¡ 14 ¡Years ¡
The ¡Web ¡is ¡Dynamic ¡ 10 ¡Minutes ¡
Previous ¡Work ¡on ¡Dynamics ¡ Characterizing ¡Change ¡ ImplicaJons ¡of ¡Change ¡
Characterizing ¡Change ¡ Change ¡& ¡Page ¡ Type ¡/ ¡Source ¡ Fe_erly ¡et ¡al, ¡WWW03 ¡ New ¡Content ¡& ¡ Links ¡ Ntoulas ¡et ¡al, ¡ ¡WWW04 ¡ Within-‑Doc. ¡ Change ¡ Adar ¡et ¡al, ¡WSDM ¡2009 ¡
ImplicaJons ¡of ¡Change ¡ On ¡Browsing ¡ Adar, ¡et ¡al ¡UIST’08 ¡ On ¡Indexing ¡ Berberich, ¡et ¡al ¡SIGIR’07 ¡ On ¡Crawling ¡ ¡ Olston ¡& ¡Pandey, ¡ WWW08 ¡
ImplicaJons ¡of ¡Change ¡ On ¡Ranking? ¡
ImplicaJons ¡of ¡Change ¡on ¡Ranking ¡ • Gross ¡Measures ¡of ¡Document ¡Change ¡ Are ¡there ¡general ¡characterisJcs ¡of ¡document ¡ dynamics ¡indicate ¡high ¡quality ¡pages? ¡ • RepresenJng ¡Term-‑Level ¡Change ¡Within ¡the ¡ Document ¡ Are ¡there ¡characterisJcs ¡of ¡a ¡document’s ¡dynamic ¡ content ¡that ¡indicate ¡some ¡content ¡may ¡be ¡more ¡ important? ¡
Test ¡Setup: ¡Queries ¡& ¡Documents ¡ • 18K ¡Queries, ¡2.5M ¡Judged ¡Documents ¡ – 5-‑level ¡relevance ¡judgment ¡(Bad…Perfect) ¡ • 2.5M ¡Documents ¡crawled ¡weekly ¡for ¡10 ¡weeks ¡ • NavigaJonal ¡queries ¡ – 2k ¡queries ¡idenJfied ¡with ¡a ¡“Perfect” ¡judgment ¡ • 60/40 ¡Training/Test ¡split ¡
Test ¡Setup: ¡Queries ¡& ¡Documents ¡ • 18K ¡Queries, ¡2.5M ¡Judged ¡Documents ¡ – 5-‑level ¡relevance ¡judgment ¡(Bad…Perfect) ¡ We ¡focus ¡on ¡NavigaJonal ¡Queries ¡ here ¡for ¡ease ¡of ¡evaluaJon. ¡ • 2.5M ¡Documents ¡crawled ¡weekly ¡for ¡10 ¡weeks ¡ • NavigaJonal ¡queries ¡ – 2k ¡queries ¡idenJfied ¡with ¡a ¡“Perfect” ¡judgment ¡ • 60/40 ¡Training/Test ¡split ¡
Measuring ¡Change: ¡Shingleprints ¡ D(J) ¡ D(J+1) ¡ #be9e ¡ #be9e ¡ #aaef ¡ #81d3 ¡ #a559 ¡ #a559 ¡ #18ef ¡ #18ef ¡ #744e ¡ #fa6e ¡ #b256 ¡ #b256 ¡ Sh(D(J)) ¡ Sh(D(J+1)) ¡ Broder, ¡et ¡al, ¡“SyntacJc ¡Clustering ¡of ¡the ¡Web” ¡ Computer ¡Networks ¡& ¡ISDN ¡Sys., ¡1997 ¡
Change ¡& ¡ Relevance ¡ 60% Documents Changed 40 20 0 0 0 1 1 2 2 3 3 4 4 Relevance Level
Change ¡& ¡ Relevance ¡ 62.9% ¡ 60% Documents Changed Ave: ¡ 37.3% ¡ 40 20 0 0 0 1 1 2 2 3 3 4 4 Relevance Level
Change ¡Amount ¡& ¡ Relevance ¡ 0.24 Average ShDiff ( D ) 0.16 0.08 0 0 0 1 1 2 2 3 3 4 4 Relevance Level
Change ¡& ¡ Relevance ¡ • More ¡relevance ¡documents ¡tend ¡to ¡change ¡ more ¡open, ¡ and ¡ to ¡a ¡greater ¡degree ¡than ¡non-‑ relevant ¡documents. ¡ • Could ¡favoring ¡dynamic ¡documents ¡in ¡ranking ¡ improve ¡performance? ¡
Favoring ¡Dynamic ¡Documents ¡ Language-‑Modeling ¡Ranking ¡FuncJon: ¡
Favoring ¡Dynamic ¡Documents ¡ Language-‑Modeling ¡Ranking ¡FuncJon: ¡ Uniform ¡Prior: ¡ “StaJc ¡Model” ¡
Favoring ¡Dynamic ¡Documents ¡ Language-‑Modeling ¡Ranking ¡FuncJon: ¡ Uniform ¡Prior: ¡ “Change” ¡Prior: ¡
Favoring ¡Dynamic ¡Documents ¡ ● ● Change ¡Prior ¡ 10 % Gain/Loss in NDCG ● 5 ● Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff
Favoring ¡Dynamic ¡Documents ¡ ● ● Change ¡Prior ¡ 10 % Gain/Loss in NDCG ● 5 Big ¡ ¡improvement ¡at ¡higher ¡ranks, ¡but ¡ ● possible ¡over-‑fiHng ¡at ¡rank ¡1 ¡ Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff
Change ¡Within ¡the ¡Document ¡ Are ¡there ¡characterisJcs ¡of ¡a ¡document’s ¡ dynamic ¡content ¡that ¡indicate ¡some ¡content ¡ may ¡be ¡more ¡important? ¡
Change ¡Within ¡the ¡Document ¡ Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡ Time ¡ Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡
Change ¡Within ¡the ¡Document ¡ Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡ Time ¡ Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡
Change ¡Within ¡the ¡Document ¡ Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡ Time ¡ Adar, ¡Teevan, ¡Dumais ¡& ¡Elsas, ¡“The ¡Web ¡Changes ¡Everything: ¡ Understanding ¡the ¡Dynamics ¡of ¡Web ¡Content” ¡WSDM ¡2009 ¡
Change ¡Within ¡the ¡Document ¡ Merrymaking ¡ Latkes ¡ Short-‑Lived ¡Vocabulary ¡ Frighrully ¡ Cooks ¡ Long-‑Lived ¡Vocabulary ¡ Dinner ¡ Recipes ¡ Sep. ¡ ¡ ¡ ¡ ¡ ¡ ¡Oct. ¡ ¡ ¡ ¡ ¡ ¡ ¡Nov. ¡ ¡ ¡ ¡ ¡ ¡ ¡Dec. ¡ Time ¡
Leveraging ¡Change ¡Within ¡the ¡ Document ¡ IdenJfying ¡transient ¡& ¡permanent ¡vocabulary: ¡ • Short-‑lived : ¡come ¡& ¡go ¡quickly ¡ ¡ ¡ ¡in ¡fewer ¡than ¡50% ¡of ¡the ¡document’s ¡slices ¡ • Medium-‑lived : ¡ ¡ ¡ ¡ ¡in ¡50-‑90% ¡of ¡the ¡document's ¡slices ¡ • Long-‑lived : ¡tend ¡to ¡sJck ¡for ¡a ¡long ¡Jme ¡ ¡ ¡ ¡in ¡> ¡90% ¡of ¡the ¡document’s ¡slices ¡
Leveraging ¡Change ¡Within ¡the ¡ Document ¡ Model ¡relevance ¡as ¡a ¡ mixture ¡of ¡LONG-‑ ¡ MEDIUM-‑ ¡and ¡SHORT-‑lived ¡vocabulary: ¡ “Dynamic ¡Model” ¡
Leveraging ¡Change ¡Within ¡the ¡ Document ¡ Model ¡relevance ¡as ¡a ¡ mixture ¡of ¡LONG-‑ ¡ MEDIUM-‑ ¡and ¡SHORT-‑lived ¡vocabulary: ¡ DifferenJally ¡weight ¡ long-‑lived ¡and ¡short-‑ lived ¡vocabulary. ¡ “Dynamic ¡Model” ¡
Leveraging ¡Change ¡Within ¡the ¡ Document ¡ ● ● Change ¡Prior ¡ 10 % Gain/Loss in NDCG ● Dynamic ¡Model ¡ 5 ● Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff
Leveraging ¡Change ¡Within ¡the ¡ Document ¡ ● ● Consistent ¡& ¡significant ¡improvement ¡ Change ¡Prior ¡ at ¡all ¡rank ¡cutoffs. ¡ 10 % Gain/Loss in NDCG ● Dynamic ¡Model ¡ 5 ● Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff
Change ¡& ¡Relevance ¡Ranking ¡ • Presented ¡two ¡methods ¡for ¡leveraging ¡ changing ¡content ¡in ¡relevance ¡ranking: ¡ – Query-‑Independent ¡Change ¡Prior, ¡ favoring ¡ dynamic ¡documents ¡irrespecJve ¡of ¡query ¡ – Dynamic ¡Document ¡Representa@on , ¡differenJally ¡ weighJng ¡long-‑term ¡and ¡short-‑term ¡vocabulary ¡ • Combined ¡Model: ¡Best ¡of ¡both ¡worlds? ¡
Combined ¡Model ¡ Dynamic ¡Model ¡+ ¡Change ¡Prior ¡ 15 ● ● Change ¡Prior ¡ % Gain/Loss in NDCG 10 ● Dynamic ¡Model ¡ 5 ● Baseline ¡StaJc ¡Model ¡ 0 − 5 ● 1 2 3 5 10 NDCG cutoff
Recommend
More recommend