score distribution models
play

Score Distribution Models Evangelos Kanoulas Keshi Dai Virgil - PowerPoint PPT Presentation

Score Distribution Models Evangelos Kanoulas Keshi Dai Virgil Pavlu Javed Aslam Score Distributions 2 Score Distributions 2 Score Distributions 9.6592 9.5761 9.4919


  1. Score Distribution Models Evangelos Kanoulas Keshi Dai Virgil Pavlu Javed Aslam

  2. Score Distributions 2

  3. Score Distributions 2

  4. Score Distributions 9.6592 ¡ ¡ ¡ ¡ 9.5761 ¡ ¡ ¡ ¡ 9.4919 ¡ ¡ ¡ ¡ 9.4784 ¡ ¡ ¡ ¡ 9.2693 ¡ ¡ ¡ ¡ 9.2066 ¡ ¡ ¡ ¡ 9.1407 ¡ ¡ ¡ ¡ 9.0824 ¡ ¡ ¡ ¡ 9.0110 ¡ ¡ ¡ ¡ 9.0084 ¡ ¡ ¡ ¡ 8.9826 ¡ ¡ ¡ ¡ 8.9351 2

  5. Score Distributions 9.6592 ¡ ¡ ¡ ¡ 9.5761 ¡ ¡ ¡ ¡ 9.4919 ¡ ¡ ¡ ¡ 9.4784 ¡ ¡ ¡ ¡ 9.2693 ¡ ¡ ¡ ¡ 9.2066 ¡ ¡ ¡ ¡ 9.1407 ¡ ¡ ¡ ¡ 9.0824 ¡ ¡ ¡ ¡ 9.0110 ¡ ¡ ¡ ¡ 9.0084 ¡ ¡ ¡ ¡ 8.9826 ¡ ¡ ¡ ¡ 8.9351 2

  6. Score Distributions ✓ 9.6592 ¡ ¡ ¡ ¡ ✓ 9.5761 ¡ ¡ ¡ ¡ ✗ 9.4919 ¡ ¡ ¡ ¡ ✗ 9.4784 ¡ ¡ ¡ ¡ 9.2693 ¡ ¡ ¡ ¡ ✗ 9.2066 ¡ ¡ ¡ ¡ ✓ 9.1407 ¡ ¡ ¡ ¡ ✗ 9.0824 ¡ ¡ ¡ ¡ ✓ 9.0110 ¡ ¡ ¡ ¡ ✗ 9.0084 ¡ ¡ ¡ ¡ ✗ 8.9826 ¡ ¡ ¡ ¡ ✗ 8.9351 ✓ 3

  7. Score Distributions • Applications : norm. for multiple sources – Information Filtering (e.g. news retrieval) – Recall-oriented IR (e.g. legal, patent IR) – Distributed IR (multiple data collections) – Diversity/Faceted IR (news, images, video, web pages, feeds) – Meta-search • To be useful, Score Distributions models must be reasonably accurate 4

  8. Modeling Score Distributions • Modeling score distributions key to inference • EM to fit the model into the data • Dozens of models in the literature – Negative Exponential (nonrel) & Gaussian (rel) – Gamma & Gaussian – 2 Poisson – 2 Gaussian – … 5

  9. Motivation • What is wrong with Neg. Exponential & Gaussian? – It simply does not fit the data – Undesirable IR properties 6

  10. Motivation • What is wrong with Neg. Exponential & Gaussian? – It simply does not fit the data – Undesirable IR properties 6

  11. Our work (some previous) 7

  12. Our work (some previous) • New model – Theoretical basis – Fits the data better • Focus on getting it right rather than making it simple 7

  13. Overview • Many related problems – hardest: on modeling [TREC] relevant documents • This talk: three of these problems – Theory – BM25 and LM – Relevant docs score distribution via PR curves 8

  14. 1 DL/TF variable: A case for Gamma- mixture-based distribution model 9

  15. Why DL/TF • BM25 • LM 10

  16. Quality classes and term frequency

  17. Quality classes and term frequency • Quality class = set of documents for which query terms are consistently “generated” by a Poisson process – can model aspects/facets, doc types,etc

  18. Quality classes and term frequency • Quality class = set of documents for which query terms are consistently “generated” by a Poisson process – can model aspects/facets, doc types,etc • Distance between terms occurrences =waiting time between Poisson events

  19. Quality classes and term frequency • Quality class = set of documents for which query terms are consistently “generated” by a Poisson process – can model aspects/facets, doc types,etc • Distance between terms occurrences =waiting time between Poisson events 1 2 3 4 !me

  20. Quality classes and term frequency • Quality class = set of documents for which query terms are consistently “generated” by a Poisson process – can model aspects/facets, doc types,etc • Distance between terms occurrences =waiting time between Poisson events 1 2 3 4 !me waiting times(exp distrib) average waiting time

  21. DL/TF variable • θ = average waiting time between terms – depends on class quality Q and query generality (hardness) g, collection size etc • ADL = average document length • For each class, model the DL/TF variable separately for each TF value k – DL = sum of waiting times 12

  22. Mixture over TF values k= 1 2 3 4... 13

  23. Mixture over TF values • P Q []=geometric mixture over TF values (k) with rate 1-p – example: relevant class p=0.1 – nonrelevant class p=0.7 k= 1 2 3 4... – avg TF = mean(P Q ) = 1/p 13

  24. Mixture over TF values • P Q []=geometric mixture over TF values (k) with rate 1-p – example: relevant class p=0.1 – nonrelevant class p=0.7 k= 1 2 3 4... – avg TF = mean(P Q ) = 1/p • Model DL/TF as a mixture of gammas 13

  25. DL/TF per quality class 14

  26. DL/TF per quality class • For a geometric P[], the mixture is actually a single gamma 14

  27. DL/TF per quality class • For a geometric P[], the mixture is actually a single gamma • Multiple query terms : requires a proportionality – usually not achievable in practice – but approx by a gamma with higher “shape” 14

  28. Gamma mixture for DL/TF • mixture 0.03 Empirical Histogram MLE Gamma Fit 0.025 • approximate 0.02 with a single 0.015 gamma 0.01 0.005 0 0 100 200 300 400 500 600 700 800 900 1000 DL/TF 15

  29. Score Transformations • r=non-decreasing differentiable function • f(X) = distribution modeled – Many basic transformations preserve gamma-like distribution shape – 16

  30. Score Transform: Inversion 17

  31. Score Transform: Inversion 17

  32. Score Transformations 5 k1=1 • Saturators r Robertson’s TF 4 k1=3 k1=5 3 (RobertsonTF) 2 can make the 1 distribution 0 0 2 4 6 8 10 12 14 16 18 20 TF more “hill”- 0.035 like k1=1 0.03 k1=3 0.025 Frequency k1=5 0.02 0.015 0.01 0.005 0 0 1 2 3 4 5 6 18 BM25 Scores

  33. 2 Popular retrieval functions: BM25 and LM 19

  34. Three fits • Theory models – Mixture of gammas inverted, score transformations • Data-driven approach – maximum likelihood gamma fit • Analytical approach – Traditional ranking functions: TF-IDF, BM25, LM – Make basic assumptions of low level components – Derive score distribution 20

  35. Analytical Approach:BM25 ¡ ¡ Ireland ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Peace ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Talks BM25 21

  36. Analytical Approach:BM25 ¡ ¡ Ireland ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Peace ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Talks BM25 21

  37. BM25 • X=DL/TF 22

  38. BM25 • X=DL/TF 22

  39. BM25 0.045 BM25 score histogram Analytically Numerical 0.04 MLE Gamma fit Model (theory) 0.035 0.03 Frequency 0.025 0.02 0.015 0.01 0.005 0 0 1 2 3 4 5 6 23 BM25 score

  40. Analytical Approach:LM ¡ ¡ Ireland ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Peace ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Talks ireland, 6.155, 7698 docs peac, 3.876, 35454 docs talk, 2.777, 70795 docs TF 4 TF 4 TF 2 x 10 6 x 10 6000 4000 4 1 2000 2 0 0 0 0 5 10 15 20 25 30 0 5 10 15 20 25 30 0 5 10 15 20 25 30 Normalized TF Normalized TF Normalized TF 1000 4000 15000 10000 500 2000 5000 0 0 0 0 0.02 0.04 0.06 0.08 0.1 0 0.02 0.04 0.06 0.08 0.1 0 0.02 0.04 0.06 0.08 0.1 log(Normalized TF) log(Normalized TF) log(Normalized TF) 300 2000 3000 200 2000 1000 100 1000 0 0 0 � 14 � 12 � 10 � 8 � 6 � 4 � 2 � 14 � 12 � 10 � 8 � 6 � 4 � 2 � 12 � 10 � 8 � 6 � 4 � 2 log(Normalized TF + CTF/TN) log(Normalized TF + CTF/TN) log(Normalized TF + CTF/TN) 300 1000 2000 200 500 1000 100 0 0 0 � 10 � 8 � 6 � 4 � 2 � 8 � 7 � 6 � 5 � 4 � 3 � 2 � 8 � 7 � 6 � 5 � 4 � 3 � 2 log(lambda*Normalized TF + (1 � lambda)*CTF/TN) log(lambda*Normalized TF + (1 � lambda)*CTF/TN) log(lambda*Normalized TF + (1 � lambda)*CTF/TN) 200 1000 3000 2000 100 500 1000 0 0 0 � 10 � 8 � 6 � 4 � 2 � 8 � 7 � 6 � 5 � 4 � 3 � 8 � 7 � 6 � 5 � 4 � 3 BM25 Scores 4000 Language ¡Model 2000 24 0 � 24 � 22 � 20 � 18 � 16 � 14 � 12

  41. LM(Jelinek-Mercer smooth) 0.09 BM25 score histogram Analytically Numerical 0.08 MLE Gamma fit Model (theory) 0.07 0.06 Frequency 0.05 0.04 0.03 0.02 0.01 25 0 − 7 − 6 − 5 − 4 − 3 − 2 − 1 LM (Jelinek − Mercer smoothing) score

  42. 3 Inferring Relevant distribution using a Precision-Recall model 26

  43. Precision-Recall curves 27

  44. Precision-Recall curves • Model Precision − recall curves for various values of rp 1 0.9 0.8 0.7 0.6 precision 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 27 recall

  45. Score Distrib for Relevant Docs • Previous work • Input : – Score distribution of relevant documents – Score distribution of non-relevant documents • Output : – PR-curve model

Recommend


More recommend