Bootstrap ¡Test ¡ Query ¡ A ¡ B ¡ B-‑A ¡ s1 ¡ s2 ¡ s3 ¡ 1 ¡ .25 ¡ .35 ¡ +.10 ¡ -‑.24 ¡ +.25 ¡ -‑.24 ¡ 2 ¡ .43 ¡ .84 ¡ +.41 ¡ +.41 ¡ +.10 ¡ +.60 ¡ 3 ¡ .39 ¡ .15 ¡ -‑.24 ¡ -‑.02 ¡ +.25 ¡ -‑.70 ¡ 4 ¡ .75 ¡ .75 ¡ 0 ¡ 0 ¡ +.60 ¡ +.25 ¡ 5 ¡ .43 ¡ .68 ¡ +.25 ¡ +.25 ¡ +.70 ¡ +.70 ¡ 6 ¡ .15 ¡ .85 ¡ +.70 ¡ +.10 ¡ -‑.02 ¡ +.41 ¡ 7 ¡ .20 ¡ .80 ¡ +.60 ¡ +.25 ¡ +.10 ¡ -‑.02 ¡ 8 ¡ .52 ¡ .50 ¡ -‑.02 ¡ +.10 ¡ +.25 ¡ -‑.24 ¡ 9 ¡ .49 ¡ .58 ¡ +.09 ¡ +.25 ¡ 0 ¡ +.70 ¡ 10 ¡ .50 ¡ .75 ¡ +.25 ¡ +.10 ¡ -‑.02 ¡ +.25 ¡ 22 ¡
Bootstrap ¡Distribu$on ¡ p − value = 0.005 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 23 ¡ mean
Comparing ¡TREC-‑7 ¡Submissions ¡ • Let’s ¡compare ¡the ¡three ¡submissions ¡from ¡ UMass ¡Amherst ¡ – All ¡three ¡used ¡the ¡InQuery ¡retrieval ¡engine ¡ – Named ¡INQ501, ¡INQ502, ¡INQ503 ¡ – We’ll ¡use ¡all ¡5 ¡tests ¡discussed ¡so ¡far ¡ • Switching ¡to ¡R ¡window… ¡ 24 ¡
Comparing ¡Tests ¡ • The ¡best ¡way ¡to ¡understand ¡and ¡compare ¡ tests ¡is ¡to ¡generate ¡random ¡data ¡ • Simple ¡procedure: ¡ – Pick ¡a ¡sample ¡size ¡n ¡ – Sample ¡n ¡values ¡from ¡some ¡distribu$on ¡ – Run ¡tests ¡on ¡those ¡n ¡values ¡ ¡ – Repeat ¡ 25 ¡
Empirical ¡Comparisons ¡ 1.0 Wilcoxon signed − rank test p − value 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 sign test p − value 26 ¡
Empirical ¡Comparisons ¡ 1.0 0.8 t − test p − value 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 sign test p − value 27 ¡
Empirical ¡Comparisons ¡ 1.0 0.8 t − test p − value 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 Wilcoxon signed − rank test p − value 28 ¡
Empirical ¡Comparisons ¡ 1.0 0.8 randomization test p − value 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 t − test p − value 29 ¡
Empirical ¡Comparisons ¡ 1.0 0.8 bootstrap test p − value 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 t − test p − value 30 ¡
ANOVA ¡ • Compare ¡variance ¡due ¡to ¡system ¡to ¡variance ¡ due ¡to ¡topic ¡ Query ¡ A ¡ B ¡ B-‑A ¡ 1 ¡ .25 ¡ .35 ¡ +.10 ¡ 2 = MSE = 0.042 ˆ σ 2 ¡ .43 ¡ .84 ¡ +.41 ¡ 2 = MST = 0.229 3 ¡ .39 ¡ .15 ¡ -‑.24 ¡ ˆ σ S 4 ¡ .75 ¡ .75 ¡ 0 ¡ 5 ¡ .43 ¡ .68 ¡ +.25 ¡ 6 ¡ .15 ¡ .85 ¡ +.70 ¡ F = MST MSE = 5.41 7 ¡ .20 ¡ .80 ¡ +.60 ¡ 8 ¡ .52 ¡ .50 ¡ -‑.02 ¡ 9 ¡ .49 ¡ .58 ¡ +.09 ¡ 10 ¡ .50 ¡ .75 ¡ +.25 ¡ 31 ¡
ANOVA ¡ • ANOVA ¡is ¡a ¡generaliza$on ¡of ¡the ¡t-‑test ¡ • Allows ¡comparison ¡of ¡more ¡than ¡just ¡2 ¡ systems ¡ – And ¡across ¡more ¡factors ¡than ¡just ¡system ¡and ¡ topic ¡ • Let’s ¡use ¡ANOVA ¡to ¡compare ¡all ¡three ¡INQ ¡ systems ¡ 32 ¡
Summary ¡ • These ¡are ¡6 ¡of ¡the ¡most ¡common ¡tests ¡seen ¡in ¡IR ¡experimenta$on ¡ – Many ¡others ¡in ¡the ¡literature: ¡ • Chi-‑squared ¡ • Propor$on ¡test ¡ • ANCOVA/MANOVA/MANCOVA ¡ • All ¡have ¡in ¡common: ¡ – The ¡use ¡of ¡some ¡probability ¡distribu$on, ¡computa$on ¡of ¡a ¡p-‑value ¡ from ¡that ¡distribu$on ¡ • Nonparametric ¡tests: ¡transform ¡data ¡to ¡be ¡modeled ¡with ¡closed ¡distribu$on ¡ • Parametric ¡tests: ¡es$mate ¡distribu$on ¡parameters ¡from ¡the ¡data ¡itself ¡ • Empirical ¡tests: ¡compute ¡a ¡distribu$on ¡from ¡the ¡data ¡itself ¡ • All ¡produce ¡p-‑values ¡that ¡are ¡highly ¡correlated ¡ – Though ¡they ¡do ¡not ¡always ¡agree ¡about ¡which ¡pairs ¡are ¡significant ¡ 33 ¡
Part ¡2 ¡ FUNDAMENTALS ¡OF ¡ ¡ SIGNIFICANCE ¡TESTING ¡ 34 ¡
Tes$ng ¡Paradigms ¡ Ronald ¡Fisher ¡ Egon ¡Pearson ¡ Jerzy ¡Neyman ¡ 35 ¡ Harold ¡Jeffreys ¡
What ¡Are ¡Tests ¡Really ¡Telling ¡Us? ¡ • Formal ¡set-‑up: ¡ H 0 : ¡ ¡μ ¡= ¡0 ¡ ¡ ¡or ¡ ¡ ¡H 0 : ¡ ¡μ ¡≤ ¡0 ¡ H 1 : ¡ ¡μ ¡≠ ¡0 ¡ ¡ ¡ ¡ ¡ ¡H 1 : ¡ ¡μ ¡> ¡0 ¡ • The ¡null ¡hypothesis, ¡along ¡with ¡the ¡null ¡distribu$on, ¡is ¡a ¡ model ¡ – The ¡test ¡summarizes ¡evidence ¡against ¡the ¡truth ¡of ¡the ¡model ¡ • A ¡significance ¡test ¡is ¡a ¡procedure ¡that ¡takes ¡data, ¡a ¡null ¡hypothesis, ¡ and ¡a ¡procedure ¡for ¡compu$ng ¡a ¡null ¡distribu$on ¡ – It ¡outputs ¡a ¡p-‑value ¡ • The ¡p-‑value ¡is ¡the ¡probability ¡that ¡you ¡would ¡have ¡seen ¡the ¡same ¡ result ¡ if ¡H 0 ¡were ¡true ¡ – If ¡that ¡probability ¡is ¡low, ¡we ¡typically ¡“reject” ¡H 0 ¡ 36 ¡
What ¡Are ¡Tests ¡Really ¡Telling ¡Us? ¡ • Fisher: ¡ ¡p-‑value ¡is ¡the ¡likelihood ¡of ¡the ¡data ¡under ¡H 0 ¡ – The ¡p-‑value ¡is ¡a ¡conclusion ¡about ¡this ¡par$cular ¡experiment ¡ only ¡ – Nothing ¡more, ¡nothing ¡less ¡ • Neyman-‑Pearson: ¡ ¡p ¡< ¡0.05 ¡means ¡we ¡can ¡reject ¡H 0 ¡as ¡ being ¡unlikely ¡to ¡be ¡true ¡ – p-‑values ¡lead ¡to ¡inference ¡about ¡the ¡popula$on ¡ – The ¡p-‑value ¡itself ¡is ¡not ¡interes$ng; ¡the ¡inference ¡is ¡ – Note ¡that ¡we ¡do ¡ not ¡accept ¡that ¡H 1 ¡is ¡true! ¡ • Jeffreys: ¡ ¡posterior ¡probability ¡of ¡H 0 ¡being ¡true ¡can ¡be ¡ compared ¡to ¡posterior ¡probability ¡of ¡other ¡models ¡ 37 ¡
What ¡Are ¡Tests ¡NOT ¡Telling ¡Us? ¡ • NOT ¡the ¡“probability ¡that ¡the ¡results ¡are ¡due ¡to ¡ chance” ¡ • NOT ¡whether ¡the ¡experiment ¡is ¡reliable ¡ • NOT ¡the ¡probability ¡that ¡H 0 ¡is ¡true ¡or ¡false ¡ • NOT ¡that ¡H 0 ¡is ¡false ¡if ¡the ¡p-‑value ¡is ¡low ¡ • NOT ¡that ¡H 0 ¡is ¡true ¡if ¡the ¡p-‑value ¡is ¡high ¡ 38 ¡
Terms ¡and ¡Defini$ons ¡ “treatments” ¡ “measurements” ¡ “subjects” ¡ 0.3 0.4 0.1 0.5 0.3 A ¡ query 1 query 2 0.2 0.3 0.1 0.2 0.3 B ¡ query 3 query 4 0.4 0.4 0.3 0.1 0.2 C ¡ query 5 0.1 0.5 0.4 0.3 0.1 D ¡ 39 ¡
Terms ¡and ¡Defini$ons ¡ • Single-‑sample ¡vs ¡two-‑sample ¡tests ¡ – A ¡single-‑sample ¡test ¡is ¡for ¡when ¡you ¡apply ¡one ¡or ¡ more ¡“treatments” ¡to ¡a ¡single ¡sample ¡of ¡“subjects” ¡ – In ¡a ¡two-‑sample ¡test, ¡each ¡treatment ¡is ¡applied ¡to ¡a ¡ different ¡sample ¡ • Paired ¡vs ¡unpaired ¡ – Paired ¡tests ¡are ¡a ¡special ¡case ¡of ¡single-‑sample ¡tests: ¡ ¡ subtract ¡evalua$on ¡results ¡for ¡each ¡example ¡to ¡obtain ¡ the ¡measurements ¡to ¡summarize ¡ – Unpaired ¡tests ¡can ¡be ¡single-‑sample ¡too ¡ 40 ¡
Terms ¡and ¡Defini$ons ¡ • One-‑tailed ¡vs ¡two-‑tailed ¡ – All ¡the ¡examples ¡done ¡to ¡this ¡point ¡were ¡one-‑ tailed ¡tests ¡ • Compu$ng ¡the ¡p-‑value ¡from ¡the ¡right ¡(upper) ¡tail ¡of ¡the ¡ test ¡sta$s$c ¡distribu$on ¡ – Two-‑tailed ¡tests ¡compute ¡the ¡p-‑value ¡from ¡both ¡ tails ¡ – Result ¡is ¡generally ¡a ¡higher ¡p-‑value ¡ 41 ¡
Test ¡Sta$s$cs ¡and ¡Distribu$ons ¡ • Test ¡sta$s$c ¡ – A ¡summary ¡of ¡the ¡data, ¡usually ¡designed ¡to ¡have ¡ specific ¡distribu$on ¡guarantees ¡(asympto$cally) ¡ • Parametric ¡vs ¡non-‑parametric ¡ – If ¡the ¡test ¡sta$s$c ¡distribu$on ¡has ¡any ¡free ¡ parameters, ¡the ¡test ¡is ¡said ¡to ¡be ¡“parametric” ¡ • Confidence ¡interval ¡ 42 ¡
Sizes ¡and ¡Values ¡ Sample ¡size ¡ • – The ¡number ¡of ¡subjects/examples ¡in ¡the ¡experiment ¡ – Assumed ¡to ¡be ¡sampled ¡i.i.d. ¡from ¡a ¡much ¡larger ¡popula$on ¡ Effect ¡size ¡ • – A ¡measure ¡of ¡the ¡difference ¡between ¡two ¡“treatments” ¡or ¡algorithms ¡in ¡the ¡ popula$on ¡ – Independent ¡of ¡sample ¡size ¡ – H 0 : ¡ ¡effect ¡size ¡is ¡zero ¡ p-‑value ¡ • – The ¡likelihood ¡of ¡observing ¡the ¡effect ¡in ¡the ¡sample ¡assuming ¡H 0 ¡is ¡true ¡ Cri$cal ¡value ¡ • – The ¡minimum ¡test ¡sta$s$c ¡value ¡necessary ¡to ¡obtain ¡p ¡< ¡α ¡with ¡a ¡given ¡sample ¡ size ¡ – α ¡usually ¡= ¡0.05 ¡ 43 ¡
Variance ¡ • Total ¡variance ¡ – The ¡sum ¡of ¡the ¡square ¡differences ¡between ¡ measurements ¡and ¡the ¡overall ¡mean ¡ • Within-‑group ¡variance ¡ – Variance ¡due ¡to ¡subjects/topics ¡ – Paired ¡tests ¡subtract ¡this ¡variance ¡out ¡ • Between-‑group ¡variance ¡ – Variance ¡due ¡to ¡the ¡treatments/systems ¡ 44 ¡
P-‑value ¡Distribu$ons ¡ • Variance ¡due ¡to ¡subjects ¡and ¡treatments ¡means ¡ varia$on ¡in ¡p-‑values ¡over ¡experiments ¡ – Therefore ¡we ¡can ¡talk ¡about ¡the ¡probability ¡of ¡observing ¡a ¡ certain ¡p-‑value ¡condi$onal ¡on ¡an ¡experiment ¡ • When ¡the ¡null ¡hypothesis ¡is ¡true, ¡the ¡p-‑value ¡has ¡a ¡ uniform ¡distribu$on ¡ – All ¡values ¡equally ¡likely ¡ – P(p ¡< ¡0.05 ¡| ¡H 0 ¡true) ¡= ¡0.05 ¡ • When ¡the ¡null ¡is ¡not ¡true, ¡the ¡p-‑value ¡distribu$on ¡ depends ¡on ¡the ¡popula$on ¡effect ¡size ¡and ¡sample ¡size ¡ 45 ¡
High ¡p-‑value ¡≠ ¡True ¡H 0 ¡ • Suppose ¡we ¡observe ¡μ̂ ¡= ¡0.02, ¡σ̂ ¡= ¡0.16 ¡with ¡n ¡= ¡50 ¡ – This ¡would ¡not ¡be ¡a ¡significant ¡result; ¡p ¡≈ ¡0.2 ¡ – But ¡if ¡popula$on ¡μ ¡= ¡0.02 ¡and ¡popula$on ¡σ ¡= ¡0.16, ¡it ¡is ¡ possible ¡to ¡get ¡a ¡significant ¡result ¡ • P(p ¡< ¡0.05 ¡| ¡μ ¡= ¡0.02, ¡σ ¡= ¡0.16, ¡n ¡= ¡50) ¡≈ ¡0.14 ¡ • What ¡is ¡P(H 0 ¡true ¡| ¡p ¡< ¡0.05)? ¡ H 0 : ¡ ¡μ ¡= ¡0 ¡ H 1 : ¡ ¡μ ¡= ¡0.02 ¡ 46 ¡
High ¡p-‑value ¡≠ ¡True ¡H 0 ¡ P ( p < 0 . 05 | H 0 ) P ( H 0 ) P ( H 0 | p < 0 . 05) = P ( p < 0 . 05 | H 1 ) P ( H 1 ) + P ( p < 0 . 05 | H 0 ) P ( H 0 ) P ( p < 0 . 05 | H 0 ) = 0 . 05 P ( H 0 ) = 0 . 5 P ( H 1 ) = 0 . 5 P ( p < 0 . 05 | H 1 ) = 0 . 14 P ( H 0 | p < 0 . 05) = 0 . 27 47 ¡
Accuracy ¡and ¡Power ¡ Accuracy ¡ • – The ¡probability ¡of ¡geeng ¡p ¡≥ ¡α ¡when ¡H 0 ¡ is ¡actually ¡true ¡ H 0 ¡ à à ¡ – Probability ¡of ¡correctly ¡not ¡rejec$ng ¡H 0 ¡ true ¡ false ¡ test ¡result ¡↓ ¡ – Propor$onal ¡to ¡false ¡posi$ve ¡rate ¡ Type ¡II ¡ ¡ Power ¡ • accuracy ¡ Error ¡ not ¡rejected ¡ – The ¡probability ¡of ¡geeng ¡p ¡< ¡α ¡when ¡the ¡ 1-‑α ¡ β ¡ null ¡hypothesis ¡is ¡actually ¡false ¡ – The ¡probability ¡of ¡correctly ¡rejec$ng ¡H 0 ¡ Type ¡I ¡ – True ¡posi$ve ¡rate ¡ power ¡ rejected ¡ error ¡ 1-‑β ¡ α ¡ Most ¡tests ¡are ¡defined ¡to ¡have ¡a ¡false ¡ • posi$ve ¡rate ¡of ¡α ¡when ¡H 0 ¡is ¡true ¡ – Achieving ¡a ¡certain ¡power ¡level ¡involves ¡ es$ma$ng ¡effect ¡size ¡and ¡sample ¡size ¡ 48 ¡
Sta$s$cal ¡Tes$ng ¡as ¡Classifica$on ¡ • Con$ngency ¡tables? ¡False ¡posi$ves ¡and ¡nega$ves? ¡ Looks ¡familiar… ¡ • A ¡staXsXcal ¡test ¡with ¡a ¡threshold ¡for ¡significance ¡is ¡a ¡ binary ¡classifier ¡ • Classifiers ¡learn ¡a ¡model ¡of ¡the ¡data: ¡ ¡class ¡modeled ¡as ¡ a ¡func$on ¡of ¡features ¡ – Of ¡course, ¡unlike ¡classifiers, ¡we ¡cannot ¡evaluate ¡sta$s$cal ¡ tests ¡directly—there ¡is ¡no ¡ground ¡truth ¡ • Sta$s$cal ¡tests ¡implicitly ¡model ¡evalua$on ¡data ¡as ¡a ¡ func$on ¡of ¡features, ¡then ¡inference ¡in ¡that ¡model ¡ 49 ¡
Modeling ¡Evalua$on ¡ • ANOVA ¡is ¡based ¡on ¡the ¡linear ¡regression ¡model ¡ y ij = µ + α j + β i + ε ij • y ij ¡is ¡the ¡effec$veness ¡of ¡system ¡I ¡on ¡topic ¡j ¡ • μ ¡is ¡the ¡intercept ¡and ¡represents ¡baseline ¡retrieval ¡ effec$veness ¡ • α j ¡represents ¡the ¡“topic ¡effect” ¡ • β i ¡represents ¡the ¡“system ¡effect” ¡ – Different ¡meaning ¡from ¡the ¡α ¡and ¡β ¡in ¡Type ¡I ¡and ¡Type ¡II ¡ error ¡rates ¡(hope ¡this ¡isn’t ¡too ¡confusing!) ¡ • ε ij ¡is ¡random ¡error ¡ – It ¡represents ¡every ¡effect ¡unspecified ¡in ¡the ¡model ¡ ¡ 50 ¡
Modeling ¡Evalua$on ¡ y ij = µ + α j + β i + ε ij • Fit ¡the ¡model ¡using ¡OLS ¡ • Compare ¡β ¡values ¡ • OLS ¡es$mator ¡for ¡β i ¡is ¡mean ¡effec$veness ¡of ¡system ¡i ¡ • ε ij ¡ is ¡assumed ¡to ¡have ¡normal ¡distribu$on ¡with ¡variance ¡σ 2 ¡ – Es$mated ¡as ¡variance ¡in ¡differences ¡in ¡effec$veness ¡ • Inference ¡procedure ¡uses ¡those ¡two ¡quan$$es, ¡ignores ¡ everything ¡else ¡ – But ¡it’s ¡all ¡s$ll ¡there, ¡affec$ng ¡the ¡model ¡ 51 ¡
All ¡models ¡are ¡ wrong, ¡but ¡some ¡are ¡ useful. ¡ George ¡E. ¡P. ¡Box ¡ 52 ¡
53 ¡
Donald ¡Rumsfeld, ¡Secret ¡Data ¡Analyst ¡ ¡ • Known ¡knowns ¡ – Relevance ¡judgments, ¡ranked ¡list ¡ – Effec$veness ¡measurements ¡ • Known ¡unknowns ¡ – Values ¡of ¡parameters ¡in ¡parametric ¡tests ¡ – Null ¡distribu$on ¡in ¡empirical ¡tests ¡ – Missing ¡judgments, ¡assessor ¡disagreement ¡ • Unknown ¡unknowns ¡ – What’s ¡wrong ¡with ¡the ¡model? ¡ – How ¡do ¡flaws ¡in ¡the ¡model ¡affect ¡inference ¡and ¡conclusions? ¡ 54 ¡
Sta$s$cal ¡Significance ¡Tes$ng ¡ In ¡Theory ¡and ¡In ¡Prac$ce ¡ Ben ¡Cartere8e ¡ University ¡of ¡Delaware ¡ ¡ h8p://ir.cis.udel.edu/SIGIR17tutorial ¡ ¡
Part ¡3 ¡ MYTHS ¡AND ¡MISCONCEPTIONS ¡ 56 ¡
Myths ¡and ¡Misconcep$ons ¡ • Significance ¡tests ¡lend ¡rigor ¡to ¡our ¡experimenta$on ¡ – Without ¡them, ¡the ¡usual ¡differences ¡of ¡< ¡5% ¡would ¡be ¡ difficult ¡to ¡interpret ¡ • But ¡they ¡are ¡widely ¡misunderstood ¡ – p-‑values ¡can ¡be ¡incorrectly ¡interpreted ¡ – p-‑values ¡can ¡be ¡easily ¡manipulated ¡(even ¡uninten$onally) ¡ • They ¡are ¡fundamentally ¡no ¡more ¡rigorous ¡than ¡any ¡AI/ ML ¡approach ¡to ¡classifica$on ¡ – Though ¡they ¡may ¡have ¡a ¡deeper ¡theore$cal ¡basis ¡ 57 ¡
Myth: ¡ ¡H 0 ¡is ¡a ¡Realis$c ¡Model ¡ • The ¡first ¡and ¡biggest ¡misconcep$on: ¡ ¡a ¡null ¡hypothesis ¡of ¡ μ ¡= ¡0 ¡is ¡some$mes ¡true ¡ – That ¡is, ¡there ¡is ¡a ¡chance ¡that ¡there ¡really ¡is ¡no ¡effect ¡ – (A ¡one-‑sided ¡null ¡hypothesis ¡may ¡be ¡true ¡of ¡course) ¡ • In ¡AI-‑aligned ¡fields, ¡such ¡a ¡null ¡hypothesis ¡is ¡almost ¡ never ¡true ¡ – Really ¡only ¡when ¡the ¡experimenter ¡made ¡a ¡mistake ¡ • The ¡only ¡ques$on ¡is ¡how ¡big ¡of ¡a ¡sample ¡size ¡will ¡it ¡take ¡ to ¡reject ¡it ¡ – There ¡is ¡ always ¡some ¡sample ¡big ¡enough ¡to ¡reject ¡it ¡ 58 ¡
Myth: ¡ ¡Rejec$ng ¡H 0 ¡Means ¡it ¡is ¡False ¡ • We ¡take ¡p ¡< ¡0.05 ¡as ¡reason ¡to ¡reject ¡H 0 ¡ • But ¡a ¡test ¡can ¡reject ¡H 0 ¡for ¡many ¡reasons: ¡ – bias ¡or ¡other ¡issues ¡in ¡our ¡sample ¡ – viola$ons ¡of ¡test ¡model ¡assump$ons ¡ – failure ¡to ¡model ¡important ¡sources ¡of ¡variance ¡ – uninten$onal ¡overfieng ¡ • Rejec$ng ¡H 0 ¡should ¡not ¡be ¡taken ¡to ¡mean ¡a ¡system ¡is ¡ definitely ¡be8er ¡ – It ¡is ¡more ¡accurate ¡to ¡say ¡whether ¡an ¡experiment ¡is ¡ powerful ¡enough ¡to ¡reject ¡or ¡fail ¡to ¡reject ¡H 0 ¡ 59 ¡
Myth: ¡ ¡Test ¡Assump$ons ¡ ¡ Are ¡Important ¡ • Consider ¡the ¡t-‑test ¡based ¡on ¡the ¡linear ¡model ¡ • Assump$ons: ¡ – y ¡is ¡unbounded ¡ – linearity ¡and ¡addi$vity ¡ – homoscedas$city ¡ – normality ¡of ¡errors ¡ – (note: ¡ ¡normality ¡of ¡data ¡is ¡not ¡an ¡assump$on) ¡ • All ¡of ¡these ¡are ¡false! ¡ – But ¡that ¡is ¡not ¡sufficient ¡reason ¡to ¡not ¡use ¡the ¡test ¡ – We ¡can ¡evaluate ¡how ¡much ¡their ¡falseness ¡affects ¡accuracy ¡and ¡ power ¡by ¡simula$on ¡ 60 ¡
Myth: ¡Test ¡Assump$ons ¡ ¡ Are ¡Important ¡ • OK, ¡so ¡t-‑test ¡assump$ons ¡are ¡false. ¡ ¡Why ¡not ¡use ¡a ¡ different ¡test? ¡ • Every ¡test ¡is ¡based ¡on ¡some ¡model, ¡and ¡every ¡model ¡is ¡ false ¡ – Even ¡so-‑called ¡“assump$on-‑free” ¡tests ¡like ¡Fisher’s ¡exact ¡test ¡or ¡ the ¡bootstrap ¡actually ¡do ¡involve ¡assump$ons ¡ • The ¡tradeoff ¡is ¡generally ¡between ¡simplicity ¡and ¡power ¡ – Fewer ¡assump$ons ¡ à ¡less ¡power ¡ à ¡fewer ¡significant ¡results ¡ • t-‑test ¡is ¡popular ¡because ¡it ¡is ¡powerful, ¡robust ¡to ¡viola$ons ¡ of ¡its ¡assump$ons, ¡and ¡computa$onally ¡easy ¡ ¡ 61 ¡
Myth: ¡ ¡p-‑Values ¡Have ¡ ¡ Intrinsic ¡Meaning ¡ • p ¡< ¡0.05 ¡is ¡ocen ¡taken ¡as ¡a ¡“gold ¡standard” ¡of ¡ proof ¡ • Two ¡things ¡to ¡keep ¡in ¡mind: ¡ – The ¡p-‑value ¡comes ¡out ¡of ¡a ¡model; ¡“all ¡models ¡are ¡ wrong” ¡ – 0.05 ¡is ¡an ¡arbitrary ¡value ¡that ¡was ¡probably ¡first ¡used ¡ as ¡an ¡example ¡ • Any ¡meaning ¡given ¡to ¡a ¡p-‑value ¡is ¡ extrinsic ¡ – Usually ¡granted ¡by ¡a ¡community ¡of ¡scien$sts ¡ 62 ¡
Myth: ¡ ¡p-‑Values ¡Have ¡ ¡ Intrinsic ¡Meaning ¡ • P-‑values ¡vary ¡depending ¡on ¡choices ¡made ¡in ¡ experimenta$on, ¡on ¡systems ¡being ¡tested, ¡on ¡many ¡other ¡ factors ¡ – A ¡p-‑value ¡cannot ¡be ¡an ¡exact ¡reflec$on ¡of ¡real-‑world ¡ significance ¡ • The ¡real ¡gold ¡standard ¡is ¡whether ¡it ¡helps ¡users ¡ • Any ¡IR ¡evalua$on ¡based ¡on ¡the ¡Cranfield ¡paradigm ¡cannot ¡ directly ¡answer ¡that ¡ • But ¡using ¡ a ¡priori ¡ power ¡analysis ¡to ¡determine ¡appropriate ¡ sample ¡size ¡comes ¡closer ¡than ¡looking ¡at ¡p-‑values ¡ 63 ¡
Myth: ¡ ¡Lower ¡p-‑Values ¡are ¡Be8er ¡ • If ¡a ¡p-‑value ¡of ¡0.04 ¡is ¡be8er ¡than ¡a ¡p-‑value ¡of ¡ 0.06, ¡then ¡a ¡p-‑value ¡of ¡0.02 ¡is ¡even ¡be8er, ¡right? ¡ • A ¡p-‑value ¡can ¡be ¡lower ¡for ¡three ¡reasons: ¡ – The ¡effect ¡size ¡is ¡bigger ¡(good) ¡ – The ¡sample ¡size ¡is ¡bigger ¡(bad) ¡ – “Randomness” ¡ • There’s ¡no ¡way ¡to ¡know ¡which ¡of ¡these ¡is ¡the ¡ reason ¡ 64 ¡
Myth: ¡ ¡Lower ¡p-‑Values ¡are ¡Be8er ¡ • p-‑value ¡= ¡P(data ¡| ¡H 0 , ¡test ¡model, ¡inputs) ¡ • For ¡parametric ¡and ¡empirical ¡tests, ¡the ¡null ¡ distribu$on ¡is ¡computed ¡from ¡the ¡input ¡data ¡ – Changing ¡the ¡input ¡data ¡changes ¡the ¡distribu$on ¡ – Which ¡means ¡two ¡t-‑tests ¡on ¡two ¡pairs ¡of ¡runs ¡are ¡ using ¡two ¡different ¡distribu$ons ¡ • p-‑values ¡should ¡not ¡be ¡compared ¡directly ¡ – Fisher ¡and ¡Neyman/Pearson ¡would ¡have ¡agreed ¡on ¡ this! ¡ 65 ¡
Myth: ¡ ¡Running ¡Many ¡Tests ¡is ¡OK ¡ • AI ¡experimenta$on ¡ocen ¡happens ¡like ¡this: ¡ 1. Modify ¡a ¡system, ¡compare ¡to ¡baseline, ¡run ¡test ¡ 2. Significant? ¡ • No: ¡ ¡go ¡back ¡to ¡step ¡1 ¡ • Yes: ¡ ¡start ¡wri$ng ¡a ¡paper ¡ ¡ • How ¡many ¡tests ¡does ¡it ¡take ¡to ¡get ¡to ¡the ¡ endpoint? ¡ – P(m th ¡experiment ¡gives ¡significant ¡result ¡| ¡m ¡ experiments ¡lacking ¡power ¡to ¡reject ¡H 0 ) ¡ – P(at ¡least ¡one ¡significant ¡result ¡| ¡m ¡experiments ¡ lacking ¡power ¡to ¡reject ¡H 0 ) ¡ 66 ¡
Mul$ple ¡Comparisons ¡Problem ¡ • P(at ¡least ¡one ¡significant ¡result ¡| ¡m ¡ experiments ¡lacking ¡power ¡to ¡reject ¡H 0 ) ¡ = ¡P(one ¡significant ¡| ¡m) ¡+ ¡P(two ¡significant ¡| ¡m) ¡+ ¡… ¡ = ¡1 ¡– ¡P(none ¡significant ¡| ¡m) ¡ = ¡1 ¡– ¡(1 ¡– ¡α) m ¡ ¡ • If ¡you ¡don’t ¡believe ¡the ¡math, ¡simulate ¡it ¡ 67 ¡
Mul$ple ¡Comparisons ¡Problem ¡ 68 ¡
Summary ¡ • We ¡are ¡taught ¡to ¡use ¡sta$s$cal ¡significance ¡tests ¡ in ¡certain ¡ways ¡ – Tests ¡unmodified ¡from ¡textbook ¡forms ¡ – Received ¡wisdom ¡ – Seldom ¡reflected ¡on ¡in ¡depth ¡ • (And ¡when ¡they ¡are, ¡the ¡usual ¡tendency ¡is ¡to ¡recommend ¡ more ¡conserva$ve ¡procedures) ¡ • Misconcep$ons ¡propagate ¡ • Huge ¡problems ¡like ¡MCP ¡go ¡unaddressed ¡ 69 ¡
Part ¡4 ¡ APPLICATIONS, ¡OR, ¡WHY ¡BOTHER ¡ WITH ¡FUNDAMENTALS? ¡ 70 ¡
What ¡is ¡a ¡Sta$s$cal ¡Significance ¡Test? ¡ • A ¡sta$s$cal ¡test ¡consists ¡of ¡four ¡things: ¡ – A ¡null ¡hypothesis ¡ – A ¡test ¡sta$s$c ¡ – A ¡null ¡distribu$on ¡for ¡the ¡test ¡sta$s$c ¡ – A ¡cri$cal ¡value ¡in ¡the ¡null ¡distribu$on ¡ • You ¡can ¡invent ¡any ¡test ¡you ¡like! ¡ – … ¡as ¡long ¡as ¡you ¡can ¡compute ¡a ¡test ¡sta$s$c ¡and ¡ its ¡null ¡distribu$on ¡ 71 ¡
Why ¡Bother? ¡ • Sources ¡of ¡variance ¡specific ¡to ¡IR: ¡ – Assessor ¡error ¡and ¡disagreement ¡ – Missing ¡relevance ¡judgments ¡ – Total ¡number ¡of ¡relevant ¡documents ¡ – Topic/task ¡type ¡ – Proper$es ¡of ¡document ¡corpus ¡ – Proper$es ¡of ¡effec$veness ¡measures ¡ – Low-‑level ¡system ¡features ¡(stemmer/stopwords/tokeniza$on/etc) ¡ – … ¡ • None ¡of ¡these ¡included ¡in ¡standard ¡test ¡models ¡ • In ¡fact, ¡standard ¡test ¡models ¡account ¡for ¡very ¡li8le ¡ – Not ¡even ¡major ¡issues ¡like ¡mul$ple ¡comparisons ¡ ¡ 72 ¡
Mul$ple ¡Comparisons ¡ • Recall ¡that ¡performing ¡many ¡tests ¡of ¡the ¡same ¡or ¡similar ¡ experiments ¡results ¡in ¡higher ¡probability ¡that ¡at ¡least ¡one ¡is ¡ falsely ¡significant ¡ • We ¡should ¡adjust ¡our ¡test ¡results ¡for ¡the ¡fact ¡that ¡we ¡have ¡ made ¡mul$ple ¡comparisons ¡ • Many ¡different ¡approaches ¡in ¡stats ¡literature: ¡ – Bonferroni ¡correc$on ¡ – Tukey’s ¡Honest ¡Significant ¡Differences ¡ – Mul$variate ¡t ¡test ¡ • Instead ¡of ¡picking ¡one ¡of ¡those, ¡let’s ¡reason ¡from ¡principles ¡ 73 ¡
Seeng ¡Up ¡a ¡Test ¡ • Start ¡by ¡seeng ¡up ¡a ¡single ¡null ¡hypothesis ¡that ¡all ¡ systems ¡are ¡equal: ¡ – H 0 : ¡ ¡S 1 ¡= ¡S 2 ¡= ¡S 3 ¡= ¡… ¡= ¡S m ¡ – This ¡is ¡called ¡the ¡ omnibus ¡hypothesis ¡ • How ¡do ¡we ¡compute ¡a ¡null ¡distribu$on? ¡ – Even ¡if ¡all ¡systems ¡are ¡equally ¡effec$ve, ¡random ¡varia$on ¡ will ¡mean ¡that ¡we ¡can ¡order ¡them ¡by ¡average ¡effec$veness ¡ on ¡a ¡sample ¡ – What ¡is ¡the ¡expected ¡ maximum ¡difference ¡between ¡any ¡ two ¡systems ¡over ¡a ¡sample ¡given ¡that ¡all ¡are ¡equally ¡ effec$ve? ¡ – Compute ¡the ¡null ¡distribu$on ¡from ¡there ¡ 74 ¡
Seeng ¡Up ¡a ¡Randomiza$on ¡Test ¡ • Use ¡the ¡randomiza$on ¡framework ¡to ¡compute ¡the ¡distribu$on ¡of ¡ maximum ¡difference: ¡ – Randomly ¡permute ¡each ¡row ¡of ¡the ¡evalua$on ¡matrix ¡independently ¡ – Take ¡column ¡averages ¡ – Record ¡maximum ¡difference: ¡ ¡max(effec$veness) ¡– ¡min(effec$veness) ¡ – Repeat ¡10 5 ¡$mes ¡ • When ¡done, ¡plot ¡a ¡histogram ¡of ¡the ¡recorded ¡maximum ¡differences —this ¡is ¡your ¡null ¡distribu$on ¡ – Now ¡locate ¡your ¡cri$cal ¡value ¡ – Any ¡pair ¡of ¡systems ¡with ¡difference ¡greater ¡than ¡the ¡cri$cal ¡value ¡is ¡ significant ¡ – And ¡you ¡only ¡did ¡one ¡test ¡instead ¡of ¡O(n 2 ) ¡ • Suscep$bility ¡to ¡MCP ¡much ¡reduced ¡ 75 ¡
Randomiza$on ¡Test ¡ ¡ w/ ¡MCP ¡Adjustment ¡ 76 ¡
Tukey’s ¡HSD ¡ • That ¡test ¡is ¡a ¡randomiza$on ¡version ¡of ¡Tukey’s ¡ Honest ¡Significant ¡Differences ¡(HSD) ¡test ¡ – a.k.a. ¡Tukey’s ¡range ¡test ¡ • Proper ¡test: ¡ – Fit ¡an ¡ANOVA ¡to ¡all ¡m ¡systems/n ¡ topics ¡evalua$on ¡results ¡ – Test ¡sta$s$c ¡is ¡the ¡range ¡(max ¡minus ¡ min) ¡divided ¡by ¡MSE ¡ – Null ¡distribu$on ¡is ¡the ¡Tukey ¡ distribu$on ¡(implemented ¡in ¡many ¡ stats ¡packages) ¡ 77 ¡
Effect ¡on ¡TREC-‑7 ¡Evalua$on ¡ 78 ¡
Tests ¡Specific ¡to ¡IR ¡ • Effec$veness ¡measures ¡are ¡not ¡measurements ¡ in ¡the ¡same ¡sense ¡as ¡height, ¡weight, ¡length ¡ – They ¡are ¡sta$s$cs ¡that ¡summarize ¡the ¡posi$ons ¡of ¡ relevant ¡documents ¡in ¡ranked ¡lists ¡ • An ¡IR-‑specific ¡test ¡should ¡start ¡from ¡individual ¡ relevance ¡judgments ¡ – Null ¡hypothesis: ¡ ¡two ¡systems ¡are ¡equally ¡good ¡at ¡ presen$ng ¡relevant ¡documents ¡to ¡users ¡ 79 ¡
Likelihood ¡Ra$o ¡Test ¡ • Really ¡a ¡framework ¡for ¡tes$ng ¡ • Needed: ¡ ¡a ¡hypothesized ¡null ¡distribu$on ¡and ¡ a ¡hypothesized ¡“alterna$ve” ¡distribu$on ¡ • Compute ¡the ¡likelihood ¡ra$o ¡between ¡the ¡two ¡ • If ¡the ¡ra$o ¡is ¡above ¡some ¡threshold, ¡reject ¡H 0 ¡ 80 ¡
ANOVA ¡as ¡a ¡Likelihood ¡Ra$o ¡ • ANOVA ¡is ¡based ¡on ¡the ¡linear ¡model: ¡ y ij ∼ N ( µ + α i + β j , σ 2 ) • In ¡words, ¡the ¡observed ¡effec$veness ¡of ¡ system ¡j ¡on ¡topic ¡i ¡is ¡sampled ¡randomly ¡ – Sampled ¡from ¡a ¡normal ¡distribu$on ¡with ¡mean ¡ influenced ¡by ¡system ¡and ¡topic ¡ ¡ Y L 0 = P ( y ij | µ = 0 , σ = b σ ) i,j Y L 1 = P ( y ij | µ = b µ, σ = b σ ) 81 ¡ i,j
A ¡Test ¡for ¡IR ¡ • Instead ¡of ¡the ¡likelihood ¡of ¡effec$veness ¡measure ¡ values, ¡compute ¡the ¡likelihood ¡of ¡the ¡actual ¡relevance ¡ judgments ¡ • Suppose ¡the ¡following: ¡ – Relevance ¡is ¡generated ¡by ¡flipping ¡a ¡biased ¡coin ¡ – The ¡coin’s ¡probability ¡of ¡coming ¡up ¡heads ¡is ¡biased ¡by ¡the ¡ system ¡and ¡the ¡topic ¡ • If ¡one ¡system ¡biases ¡the ¡coin ¡more ¡than ¡another, ¡even ¡ in ¡the ¡presence ¡of ¡topic ¡bias, ¡that ¡system ¡is ¡more ¡ effec$ve ¡at ¡finding ¡relevant ¡documents ¡ 82 ¡
Test ¡Model ¡ x ijk ∼ Bernoulli ( p ij ) logit p ij = µ + ↵ i + � j + ✏ ij ✏ ij ∼ N (0 , � 2 ) • Likelihood ¡is ¡based ¡on ¡Bernoulli ¡probabili$es ¡ • This ¡model ¡is ¡s$ll ¡linear ¡in ¡system ¡and ¡topic ¡ effects, ¡but ¡fixes ¡some ¡problems ¡with ¡the ¡t-‑test ¡ ¡ 83 ¡
Test ¡Model ¡ N M K • Likelihood ¡func$on: ¡ Y Y Y L = P ( x ijk ) ¡ i =1 j =1 k =1 N M K x ijk Y Y Y (1 − p ij ) 1 − x ijk ¡ L M 3 = p ij i =1 j =1 k =1 • Maximum ¡likelihood ¡es$mator ¡for ¡p ij ¡turns ¡out ¡to ¡ be ¡exactly ¡precision@k ¡for ¡system ¡i ¡on ¡topic ¡j ¡ • An ¡evalua$on ¡measure ¡that ¡makes ¡sense ¡for ¡IR ¡ emerges ¡from ¡a ¡test ¡developed ¡for ¡the ¡unique ¡ characteris$c ¡of ¡IR ¡ – Rather ¡than ¡a ¡test ¡that ¡makes ¡li8le ¡sense ¡for ¡IR ¡being ¡ performed ¡on ¡an ¡evalua$on ¡measure ¡developed ¡for ¡IR ¡ 84 ¡
Mean ¡P10 ¡Comparison ¡ 1.0 0.8 p ij estimate of precision at 10 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 actual precision at 10 85 ¡
Test ¡Model ¡ N topics M systems α p β x K ranked docs x ijk ∼ Bernoulli( p ij ) logit p ij ∼ N ( µ + β j + α i , σ 2 ) σ ∼ 1 / σ µ ∼ N (0 , σ 2 µ ) σ µ ∼ 1 / σ µ β j ∼ N (0 , σ 2 α ) σ α ∼ 1 / σ α α i ∼ N (0 , σ 2 β ) σ β ∼ 1 / σ β 86 ¡
P-‑values ¡and ¡Posterior ¡Probabili$es ¡ • It ¡is ¡not ¡clear ¡how ¡to ¡get ¡a ¡p-‑value ¡out ¡of ¡this ¡ – No ¡clear ¡null ¡distribu$on ¡or ¡test ¡sta$s$c ¡ – (At ¡least ¡not ¡to ¡me) ¡ • Rather ¡than ¡compute ¡a ¡p-‑value, ¡directly ¡compute ¡ P(β 1 ¡> ¡β 2 ) ¡ – Use ¡posterior ¡distribu$ons ¡of ¡β ¡ ¡ • P(β 1 ¡> ¡β 2 ) ¡is ¡a ¡lot ¡closer ¡to ¡what ¡we ¡care ¡about ¡ than ¡P(p ¡< ¡0.05 ¡| ¡H 0 )! ¡ 87 ¡
p-‑value ¡Comparison ¡ 1.0 posterior probability from Model 3 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 t − test p − values 88 ¡
Mul$ple ¡Comparisons? ¡ N topics M systems α p β x K ranked docs x ijk ∼ Bernoulli( p ij ) logit p ij ∼ N ( µ + β j + α i , σ 2 ) σ ∼ 1 / σ µ ∼ N (0 , σ 2 µ ) σ µ ∼ 1 / σ µ β j ∼ N (0 , σ 2 α ) σ α ∼ 1 / σ α α i ∼ N (0 , σ 2 β ) σ β ∼ 1 / σ β 96 ¡
Mul$ple ¡Comparisons? ¡ • It ¡doesn’t ¡have ¡to ¡be ¡an ¡issue ¡ • Model ¡is ¡fit ¡to ¡all ¡top-‑k ¡ranked ¡documents ¡from ¡ all ¡n ¡systems/m ¡topics ¡ – Just ¡as ¡Tukey’s ¡HSD ¡fits ¡an ¡ANOVA ¡to ¡all ¡n ¡systems/m ¡ topics ¡evalua$on ¡data ¡ • No ¡need ¡to ¡threshold ¡P(β 1 ¡> ¡β 2 ) ¡the ¡way ¡we ¡ threshold ¡a ¡p-‑value ¡ – The ¡thresholding ¡at ¡p ¡< ¡0.05 ¡is ¡the ¡main ¡culprit ¡ 97 ¡
Adding ¡a ¡User ¡Model ¡ • This ¡new ¡model ¡is ¡meant ¡to ¡be ¡more ¡flexible ¡ than ¡the ¡tradi$onal ¡linear ¡model ¡ – Easier ¡to ¡add ¡new ¡features/components ¡ • Let’s ¡add ¡a ¡general ¡user ¡browsing ¡model ¡ K Σ K X x ijk ∼ Quasi-Binomial(1 , p ij , u k ) k =1 u k = 1 u k = 1 k =1 logit p ij ∼ N ( µ + β j + α i , σ 2 ) σ ∼ 1 / σ µ ∼ N (0 , σ 2 µ ) σ µ ∼ 1 / σ µ β j ∼ N (0 , σ 2 α ) σ α ∼ 1 / σ α α i ∼ N (0 , σ 2 β ) σ β ∼ 1 / σ β 98 ¡
Adding ¡a ¡User ¡Model ¡ • Let’s ¡use ¡u k ¡= ¡θ k-‑1 (1-‑θ), ¡qv ¡Moffat ¡& ¡Zobel ¡ – θ ¡is ¡a ¡free ¡parameter ¡with ¡value ¡set ¡by ¡the ¡researcher ¡ • Maximize ¡likelihood ¡ K – ¡ ¡ X θ k − 1 (1 − θ ) x ijk p ij = k =1 • This ¡is ¡exactly ¡the ¡RBP ¡of ¡system ¡j ¡on ¡topic ¡i ¡ – Once ¡again, ¡an ¡evalua$on ¡measure ¡emerges ¡naturally ¡ when ¡we ¡model ¡relevance ¡directly ¡with ¡a ¡user ¡model ¡ 99 ¡
RBP ¡Comparison ¡ 0.8 0.6 p ij estimate of RBP 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 actual RBP 100 ¡
Refined ¡Model ¡ • Now ¡add ¡a ¡model ¡of ¡graded ¡relevance ¡ K X X P gain ( x ijk = g ) = 1 u k = 1 Σ K x ijkg ∼ Quasi-Binomial(1 , p ij , k =1 u k = 1 g ∈ G k =1 u k · P gain ( x ijk = g )) Σ g ∈ G P gain ( x ijk = g ) = 1 x ijkg ∼ Quasi-Binomial(1 , p ij , u k · P gain ( x ijk = g )) logit p ij ∼ N ( µ + β j + α i , σ 2 ) σ ∼ 1 / σ µ ∼ N (0 , σ 2 µ ) σ µ ∼ 1 / σ µ β j ∼ N (0 , σ 2 α ) σ α ∼ 1 / σ α α i ∼ N (0 , σ 2 β ) σ β ∼ 1 / σ β • We ¡can ¡define ¡u k ¡and ¡P gain ¡such ¡that ¡nDCG ¡pops ¡ out ¡ 101 ¡
Summary ¡ Significance ¡tests ¡are ¡just ¡models ¡ • When ¡we ¡use ¡them ¡“out ¡of ¡the ¡box”, ¡we ¡fail ¡to ¡model ¡many ¡sources ¡of ¡variance ¡in ¡IR ¡ – Variance ¡in ¡relevance, ¡in ¡user ¡behavior, ¡in ¡interac$ons ¡between ¡system ¡components, ¡… ¡ • The ¡things ¡we ¡do ¡model ¡are ¡probably ¡being ¡modeled ¡wrong ¡ – In ¡par$cular ¡addi$vity ¡of ¡system ¡and ¡topic ¡effects ¡ • More ¡correct ¡models ¡could ¡change ¡our ¡conclusions ¡about ¡systems ¡ – We ¡know ¡that ¡modeling ¡mul$ple ¡tes$ng ¡changes ¡our ¡conclusions ¡drama$cally ¡ • Most ¡other ¡concerns ¡we ¡are ¡aware ¡of ¡are ¡extremely ¡minor ¡in ¡comparison ¡ – But ¡what ¡are ¡we ¡not ¡aware ¡of? ¡ ¡What ¡are ¡the ¡unknown ¡unknowns? ¡ – You ¡can ¡make ¡your ¡own ¡tests ¡pre8y ¡easily ¡ • Just ¡think ¡of ¡them ¡as ¡regression ¡problems: ¡evalua$on ¡data ¡regressed ¡on ¡features ¡of ¡systems ¡ – and ¡topics ¡ A ¡p-‑value ¡from ¡a ¡t-‑test ¡or ¡Wilcoxon ¡test ¡is ¡no ¡more ¡valid ¡than ¡a ¡p-‑value ¡from ¡a ¡test ¡ • you ¡develop ¡yourself ¡ Provided ¡you ¡can ¡jus$fy ¡your ¡modeling ¡assump$ons ¡ – 104 ¡
Part ¡5 ¡ SIGNIFICANCE ¡TESTING ¡IN ¡ IR ¡RESEARCH ¡ 106 ¡
What ¡Does ¡it ¡Mean? ¡ • You ¡can ¡ always ¡find ¡significance ¡ – With ¡the ¡right ¡sample, ¡the ¡right ¡sample ¡size, ¡the ¡right ¡test, ¡ enough ¡itera$ons ¡of ¡tes$ng ¡ – Sta$s$cal ¡significance ¡is ¡more ¡about ¡weight ¡of ¡evidence ¡ • Significance ¡is ¡only ¡a ¡rough ¡proxy ¡for ¡“interes$ngness” ¡ – A ¡heuris$c ¡ • Looking ¡for ¡a ¡recommenda$on ¡of ¡what ¡test ¡to ¡use? ¡ – I’ll ¡always ¡say ¡the ¡t-‑test, ¡others ¡will ¡say ¡Wilcoxon ¡or ¡ randomiza$on ¡or ¡bootstrap ¡ – The ¡truth ¡is, ¡it ¡doesn’t ¡ma8er ¡much ¡ 107 ¡
Searching ¡for ¡Interes$ng ¡Results ¡ • How ¡do ¡we ¡use ¡significance ¡tests ¡in ¡research? ¡ – Conference ¡program ¡commi8ees/journal ¡editors ¡use ¡them ¡ as ¡a ¡guide ¡for ¡determining ¡what ¡to ¡publish ¡ • Publica$on ¡determines ¡research ¡direc$ons ¡that ¡people ¡follow ¡ – Published ¡systems ¡implemented ¡as ¡baselines ¡ – Essen$ally ¡as ¡a ¡heuris$c ¡in ¡a ¡search ¡for ¡the ¡best ¡algorithms ¡ • They ¡can ¡easily ¡be ¡used ¡as ¡a ¡subs$tute ¡for ¡human ¡ judgment ¡ – Like ¡most ¡AI, ¡they ¡should ¡be ¡used ¡as ¡an ¡aide ¡to ¡human ¡ judgment ¡ – There ¡isn’t ¡one ¡right ¡way ¡to ¡do ¡it ¡ • No ¡Free ¡Lunch ¡Theorem ¡applies ¡to ¡significance ¡tes$ng ¡ 108 ¡
Searching ¡for ¡Interes$ng ¡Results ¡ • What ¡if ¡significance ¡was ¡granted ¡more ¡ conserva$vely? ¡ ¡e.g. ¡by: ¡ – Correc$ng ¡for ¡mul$ple ¡comparisons ¡ – Using ¡tests ¡that ¡make ¡fewer ¡assump$ons ¡ – Using ¡a ¡lower ¡value ¡of ¡alpha ¡(0.01 ¡for ¡instance) ¡ • Is ¡a ¡more ¡conserva$ve ¡heuris$c ¡always ¡ be8er? ¡ 109 ¡
The ¡State ¡of ¡ ¡ Research ¡Today ¡ InteresXng ¡ ¡ results ¡ Published ¡ results ¡ Sta$s$cally ¡significant ¡ results ¡ All ¡hypotheses ¡ 110 ¡
Recommend
More recommend