The ¡details: ¡training ¡and ¡ valida1ng ¡big ¡models ¡on ¡big ¡data David ¡Mimno Princeton, ¡Computer ¡Science 1 Saturday, November 3, 12
2 Saturday, November 3, 12
George ¡Dyson, ¡Turing’s ¡Cathedral • “The ¡reac*on ¡of ¡most ¡meteorologists ¡ towards ¡computer-‑assisted ¡forecas*ng ¡ paralleled ¡that ¡of ¡the ¡Ins*tute ¡ mathema*cians ¡towards ¡computer-‑assisted ¡ mathema*cs: ¡skep*cism ¡that ¡a ¡machine ¡ could ¡improve ¡upon ¡what ¡they ¡were ¡doing ¡ with ¡brains ¡alone.” 3 Saturday, November 3, 12
George ¡Dyson, ¡Turing’s ¡Cathedral • “The ¡reac*on ¡of ¡most ¡meteorologists ¡ towards ¡ computer-‑assisted ¡forecas*ng ¡ paralleled ¡that ¡of ¡the ¡Ins*tute ¡ mathema*cians ¡towards ¡computer-‑assisted ¡ mathema*cs: ¡skep*cism ¡that ¡a ¡machine ¡ could ¡improve ¡upon ¡what ¡they ¡were ¡doing ¡ with ¡brains ¡alone.” 4 Saturday, November 3, 12
Outline • Training ¡topic ¡models • Modeling ¡choices • Diagnos*cs 5 Saturday, November 3, 12
Outline • Training ¡topic ¡models • Modeling ¡choices • Diagnos*cs 6 Saturday, November 3, 12
Library-‑scale ¡topic ¡models Input: ¡1.2M ¡pre-‑1922 ¡books Output: ¡2000 ¡“topics” (33 ¡billion ¡non-‑stopwords) (distribu*ons ¡over ¡words) Random ¡examples, ¡each ¡row ¡is ¡a ¡topic 7 Saturday, November 3, 12
Latent ¡Dirichlet ¡Alloca1on α Book-‑topic ¡propor*ons θ η z w β N d D K 8 Saturday, November 3, 12
An ¡example ¡document Etruscan trade price temple market 9 Saturday, November 3, 12
Assign ¡topics z 3 2 1 3 1 Etruscan trade price temple market w 10 Saturday, November 3, 12
Assign ¡topics z 3 2 1 3 1 Etruscan trade price temple market w 3 2 1 3 1 3 2 1 3 1 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market 3 2 1 3 1 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market 3 2 1 3 1 Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market 3 2 1 3 1 Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 n Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 n Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 n Etrusca trade price temple market n 3 2 1 3 1 2 3 2 1 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 n Etrusca trade price temple market n 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 2 3 2 1 1 n Etrusca trade price temple market n 3 2 1 3 1 Etrusca trade price temple market n trade temple ship trade market n Etrusca trade price temple market n 2 3 2 1 1 Etrusca trade price temple market n n ship temple ship trade market Etrusca trade price temple market n n Italy temple ship trade market n 11 Saturday, November 3, 12
Global ¡sta1s1cs 3 2 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 Total ¡ market 50 0 1 counts ¡ price 42 1 0 from ¡ all ¡ temple 0 0 20 docs trade 10 8 1 ... 12 Saturday, November 3, 12
Algorithm • Ini*alize ¡topic ¡assignments ¡randomly • For ¡each ¡itera*on: – For ¡each ¡document: • For ¡each ¡word: – Resample ¡topic ¡for ¡word, ¡given ¡all ¡other ¡words ¡and ¡their ¡ current ¡topic ¡assignments • Produce ¡reports 13 Saturday, November 3, 12
Algorithm • Ini*alize ¡topic ¡assignments ¡randomly • For ¡each ¡itera*on: – For ¡each ¡document: • For ¡each ¡word: – Resample ¡topic ¡for ¡word, ¡given ¡all ¡other ¡words ¡and ¡their ¡ current ¡topic ¡assignments • Produce ¡reports 14 Saturday, November 3, 12
Sample ¡topic ¡for ¡“trade” 3 2 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 10 8 1 ... 15 Saturday, November 3, 12
Remove ¡current ¡assignment 3 2 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 10 8 1 ... 16 Saturday, November 3, 12
Remove ¡current ¡assignment 3 ? 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 10 7 1 ... 17 Saturday, November 3, 12
Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market 18 Saturday, November 3, 12
Which ¡topics ¡occur ¡in ¡this ¡doc? 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 19 Saturday, November 3, 12
Which ¡topics ¡like ¡the ¡word ¡“trade”? 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 1 2 3 trade 10 7 1 20 Saturday, November 3, 12
Which ¡topics ¡like ¡the ¡word ¡“trade”? 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 21 Saturday, November 3, 12
Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 22 Saturday, November 3, 12
Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 23 Saturday, November 3, 12
Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 10 7 1 ... 24 Saturday, November 3, 12
Pick ¡a ¡topic ¡for ¡“trade” 3 1 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 11 7 1 ... 25 Saturday, November 3, 12
Increase ¡counts ¡for ¡1 ¡and ¡“trade”|1 3 1 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 26 Saturday, November 3, 12
Varia1onal ¡inference Etruscan trade price temple market Topic 1 Topic 2 Topic 3 27 Saturday, November 3, 12
Outline • Training ¡topic ¡models • Modeling ¡choices • Diagnos*cs 28 Saturday, November 3, 12
Things ¡people ¡didn’t ¡know ¡they ¡ had ¡to ¡think ¡about • What ¡is ¡a ¡ document ? • Which ¡ words ¡ are ¡interes*ng? • What ¡is ¡a ¡word, ¡anyway? • Knobs: – Number ¡of ¡topics – Hyper-‑parameters 29 Saturday, November 3, 12
Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 30 Saturday, November 3, 12
Which ¡topics ¡like ¡the ¡word ¡“trade”? Topic 1 31 Saturday, November 3, 12
Which ¡topics ¡like ¡the ¡word ¡“trade”? Topic 1 α price market 32 Saturday, November 3, 12
Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 33 Saturday, November 3, 12
Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 34 Saturday, November 3, 12
Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 35 Saturday, November 3, 12
Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 36 Saturday, November 3, 12
Hyper-‑parameters: ¡learn ¡or ¡fix? Pros Cons Fixed ¡ All ¡topics ¡ Duplicate ¡ similar ¡size, ¡ topics, ¡frequent ¡ quality words ¡repeated Learned Some ¡topics ¡ Small ¡topics ¡ big, ¡others ¡ may ¡be ¡low ¡ small quality 37 Saturday, November 3, 12
Outline • Training ¡topic ¡models • Modeling ¡choices • Diagnos8cs 38 Saturday, November 3, 12
What ¡makes ¡topics ¡bad? • Random , ¡unrelated ¡words • One ¡or ¡two ¡“ intruder ” ¡words • Boring, ¡ overly ¡general ¡words • Two ¡or ¡more ¡good ¡topics ¡combined, ¡ some*mes ¡with ¡a ¡general ¡word ¡in ¡common ¡ ( chimaeras ) 39 Saturday, November 3, 12
Recommend
More recommend