the details training and valida1ng big models on big data
play

The details: training and valida1ng big models on big data - PowerPoint PPT Presentation

The details: training and valida1ng big models on big data David Mimno Princeton, Computer Science 1 Saturday, November 3, 12 2 Saturday, November 3, 12 George Dyson, Turings


  1. The ¡details: ¡training ¡and ¡ valida1ng ¡big ¡models ¡on ¡big ¡data David ¡Mimno Princeton, ¡Computer ¡Science 1 Saturday, November 3, 12

  2. 2 Saturday, November 3, 12

  3. George ¡Dyson, ¡Turing’s ¡Cathedral • “The ¡reac*on ¡of ¡most ¡meteorologists ¡ towards ¡computer-­‑assisted ¡forecas*ng ¡ paralleled ¡that ¡of ¡the ¡Ins*tute ¡ mathema*cians ¡towards ¡computer-­‑assisted ¡ mathema*cs: ¡skep*cism ¡that ¡a ¡machine ¡ could ¡improve ¡upon ¡what ¡they ¡were ¡doing ¡ with ¡brains ¡alone.” 3 Saturday, November 3, 12

  4. George ¡Dyson, ¡Turing’s ¡Cathedral • “The ¡reac*on ¡of ¡most ¡meteorologists ¡ towards ¡ computer-­‑assisted ¡forecas*ng ¡ paralleled ¡that ¡of ¡the ¡Ins*tute ¡ mathema*cians ¡towards ¡computer-­‑assisted ¡ mathema*cs: ¡skep*cism ¡that ¡a ¡machine ¡ could ¡improve ¡upon ¡what ¡they ¡were ¡doing ¡ with ¡brains ¡alone.” 4 Saturday, November 3, 12

  5. Outline • Training ¡topic ¡models • Modeling ¡choices • Diagnos*cs 5 Saturday, November 3, 12

  6. Outline • Training ¡topic ¡models • Modeling ¡choices • Diagnos*cs 6 Saturday, November 3, 12

  7. Library-­‑scale ¡topic ¡models Input: ¡1.2M ¡pre-­‑1922 ¡books Output: ¡2000 ¡“topics” (33 ¡billion ¡non-­‑stopwords) (distribu*ons ¡over ¡words) Random ¡examples, ¡each ¡row ¡is ¡a ¡topic 7 Saturday, November 3, 12

  8. Latent ¡Dirichlet ¡Alloca1on α Book-­‑topic ¡propor*ons θ η z w β N d D K 8 Saturday, November 3, 12

  9. An ¡example ¡document Etruscan trade price temple market 9 Saturday, November 3, 12

  10. Assign ¡topics z 3 2 1 3 1 Etruscan trade price temple market w 10 Saturday, November 3, 12

  11. Assign ¡topics z 3 2 1 3 1 Etruscan trade price temple market w 3 2 1 3 1 3 2 1 3 1 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market 3 2 1 3 1 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market 3 2 1 3 1 Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market 3 2 1 3 1 Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 n Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 n Etrusca trade price temple market n 3 2 1 3 1 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 n Etrusca trade price temple market n 3 2 1 3 1 2 3 2 1 1 Etrusca trade price temple market n Etrusca trade price temple market 3 2 1 3 1 n Etrusca trade price temple market n 3 2 1 3 1 Etrusca trade price temple market n Etrusca trade price temple market 2 3 2 1 1 n Etrusca trade price temple market n 3 2 1 3 1 Etrusca trade price temple market n trade temple ship trade market n Etrusca trade price temple market n 2 3 2 1 1 Etrusca trade price temple market n n ship temple ship trade market Etrusca trade price temple market n n Italy temple ship trade market n 11 Saturday, November 3, 12

  12. Global ¡sta1s1cs 3 2 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 Total ¡ market 50 0 1 counts ¡ price 42 1 0 from ¡ all ¡ temple 0 0 20 docs trade 10 8 1 ... 12 Saturday, November 3, 12

  13. Algorithm • Ini*alize ¡topic ¡assignments ¡randomly • For ¡each ¡itera*on: – For ¡each ¡document: • For ¡each ¡word: – Resample ¡topic ¡for ¡word, ¡given ¡all ¡other ¡words ¡and ¡their ¡ current ¡topic ¡assignments • Produce ¡reports 13 Saturday, November 3, 12

  14. Algorithm • Ini*alize ¡topic ¡assignments ¡randomly • For ¡each ¡itera*on: – For ¡each ¡document: • For ¡each ¡word: – Resample ¡topic ¡for ¡word, ¡given ¡all ¡other ¡words ¡and ¡their ¡ current ¡topic ¡assignments • Produce ¡reports 14 Saturday, November 3, 12

  15. Sample ¡topic ¡for ¡“trade” 3 2 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 10 8 1 ... 15 Saturday, November 3, 12

  16. Remove ¡current ¡assignment 3 2 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 10 8 1 ... 16 Saturday, November 3, 12

  17. Remove ¡current ¡assignment 3 ? 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 10 7 1 ... 17 Saturday, November 3, 12

  18. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market 18 Saturday, November 3, 12

  19. Which ¡topics ¡occur ¡in ¡this ¡doc? 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 19 Saturday, November 3, 12

  20. Which ¡topics ¡like ¡the ¡word ¡“trade”? 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 1 2 3 trade 10 7 1 20 Saturday, November 3, 12

  21. Which ¡topics ¡like ¡the ¡word ¡“trade”? 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 21 Saturday, November 3, 12

  22. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 22 Saturday, November 3, 12

  23. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 23 Saturday, November 3, 12

  24. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 10 7 1 ... 24 Saturday, November 3, 12

  25. Pick ¡a ¡topic ¡for ¡“trade” 3 1 1 3 1 Etruscan trade price temple market 1 2 3 Etruscan 1 0 35 market 50 0 1 price 42 1 0 temple 0 0 20 trade 11 7 1 ... 25 Saturday, November 3, 12

  26. Increase ¡counts ¡for ¡1 ¡and ¡“trade”|1 3 1 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 26 Saturday, November 3, 12

  27. Varia1onal ¡inference Etruscan trade price temple market Topic 1 Topic 2 Topic 3 27 Saturday, November 3, 12

  28. Outline • Training ¡topic ¡models • Modeling ¡choices • Diagnos*cs 28 Saturday, November 3, 12

  29. Things ¡people ¡didn’t ¡know ¡they ¡ had ¡to ¡think ¡about • What ¡is ¡a ¡ document ? • Which ¡ words ¡ are ¡interes*ng? • What ¡is ¡a ¡word, ¡anyway? • Knobs: – Number ¡of ¡topics – Hyper-­‑parameters 29 Saturday, November 3, 12

  30. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 30 Saturday, November 3, 12

  31. Which ¡topics ¡like ¡the ¡word ¡“trade”? Topic 1 31 Saturday, November 3, 12

  32. Which ¡topics ¡like ¡the ¡word ¡“trade”? Topic 1 α price market 32 Saturday, November 3, 12

  33. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 33 Saturday, November 3, 12

  34. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 34 Saturday, November 3, 12

  35. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 35 Saturday, November 3, 12

  36. Pick ¡a ¡topic ¡for ¡“trade” 3 ? 1 3 1 Etruscan trade price temple market Topic 1 Topic 2 Topic 3 36 Saturday, November 3, 12

  37. Hyper-­‑parameters: ¡learn ¡or ¡fix? Pros Cons Fixed ¡ All ¡topics ¡ Duplicate ¡ similar ¡size, ¡ topics, ¡frequent ¡ quality words ¡repeated Learned Some ¡topics ¡ Small ¡topics ¡ big, ¡others ¡ may ¡be ¡low ¡ small quality 37 Saturday, November 3, 12

  38. Outline • Training ¡topic ¡models • Modeling ¡choices • Diagnos8cs 38 Saturday, November 3, 12

  39. What ¡makes ¡topics ¡bad? • Random , ¡unrelated ¡words • One ¡or ¡two ¡“ intruder ” ¡words • Boring, ¡ overly ¡general ¡words • Two ¡or ¡more ¡good ¡topics ¡combined, ¡ some*mes ¡with ¡a ¡general ¡word ¡in ¡common ¡ ( chimaeras ) 39 Saturday, November 3, 12

Recommend


More recommend