latent dirichlet allocation
play

Latent Dirichlet Allocation Alberto Bie+ Trop - PowerPoint PPT Presentation

Latent Dirichlet Allocation Alberto Bie+ Trop dinformation Topic modeling Dcouvrir la structure thma5que cache dans chaque document dune archive


  1. Latent ¡Dirichlet ¡ Allocation ¡ Alberto ¡Bie+ ¡

  2. Trop ¡d’information ¡

  3. Topic ¡modeling ¡ • Découvrir ¡la ¡structure ¡théma5que ¡cachée ¡dans ¡chaque ¡ document ¡d’une ¡archive ¡ • Permet: ¡ • Organisa5on ¡automa5que ¡des ¡documents ¡par ¡thème ¡ • Compréhension ¡d’un ¡document ¡ • Recherche ¡ • Résumé ¡

  4. Découvrir ¡les ¡thèmes ¡d’un ¡corpus ¡ de ¡documents ¡ human evolution disease computer genome evolutionary host models dna species bacteria information genetic organisms diseases data genes life resistance computers sequence origin bacterial system gene biology new network molecular groups strains systems sequencing phylogenetic control model map living infectious parallel information diversity malaria methods genetics group parasite networks mapping new parasites software project two united new sequences common tuberculosis simulations

  5. Annotation ¡d’images ¡ SCOTLAND WATER SKY WATER TREE SKY WATER BUILDING FLOWER HILLS TREE MOUNTAIN PEOPLE PEOPLE WATER FISH WATER OCEAN PEOPLE MARKET PATTERN BIRDS NEST TREE TREE CORAL TEXTILE DISPLAY BRANCH LEAVES

  6. Exploration ¡de ¡thèmes ¡

  7. Mais ¡aussi… ¡ • Trouver ¡des ¡rela5ons ¡entre ¡les ¡thèmes ¡ • Hiérarchies ¡de ¡thèmes ¡ • Evolu5on ¡des ¡thèmes ¡au ¡cours ¡du ¡temps ¡ • Prédic5on ¡de ¡liens ¡entre ¡ar5cles ¡ • Collabora've ¡filtering ¡(ex: ¡recommanda5on ¡de ¡films) ¡

  8. Latent ¡Dirichlet ¡Allocation ¡(LDA) ¡ • Modèle ¡probabiliste ¡généra5f ¡d’un ¡corpus ¡de ¡documents ¡ • Modèle ¡Bayésien ¡hiérarchique ¡à ¡ ¡3 ¡niveaux ¡ • Pour ¡chaque ¡document: ¡ • On ¡choisit ¡un ¡mélange ¡de ¡thèmes ¡( topic ¡mixture ) ¡ • Pour ¡chaque ¡mot, ¡on ¡choisit ¡un ¡thème ¡dans ¡ce ¡mélange ¡ • Et ¡on ¡choisit ¡un ¡mot ¡depuis ¡ce ¡thème ¡ • Appren5ssage ¡de ¡ces ¡caractéris5ques ¡par ¡inférence ¡

  9. Modèle ¡

  10. Modèles ¡graphiques ¡

  11. Modèles ¡graphiques ¡ w N M (a) unigram z w N M (b) mixture of unigrams

  12. Modèle ¡graphique ¡LDA ¡ Per-word Proportions topic assignment parameter Per-document Topic Observed Topics topic proportions parameter word α θ d Z d,n W d,n β k η N D K

  13. Modèle ¡graphique ¡LDA ¡ Per-word Proportions topic assignment parameter Per-document Observed Topic Topics topic proportions word parameter α θ d Z d,n W d,n β k η N D K N Ÿ p ( θ , z , w | α , β ) = p ( θ | α ) p ( z n | θ ) p ( w n | β z n ) n =1

  14. Processus ¡de ¡génération ¡ 1. Choisir θ ∼ Dirichlet ( α ) . 2. Pour chaque mot w n : • Choisir un topic z n ∼ Multinomial ( θ ) • Choisir un mot w n ∼ Multinomial ( β k ) , avec k = z n .

  15. Dirichlet? ¡ p ( θ | α ) = Γ ( q k i =1 α i ) θ α 1 − 1 · · · θ α k − 1 1 k r k i =1 Γ ( α i ) Γ ( ) la fonction Gamma. Cette distribution que ∀ i, θ i ≥ 0 et q k i =1 θ i = 1 (

  16. α ¡= ¡10 ¡ 1 2 3 4 5 1.0 0.8 0.6 0.4 ● 0.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.0 6 7 8 9 10 1.0 0.8 0.6 value 0.4 0.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.0 11 12 13 14 15 1.0 0.8 0.6 0.4 0.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.0 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 item

  17. α ¡= ¡0.1 ¡ 1 2 3 4 5 1.0 ● ● 0.8 ● ● 0.6 ● 0.4 ● 0.2 ● ● ● ● ● ● ● ● ● ● 0.0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 6 7 8 9 10 1.0 0.8 ● ● 0.6 value ● 0.4 ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● ● 0.0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 11 12 13 14 15 1.0 ● ● 0.8 ● 0.6 ● 0.4 ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● ● ● 0.0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 item

  18. Inférence ¡

  19. Inférence ¡ Topic proportions and Topics Documents assignments

  20. Inférence ¡ Per-word Proportions topic assignment parameter Per-document Topic Observed Topics topic proportions parameter word θ d α Z d,n W d,n β k η N D K

  21. Inférence ¡ • Es5mer ¡la ¡loi ¡ à ¡posteriori ¡des ¡variables ¡cachées ¡connaissant ¡ les ¡données ¡ p ( ◊ , z | w , – , — ) = p ( ◊ , z , w | – , — ) p ( w | – , — ) resement très di ffi cile à calculer, comme • Inenvisageable ¡en ¡pra5que ¡

  22. Inférence ¡approchée ¡ • Markov ¡Chain ¡Monte ¡Carlo ¡ • Es5mer ¡la ¡distribu5on ¡par ¡échan5llonnage ¡ • Collapsed ¡Gibbs ¡sampling ¡ • Varia0onal ¡inference ¡ • Es5mer ¡la ¡distribu5on ¡par ¡une ¡op5misa5on ¡

  23. Exemple ¡ • 17000 ¡documents ¡du ¡magazine ¡ Science ¡(1990-­‑2000) ¡ • 11 ¡millions ¡de ¡mots ¡ • 20000 ¡termes ¡uniques ¡ • LDA ¡avec ¡100 ¡topics ¡(inférence ¡varia5onnelle) ¡

  24. Exemple ¡ 0.4 0.3 Probability 0.2 0.1 0.0 1 8 16 26 36 46 56 66 76 86 96 Topics

  25. Exemple ¡ human evolution disease computer genome evolutionary host models dna species bacteria information genetic organisms diseases data genes life resistance computers sequence origin bacterial system gene biology new network molecular groups strains systems sequencing phylogenetic control model map living infectious parallel information diversity malaria methods genetics group parasite networks mapping new parasites software project two united new sequences common tuberculosis simulations

  26. Exemple ¡ problem model selection species problems rate male forest mathematical constant males ecology number distribution females fish new time sex ecological mathematics number species conservation university size female diversity two values evolution population first value populations natural numbers average population ecosystems work rates sexual populations time data behavior endangered mathematicians density evolutionary tropical chaos measured genetic forests chaotic models reproductive ecosystem

  27. Exemple ¡

  28. Bibliographie ¡ • David ¡M. ¡Blei, ¡Andrew ¡Y. ¡Ng, ¡and ¡Michael ¡I. ¡Jordan. ¡Latent ¡ dirichlet ¡alloca5on. ¡ Journal ¡of ¡Machine ¡Learning ¡Research, ¡ 3:993–1022, ¡2003. ¡ ¡ • David ¡M. ¡Blei. ¡Introduc5on ¡to ¡probabilis5c ¡topic ¡models. ¡In ¡ Communica'ons ¡of ¡the ¡ACM, ¡ à ¡paraître. ¡ ¡ • David ¡M. ¡Blei. ¡Probabilis5c ¡Topic ¡Models. ¡KDD ¡2011 ¡tutorial. ¡

Recommend


More recommend