Latent ¡Dirichlet ¡ Allocation ¡ Alberto ¡Bie+ ¡
Trop ¡d’information ¡
Topic ¡modeling ¡ • Découvrir ¡la ¡structure ¡théma5que ¡cachée ¡dans ¡chaque ¡ document ¡d’une ¡archive ¡ • Permet: ¡ • Organisa5on ¡automa5que ¡des ¡documents ¡par ¡thème ¡ • Compréhension ¡d’un ¡document ¡ • Recherche ¡ • Résumé ¡
Découvrir ¡les ¡thèmes ¡d’un ¡corpus ¡ de ¡documents ¡ human evolution disease computer genome evolutionary host models dna species bacteria information genetic organisms diseases data genes life resistance computers sequence origin bacterial system gene biology new network molecular groups strains systems sequencing phylogenetic control model map living infectious parallel information diversity malaria methods genetics group parasite networks mapping new parasites software project two united new sequences common tuberculosis simulations
Annotation ¡d’images ¡ SCOTLAND WATER SKY WATER TREE SKY WATER BUILDING FLOWER HILLS TREE MOUNTAIN PEOPLE PEOPLE WATER FISH WATER OCEAN PEOPLE MARKET PATTERN BIRDS NEST TREE TREE CORAL TEXTILE DISPLAY BRANCH LEAVES
Exploration ¡de ¡thèmes ¡
Mais ¡aussi… ¡ • Trouver ¡des ¡rela5ons ¡entre ¡les ¡thèmes ¡ • Hiérarchies ¡de ¡thèmes ¡ • Evolu5on ¡des ¡thèmes ¡au ¡cours ¡du ¡temps ¡ • Prédic5on ¡de ¡liens ¡entre ¡ar5cles ¡ • Collabora've ¡filtering ¡(ex: ¡recommanda5on ¡de ¡films) ¡
Latent ¡Dirichlet ¡Allocation ¡(LDA) ¡ • Modèle ¡probabiliste ¡généra5f ¡d’un ¡corpus ¡de ¡documents ¡ • Modèle ¡Bayésien ¡hiérarchique ¡à ¡ ¡3 ¡niveaux ¡ • Pour ¡chaque ¡document: ¡ • On ¡choisit ¡un ¡mélange ¡de ¡thèmes ¡( topic ¡mixture ) ¡ • Pour ¡chaque ¡mot, ¡on ¡choisit ¡un ¡thème ¡dans ¡ce ¡mélange ¡ • Et ¡on ¡choisit ¡un ¡mot ¡depuis ¡ce ¡thème ¡ • Appren5ssage ¡de ¡ces ¡caractéris5ques ¡par ¡inférence ¡
Modèle ¡
Modèles ¡graphiques ¡
Modèles ¡graphiques ¡ w N M (a) unigram z w N M (b) mixture of unigrams
Modèle ¡graphique ¡LDA ¡ Per-word Proportions topic assignment parameter Per-document Topic Observed Topics topic proportions parameter word α θ d Z d,n W d,n β k η N D K
Modèle ¡graphique ¡LDA ¡ Per-word Proportions topic assignment parameter Per-document Observed Topic Topics topic proportions word parameter α θ d Z d,n W d,n β k η N D K N Ÿ p ( θ , z , w | α , β ) = p ( θ | α ) p ( z n | θ ) p ( w n | β z n ) n =1
Processus ¡de ¡génération ¡ 1. Choisir θ ∼ Dirichlet ( α ) . 2. Pour chaque mot w n : • Choisir un topic z n ∼ Multinomial ( θ ) • Choisir un mot w n ∼ Multinomial ( β k ) , avec k = z n .
Dirichlet? ¡ p ( θ | α ) = Γ ( q k i =1 α i ) θ α 1 − 1 · · · θ α k − 1 1 k r k i =1 Γ ( α i ) Γ ( ) la fonction Gamma. Cette distribution que ∀ i, θ i ≥ 0 et q k i =1 θ i = 1 (
α ¡= ¡10 ¡ 1 2 3 4 5 1.0 0.8 0.6 0.4 ● 0.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.0 6 7 8 9 10 1.0 0.8 0.6 value 0.4 0.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.0 11 12 13 14 15 1.0 0.8 0.6 0.4 0.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.0 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 item
α ¡= ¡0.1 ¡ 1 2 3 4 5 1.0 ● ● 0.8 ● ● 0.6 ● 0.4 ● 0.2 ● ● ● ● ● ● ● ● ● ● 0.0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 6 7 8 9 10 1.0 0.8 ● ● 0.6 value ● 0.4 ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● ● 0.0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 11 12 13 14 15 1.0 ● ● 0.8 ● 0.6 ● 0.4 ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● ● ● 0.0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 item
Inférence ¡
Inférence ¡ Topic proportions and Topics Documents assignments
Inférence ¡ Per-word Proportions topic assignment parameter Per-document Topic Observed Topics topic proportions parameter word θ d α Z d,n W d,n β k η N D K
Inférence ¡ • Es5mer ¡la ¡loi ¡ à ¡posteriori ¡des ¡variables ¡cachées ¡connaissant ¡ les ¡données ¡ p ( ◊ , z | w , – , — ) = p ( ◊ , z , w | – , — ) p ( w | – , — ) resement très di ffi cile à calculer, comme • Inenvisageable ¡en ¡pra5que ¡
Inférence ¡approchée ¡ • Markov ¡Chain ¡Monte ¡Carlo ¡ • Es5mer ¡la ¡distribu5on ¡par ¡échan5llonnage ¡ • Collapsed ¡Gibbs ¡sampling ¡ • Varia0onal ¡inference ¡ • Es5mer ¡la ¡distribu5on ¡par ¡une ¡op5misa5on ¡
Exemple ¡ • 17000 ¡documents ¡du ¡magazine ¡ Science ¡(1990-‑2000) ¡ • 11 ¡millions ¡de ¡mots ¡ • 20000 ¡termes ¡uniques ¡ • LDA ¡avec ¡100 ¡topics ¡(inférence ¡varia5onnelle) ¡
Exemple ¡ 0.4 0.3 Probability 0.2 0.1 0.0 1 8 16 26 36 46 56 66 76 86 96 Topics
Exemple ¡ human evolution disease computer genome evolutionary host models dna species bacteria information genetic organisms diseases data genes life resistance computers sequence origin bacterial system gene biology new network molecular groups strains systems sequencing phylogenetic control model map living infectious parallel information diversity malaria methods genetics group parasite networks mapping new parasites software project two united new sequences common tuberculosis simulations
Exemple ¡ problem model selection species problems rate male forest mathematical constant males ecology number distribution females fish new time sex ecological mathematics number species conservation university size female diversity two values evolution population first value populations natural numbers average population ecosystems work rates sexual populations time data behavior endangered mathematicians density evolutionary tropical chaos measured genetic forests chaotic models reproductive ecosystem
Exemple ¡
Bibliographie ¡ • David ¡M. ¡Blei, ¡Andrew ¡Y. ¡Ng, ¡and ¡Michael ¡I. ¡Jordan. ¡Latent ¡ dirichlet ¡alloca5on. ¡ Journal ¡of ¡Machine ¡Learning ¡Research, ¡ 3:993–1022, ¡2003. ¡ ¡ • David ¡M. ¡Blei. ¡Introduc5on ¡to ¡probabilis5c ¡topic ¡models. ¡In ¡ Communica'ons ¡of ¡the ¡ACM, ¡ à ¡paraître. ¡ ¡ • David ¡M. ¡Blei. ¡Probabilis5c ¡Topic ¡Models. ¡KDD ¡2011 ¡tutorial. ¡
Recommend
More recommend