Learning ¡Mul,modal ¡Deep ¡Models ¡ Russ ¡Salakhutdinov ¡ Department of Computer Science � Department of Statistics � University of Toronto � Canadian Institute for Advanced Research ¡
Mining ¡for ¡Structure ¡ Massive ¡increase ¡in ¡both ¡computa,onal ¡power ¡and ¡the ¡amount ¡of ¡ data ¡available ¡from ¡web, ¡video ¡cameras, ¡laboratory ¡measurements. ¡ Images ¡& ¡Video ¡ Text ¡& ¡Language ¡ ¡ Speech ¡& ¡Audio ¡ Gene ¡Expression ¡ Rela,onal ¡Data/ ¡ ¡ Climate ¡Change ¡ Product ¡ ¡ Social ¡Network ¡ Geological ¡Data ¡ Recommenda,on ¡ • ¡Develop ¡sta,s,cal ¡models ¡that ¡can ¡discover ¡underlying ¡structure, ¡cause, ¡or ¡ sta,s,cal ¡correla,on ¡from ¡data ¡in ¡ unsupervised ¡ or ¡ semi-‑supervised ¡ way. ¡ ¡ • ¡Mul,ple ¡applica,on ¡domains. ¡
Mining ¡for ¡Structure ¡ Massive ¡increase ¡in ¡both ¡computa,onal ¡power ¡and ¡the ¡amount ¡of ¡ data ¡available ¡from ¡web, ¡video ¡cameras, ¡laboratory ¡measurements. ¡ Images ¡& ¡Video ¡ Text ¡& ¡Language ¡ ¡ Speech ¡& ¡Audio ¡ Gene ¡Expression ¡ Deep ¡Learning ¡ Rela,onal ¡Data/ ¡ ¡ Climate ¡Change ¡ Product ¡ ¡ Social ¡Network ¡ Geological ¡Data ¡ Recommenda,on ¡ • ¡Develop ¡sta,s,cal ¡models ¡that ¡can ¡discover ¡underlying ¡structure, ¡cause, ¡or ¡ sta,s,cal ¡correla,on ¡from ¡data ¡in ¡ unsupervised ¡ or ¡ semi-‑supervised ¡ way. ¡ ¡ • ¡Mul,ple ¡applica,on ¡domains. ¡
Example: ¡Understanding ¡Images ¡ TAGS: ¡ strangers, ¡ ¡coworkers, ¡ ¡conven,oneers, ¡ ¡ aNendants, ¡ ¡patrons ¡ Nearest ¡Neighbor ¡Sentence: ¡ people ¡taking ¡pictures ¡of ¡a ¡crazy ¡person ¡ Model ¡Samples ¡ • ¡a ¡group ¡of ¡people ¡in ¡a ¡crowded ¡area ¡. ¡ • ¡a ¡group ¡of ¡people ¡are ¡walking ¡and ¡talking ¡. ¡ • ¡a ¡group ¡of ¡people, ¡standing ¡around ¡and ¡talking ¡. ¡ • ¡a ¡group ¡of ¡people ¡that ¡are ¡in ¡the ¡outside ¡. ¡ ¡
Cap,on ¡Genera,on ¡with ¡ ¡ Visual ¡ANen,on ¡ ¡ A ¡man ¡riding ¡ ¡a ¡horse ¡ in ¡a ¡field. ¡ ¡ Xu ¡et.al., ¡ICML ¡2015 ¡
Cap,on ¡Genera,on ¡with ¡ ¡ Visual ¡ANen,on ¡ ¡ A ¡man ¡riding ¡ ¡a ¡horse ¡ in ¡a ¡field. ¡ ¡ Xu ¡et.al., ¡ICML ¡2015 ¡
Talk ¡Roadmap ¡ • Learning ¡Deep ¡Models ¡ – Restricted ¡Boltzmann ¡Machines ¡ ¡ – Deep ¡Boltzmann ¡Machines ¡ • Mul,-‑Modal ¡Learning ¡
Restricted ¡Boltzmann ¡Machines ¡ Pair-‑wise ¡ Unary ¡ ¡ ¡hidden ¡variables ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ RBM ¡is ¡a ¡Markov ¡Random ¡Field ¡with: ¡ • ¡Stochas,c ¡binary ¡visible ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Stochas,c ¡binary ¡hidden ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Bipar,te ¡connec,ons. ¡ Markov ¡random ¡fields, ¡Boltzmann ¡machines, ¡log-‑linear ¡models. ¡ ¡
Learning ¡Features ¡ Observed ¡ ¡Data ¡ ¡ Learned ¡W: ¡ ¡“edges” ¡ Subset ¡of ¡1000 ¡features ¡ Subset ¡of ¡25,000 ¡characters ¡ Sparse ¡ New ¡Image: ¡ representa4ons ¡ …. ¡ = ¡ Logis,c ¡Func,on: ¡Suitable ¡for ¡ modeling ¡binary ¡images ¡
Model ¡Learning ¡ ¡ ¡Hidden ¡units ¡ Given ¡a ¡set ¡of ¡ i.i.d. ¡training ¡examples ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡we ¡want ¡to ¡learn ¡ ¡ model ¡parameters ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡ ¡ ¡ Maximize ¡log-‑likelihood ¡objec,ve: ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡units ¡ Deriva,ve ¡of ¡the ¡log-‑likelihood: ¡ Difficult ¡to ¡compute: ¡exponen,ally ¡many ¡ ¡ configura,ons ¡
RBMs ¡for ¡Real-‑valued ¡Data ¡ Unary ¡ Pair-‑wise ¡ ¡ ¡hidden ¡variables ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ Learned ¡features ¡(out ¡of ¡10,000) ¡ 4 ¡million ¡ unlabelled ¡ images ¡
RBMs ¡for ¡Real-‑valued ¡Data ¡ Learned ¡features ¡(out ¡of ¡10,000) ¡ 4 ¡million ¡ unlabelled ¡ images ¡ = 0.9 * + 0.8 * + 0.6 * … New ¡Image ¡
RBMs ¡for ¡Word ¡Counts ¡ Unary ¡ Pair-‑wise ¡ 0 1 D K F D K F 1 X X X X X X W k ij v k v k i b k P θ ( v , h ) = Z ( θ ) exp i h j + i + h j a j 0 ¡ @ A i =1 k =1 j =1 i =1 k =1 j =1 0 ¡ 0 ¡ 1 ¡ ⇣ ⌘ i + P F b k j =1 h j W k exp ij 0 ¡ P θ ( v k i = 1 | h ) = ⇣ ⌘ P K i + P F b q j =1 h j W q q =1 exp ij Replicated ¡Soemax ¡Model: ¡undirected ¡topic ¡model: ¡ • ¡Stochas,c ¡1-‑of-‑K ¡visible ¡variables. ¡ • ¡Stochas,c ¡binary ¡hidden ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Bipar,te ¡connec,ons. ¡ (Salakhutdinov & Hinton, NIPS 2010, Srivastava & Salakhutdinov, NIPS 2012) �
RBMs ¡for ¡Word ¡Counts ¡ Unary ¡ Pair-‑wise ¡ 0 1 D K F D K F 1 X X X X X X W k ij v k v k i b k P θ ( v , h ) = Z ( θ ) exp i h j + i + h j a j 0 ¡ @ A i =1 k =1 j =1 i =1 k =1 j =1 0 ¡ 0 ¡ 1 ¡ ⇣ ⌘ i + P F b k j =1 h j W k exp ij 0 ¡ P θ ( v k i = 1 | h ) = ⇣ ⌘ P K i + P F b q j =1 h j W q q =1 exp ij Learned ¡features: ¡``topics’’ ¡ stock ¡ russian ¡ clinton ¡ computer ¡ trade ¡ Reuters ¡dataset: ¡ wall ¡ russia ¡ house ¡ system ¡ country ¡ 804,414 ¡ unlabeled ¡ street ¡ moscow ¡ president ¡ product ¡ import ¡ point ¡ newswire ¡ stories ¡ yeltsin ¡ bill ¡ soeware ¡ world ¡ dow ¡ soviet ¡ congress ¡ develop ¡ economy ¡ Bag-‑of-‑Words ¡ ¡
Different ¡Data ¡Modali,es ¡ • ¡Binary/Gaussian/Soemax ¡RBMs: ¡All ¡have ¡binary ¡hidden ¡ variables ¡but ¡use ¡them ¡to ¡model ¡different ¡kinds ¡of ¡data. ¡ Binary ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 0 ¡ 1-‑of-‑K ¡ Real-‑valued ¡ • ¡It ¡is ¡easy ¡to ¡infer ¡the ¡states ¡of ¡the ¡hidden ¡variables: ¡ ¡
Product ¡of ¡Experts ¡ The ¡joint ¡distribu,on ¡is ¡given ¡by: ¡ Product ¡of ¡Experts ¡ Marginalizing ¡over ¡hidden ¡variables: ¡ stock ¡ … ¡ government ¡ clinton ¡ bribery ¡ oil ¡ wall ¡ auhority ¡ house ¡ corrup,on ¡ barrel ¡ street ¡ power ¡ president ¡ dishonesty ¡ exxon ¡ point ¡ empire ¡ bill ¡ pu,n ¡ pu,n ¡ dow ¡ pu,n ¡ congress ¡ fraud ¡ drill ¡ Topics ¡“government”, ¡”corrup,on” ¡ and ¡”oil” ¡can ¡combine ¡to ¡give ¡very ¡high ¡ probability ¡to ¡a ¡word ¡“Pu,n”. ¡ Pu,n ¡ (Srivastava & Salakhutdinov, NIPS 2012) �
Product ¡of ¡Experts ¡ The ¡joint ¡distribu,on ¡is ¡given ¡by: ¡ Product ¡of ¡Experts ¡ Marginalizing ¡over ¡hidden ¡variables: ¡ Reuters ¡dataset ¡ ¡ 50 Replicated Softmax 50 − D 40 Precision (%) stock ¡ … ¡ government ¡ clinton ¡ bribery ¡ oil ¡ wall ¡ auhority ¡ house ¡ corrup,on ¡ barrel ¡ 30 street ¡ power ¡ president ¡ dishonesty ¡ exxon ¡ LDA 50 − D point ¡ empire ¡ bill ¡ pu,n ¡ pu,n ¡ 20 dow ¡ pu,n ¡ congress ¡ fraud ¡ drill ¡ 10 Topics ¡“government”, ¡”corrup,on” ¡ and ¡”oil” ¡can ¡combine ¡to ¡give ¡very ¡high ¡ 0.001 0.006 0.051 0.4 1.6 6.4 25.6 100 probability ¡to ¡a ¡word ¡“Pu,n”. ¡ Recall (%) Pu,n ¡ (Srivastava & Salakhutdinov, NIPS 2012) �
Deep ¡Boltzmann ¡Machines ¡ Low-‑level ¡features: ¡ Edges ¡ Built ¡from ¡ unlabeled ¡ inputs. ¡ ¡ Input: ¡Pixels ¡ Image ¡ (Salakhutdinov & Hinton, Neural Computation 2012) �
Deep ¡Boltzmann ¡Machines ¡ Learn ¡simpler ¡representa,ons, ¡ then ¡compose ¡more ¡complex ¡ones ¡ Higher-‑level ¡features: ¡ Combina,on ¡of ¡edges ¡ Low-‑level ¡features: ¡ Edges ¡ Built ¡from ¡ unlabeled ¡ inputs. ¡ ¡ Input: ¡Pixels ¡ Image ¡ (Salakhutdinov 2008, Salakhutdinov & Hinton 2012) �
Recommend
More recommend