  1. Deep ¡Learning ¡ Russ ¡Salakhutdinov ¡ Associate Professor � Machine Learning Department � Carnegie Mellon University � Canadian Institute of Advanced Research �

  2. Mining ¡for ¡Structure ¡ Massive ¡increase ¡in ¡both ¡computa:onal ¡power ¡and ¡the ¡amount ¡of ¡ data ¡available ¡from ¡web, ¡video ¡cameras, ¡laboratory ¡measurements. ¡ Images ¡& ¡Video ¡ Text ¡& ¡Language ¡ ¡ Speech ¡& ¡Audio ¡ Gene ¡Expression ¡ Rela:onal ¡Data/ ¡ ¡ Product ¡ ¡ fMRI ¡ Tumor ¡region ¡ Social ¡Network ¡ Recommenda:on ¡ • ¡Develop ¡sta:s:cal ¡models ¡that ¡can ¡discover ¡underlying ¡structure, ¡cause, ¡or ¡ sta:s:cal ¡correla:on ¡from ¡data ¡in ¡ unsupervised ¡ or ¡ semi-­‑supervised ¡ way. ¡ ¡ • ¡Mul:ple ¡applica:on ¡domains. ¡

  3. Mining ¡for ¡Structure ¡ Massive ¡increase ¡in ¡both ¡computa:onal ¡power ¡and ¡the ¡amount ¡of ¡ data ¡available ¡from ¡web, ¡video ¡cameras, ¡laboratory ¡measurements. ¡ Images ¡& ¡Video ¡ Text ¡& ¡Language ¡ ¡ Speech ¡& ¡Audio ¡ Gene ¡Expression ¡ Deep ¡Learning ¡ Rela:onal ¡Data/ ¡ ¡ Product ¡ ¡ fMRI ¡ Tumor ¡region ¡ Social ¡Network ¡ Recommenda:on ¡ • ¡Develop ¡sta:s:cal ¡models ¡that ¡can ¡discover ¡underlying ¡structure, ¡cause, ¡or ¡ sta:s:cal ¡correla:on ¡from ¡data ¡in ¡ unsupervised ¡ or ¡ semi-­‑supervised ¡ way. ¡ ¡ • ¡Mul:ple ¡applica:on ¡domains. ¡

  4. Impact ¡of ¡Deep ¡Learning ¡ • ¡Speech ¡Recogni:on ¡ • ¡Computer ¡Vision ¡ • ¡Recommender ¡Systems ¡ ¡ • ¡Language ¡Understanding ¡ ¡ • ¡Drug ¡Discovery ¡and ¡Medical ¡ Image ¡Analysis ¡ ¡

  5. Building ¡Ar:ficial ¡Intelligence ¡ Develop ¡computer ¡algorithms ¡that ¡can: ¡ - ¡See ¡and ¡recognize ¡objects ¡around ¡us ¡ - ¡Perceive ¡human ¡speech ¡ ¡ - ¡Understand ¡natural ¡language ¡ ¡ ¡ - ¡Navigate ¡around ¡autonomously ¡ ¡ - ¡Display ¡human ¡like ¡Intelligence ¡ ¡ Personal ¡assistants, ¡self-­‑driving ¡cars, ¡etc. ¡ ¡ ¡

  6. Example: ¡Understanding ¡Images ¡ TAGS: ¡ strangers, ¡ ¡coworkers, ¡ ¡conven:oneers, ¡ ¡ aSendants, ¡ ¡patrons ¡ Nearest ¡Neighbor ¡Sentence: ¡ people ¡taking ¡pictures ¡of ¡a ¡crazy ¡person ¡ Model ¡Samples ¡ • ¡a ¡group ¡of ¡people ¡in ¡a ¡crowded ¡area ¡. ¡ • ¡a ¡group ¡of ¡people ¡are ¡walking ¡and ¡talking ¡. ¡ • ¡a ¡group ¡of ¡people, ¡standing ¡around ¡and ¡talking ¡. ¡

  7. Speech ¡Recogni:on ¡ ¡

  8. Deep ¡Learning ¡for ¡Neuroimaging ¡ Plis , Frontiers in Neuroscience, 2014 ¡

  9. Talk ¡Roadmap ¡ • Introduc:on ¡ ¡ • Mul:-­‑Modal ¡Learning ¡ ¡ • Open ¡Problems ¡

  10. Learning ¡Feature ¡Representa:ons ¡ Handle ¡ Feature Learning Representation Algorithm Wheel ¡ Segway ¡ Non-­‑Segway ¡ Input ¡Space ¡ Feature ¡Space ¡ pixel ¡1 ¡ Wheel ¡ pixel ¡2 ¡ Handle ¡

  11. Tradi:onal ¡Approaches ¡ Feature Learning Data extraction algorithm Object ¡ detec:on ¡ Image ¡ vision ¡features ¡ Recogni:on ¡ Audio ¡ classifica:on ¡ Speaker ¡ Audio ¡ audio ¡features ¡ iden:fica:on ¡

  12. Computer ¡Vision ¡Features ¡ Spin ¡image ¡ SIFT ¡ HoG ¡ RIFT ¡ GLOH ¡ Textons ¡

  13. Computer ¡Vision ¡Features ¡ Spin ¡image ¡ SIFT ¡ Deep ¡Learning ¡ HoG ¡ RIFT ¡ GLOH ¡ Textons ¡

  14. Audio ¡Features ¡ Spectrogram ¡ MFCC ¡ Flux ¡ ZCR ¡ Rolloff ¡

  15. Audio ¡Features ¡ Deep ¡Learning ¡ Spectrogram ¡ MFCC ¡ Flux ¡ ZCR ¡ Rolloff ¡

  16. Restricted ¡Boltzmann ¡Machines ¡ Pair-­‑wise ¡ Unary ¡ ¡ ¡hidden ¡variables ¡ Graphical ¡Models: ¡ Powerful ¡ Feature ¡Detectors ¡ framework ¡for ¡represen:ng ¡ dependency ¡structure ¡between ¡ random ¡variables. ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ RBM ¡is ¡a ¡Markov ¡Random ¡Field ¡with: ¡ • ¡Stochas:c ¡binary ¡visible ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Stochas:c ¡binary ¡hidden ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Bipar:te ¡connec:ons. ¡ Markov ¡random ¡fields, ¡Boltzmann ¡machines, ¡log-­‑linear ¡models. ¡ ¡

  17. Learning ¡Features ¡ Observed ¡ ¡Data ¡ ¡ Learned ¡W: ¡ ¡“edges” ¡ Subset ¡of ¡1000 ¡features ¡ Subset ¡of ¡25,000 ¡characters ¡ Sparse ¡ New ¡Image: ¡ representa=ons ¡ …. ¡ = ¡ Logis:c ¡Func:on: ¡Suitable ¡for ¡ modeling ¡binary ¡images ¡

  18. RBMs ¡for ¡Real-­‑valued ¡Data ¡ Learned ¡features ¡(out ¡of ¡10,000) ¡ 4 ¡million ¡ unlabelled ¡ images ¡ = 0.9 * + 0.8 * + 0.6 * … New ¡Image ¡ Learned ¡features: ¡``topics’’ ¡ stock ¡ russian ¡ clinton ¡ computer ¡ trade ¡ Reuters ¡dataset: ¡ wall ¡ russia ¡ house ¡ system ¡ country ¡ 804,414 ¡ unlabeled ¡ street ¡ moscow ¡ president ¡ product ¡ import ¡ point ¡ newswire ¡ stories ¡ yeltsin ¡ bill ¡ sogware ¡ world ¡ dow ¡ soviet ¡ congress ¡ develop ¡ economy ¡ Bag-­‑of-­‑Words ¡ ¡

  19. Deep ¡Boltzmann ¡Machines ¡ Low-­‑level ¡features: ¡ Edges ¡ Built ¡from ¡ unlabeled ¡ inputs. ¡ ¡ Input: ¡Pixels ¡ Image ¡ (Salakhutdinov 2008, Salakhutdinov & Hinton 2012) �

  20. Deep ¡Boltzmann ¡Machines ¡ Learn ¡simpler ¡representa:ons, ¡ then ¡compose ¡more ¡complex ¡ones ¡ Higher-­‑level ¡features: ¡ Combina:on ¡of ¡edges ¡ Low-­‑level ¡features: ¡ Edges ¡ Built ¡from ¡ unlabeled ¡ inputs. ¡ ¡ Input: ¡Pixels ¡ Image ¡ (Salakhutdinov 2008, Salakhutdinov & Hinton 2012) �

  21. Good ¡Genera:ve ¡Model? ¡ HandwriSen ¡Characters ¡

  22. Good ¡Genera:ve ¡Model? ¡ HandwriSen ¡Characters ¡

  23. Good ¡Genera:ve ¡Model? ¡ HandwriSen ¡Characters ¡ Simulated ¡ Real ¡Data ¡

  24. Good ¡Genera:ve ¡Model? ¡ HandwriSen ¡Characters ¡ Real ¡Data ¡ Simulated ¡

  25. Good ¡Genera:ve ¡Model? ¡ HandwriSen ¡Characters ¡

  26. Talk ¡Roadmap ¡ • Introduc:on ¡ ¡ • Mul:-­‑Modal ¡Learning ¡ ¡ • Open ¡Problems ¡

  27. Data ¡– ¡Collec:on ¡of ¡Modali:es ¡ • ¡Mul:media ¡content ¡on ¡the ¡web ¡-­‑ ¡ image ¡+ ¡text ¡+ ¡audio. ¡ • ¡Product ¡recommenda:on ¡ systems. ¡ car, ¡ automobile ¡ • ¡Robo:cs ¡applica:ons. ¡ sunset, ¡ pacificocean, ¡ Motor ¡control ¡ bakerbeach, ¡ Touch ¡sensors ¡ seashore, ¡ocean ¡ Vision ¡ Audio ¡

  28. Shared ¡Concept ¡ “Modality-­‑free” ¡representa:on ¡ ¡ “Concept” ¡ sunset, ¡pacific ¡ocean, ¡ baker ¡beach, ¡seashore, ¡ ocean ¡ “Modality-­‑full” ¡representa:on ¡ ¡

  29. Tagging ¡and ¡Retrieval ¡ mosque, ¡tower, ¡ ski, ¡skiing, ¡ building, ¡cathedral, ¡ skiers, ¡skiiers, ¡ dome, ¡castle ¡ snowmobile ¡ bowl, ¡cup, ¡ soup, ¡cups, ¡ kitchen, ¡stove, ¡oven, ¡ coffee ¡ refrigerator, ¡ microwave ¡ beach ¡ snow ¡

  30. Mul:modal ¡Linguis:c ¡Regulari:es ¡ Nearest Images � (Kiros, Salakhutdinov, Zemel, TACL 2015) ¡

  31. Cap:on ¡Genera:on ¡

  32. Cap:on ¡Genera:on ¡

