Deep ¡Learning ¡ Russ ¡Salakhutdinov ¡ Associate Professor � Machine Learning Department � Carnegie Mellon University � Canadian Institute of Advanced Research �
Mining ¡for ¡Structure ¡ Massive ¡increase ¡in ¡both ¡computa:onal ¡power ¡and ¡the ¡amount ¡of ¡ data ¡available ¡from ¡web, ¡video ¡cameras, ¡laboratory ¡measurements. ¡ Images ¡& ¡Video ¡ Text ¡& ¡Language ¡ ¡ Speech ¡& ¡Audio ¡ Gene ¡Expression ¡ Rela:onal ¡Data/ ¡ ¡ Product ¡ ¡ fMRI ¡ Tumor ¡region ¡ Social ¡Network ¡ Recommenda:on ¡ • ¡Develop ¡sta:s:cal ¡models ¡that ¡can ¡discover ¡underlying ¡structure, ¡cause, ¡or ¡ sta:s:cal ¡correla:on ¡from ¡data ¡in ¡ unsupervised ¡ or ¡ semi-‑supervised ¡ way. ¡ ¡ • ¡Mul:ple ¡applica:on ¡domains. ¡
Mining ¡for ¡Structure ¡ Massive ¡increase ¡in ¡both ¡computa:onal ¡power ¡and ¡the ¡amount ¡of ¡ data ¡available ¡from ¡web, ¡video ¡cameras, ¡laboratory ¡measurements. ¡ Images ¡& ¡Video ¡ Text ¡& ¡Language ¡ ¡ Speech ¡& ¡Audio ¡ Gene ¡Expression ¡ Deep ¡Learning ¡ Rela:onal ¡Data/ ¡ ¡ Product ¡ ¡ fMRI ¡ Tumor ¡region ¡ Social ¡Network ¡ Recommenda:on ¡ • ¡Develop ¡sta:s:cal ¡models ¡that ¡can ¡discover ¡underlying ¡structure, ¡cause, ¡or ¡ sta:s:cal ¡correla:on ¡from ¡data ¡in ¡ unsupervised ¡ or ¡ semi-‑supervised ¡ way. ¡ ¡ • ¡Mul:ple ¡applica:on ¡domains. ¡
Impact ¡of ¡Deep ¡Learning ¡ • ¡Speech ¡Recogni:on ¡ • ¡Computer ¡Vision ¡ • ¡Recommender ¡Systems ¡ ¡ • ¡Language ¡Understanding ¡ ¡ • ¡Drug ¡Discovery ¡and ¡Medical ¡ Image ¡Analysis ¡ ¡
Building ¡Ar:ficial ¡Intelligence ¡ Develop ¡computer ¡algorithms ¡that ¡can: ¡ - ¡See ¡and ¡recognize ¡objects ¡around ¡us ¡ - ¡Perceive ¡human ¡speech ¡ ¡ - ¡Understand ¡natural ¡language ¡ ¡ ¡ - ¡Navigate ¡around ¡autonomously ¡ ¡ - ¡Display ¡human ¡like ¡Intelligence ¡ ¡ Personal ¡assistants, ¡self-‑driving ¡cars, ¡etc. ¡ ¡ ¡
Example: ¡Understanding ¡Images ¡ TAGS: ¡ strangers, ¡ ¡coworkers, ¡ ¡conven:oneers, ¡ ¡ aSendants, ¡ ¡patrons ¡ Nearest ¡Neighbor ¡Sentence: ¡ people ¡taking ¡pictures ¡of ¡a ¡crazy ¡person ¡ Model ¡Samples ¡ • ¡a ¡group ¡of ¡people ¡in ¡a ¡crowded ¡area ¡. ¡ • ¡a ¡group ¡of ¡people ¡are ¡walking ¡and ¡talking ¡. ¡ • ¡a ¡group ¡of ¡people, ¡standing ¡around ¡and ¡talking ¡. ¡
Speech ¡Recogni:on ¡ ¡
Deep ¡Learning ¡for ¡Neuroimaging ¡ Plis et.al. , Frontiers in Neuroscience, 2014 ¡
Talk ¡Roadmap ¡ • Introduc:on ¡ ¡ • Mul:-‑Modal ¡Learning ¡ ¡ • Open ¡Problems ¡
Learning ¡Feature ¡Representa:ons ¡ Handle ¡ Feature Learning Representation Algorithm Wheel ¡ Segway ¡ Non-‑Segway ¡ Input ¡Space ¡ Feature ¡Space ¡ pixel ¡1 ¡ Wheel ¡ pixel ¡2 ¡ Handle ¡
Tradi:onal ¡Approaches ¡ Feature Learning Data extraction algorithm Object ¡ detec:on ¡ Image ¡ vision ¡features ¡ Recogni:on ¡ Audio ¡ classifica:on ¡ Speaker ¡ Audio ¡ audio ¡features ¡ iden:fica:on ¡
Computer ¡Vision ¡Features ¡ Spin ¡image ¡ SIFT ¡ HoG ¡ RIFT ¡ GLOH ¡ Textons ¡
Computer ¡Vision ¡Features ¡ Spin ¡image ¡ SIFT ¡ Deep ¡Learning ¡ HoG ¡ RIFT ¡ GLOH ¡ Textons ¡
Audio ¡Features ¡ Spectrogram ¡ MFCC ¡ Flux ¡ ZCR ¡ Rolloff ¡
Audio ¡Features ¡ Deep ¡Learning ¡ Spectrogram ¡ MFCC ¡ Flux ¡ ZCR ¡ Rolloff ¡
Restricted ¡Boltzmann ¡Machines ¡ Pair-‑wise ¡ Unary ¡ ¡ ¡hidden ¡variables ¡ Graphical ¡Models: ¡ Powerful ¡ Feature ¡Detectors ¡ framework ¡for ¡represen:ng ¡ dependency ¡structure ¡between ¡ random ¡variables. ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ RBM ¡is ¡a ¡Markov ¡Random ¡Field ¡with: ¡ • ¡Stochas:c ¡binary ¡visible ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Stochas:c ¡binary ¡hidden ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Bipar:te ¡connec:ons. ¡ Markov ¡random ¡fields, ¡Boltzmann ¡machines, ¡log-‑linear ¡models. ¡ ¡
Learning ¡Features ¡ Observed ¡ ¡Data ¡ ¡ Learned ¡W: ¡ ¡“edges” ¡ Subset ¡of ¡1000 ¡features ¡ Subset ¡of ¡25,000 ¡characters ¡ Sparse ¡ New ¡Image: ¡ representa=ons ¡ …. ¡ = ¡ Logis:c ¡Func:on: ¡Suitable ¡for ¡ modeling ¡binary ¡images ¡
RBMs ¡for ¡Real-‑valued ¡Data ¡ Learned ¡features ¡(out ¡of ¡10,000) ¡ 4 ¡million ¡ unlabelled ¡ images ¡ = 0.9 * + 0.8 * + 0.6 * … New ¡Image ¡ Learned ¡features: ¡``topics’’ ¡ stock ¡ russian ¡ clinton ¡ computer ¡ trade ¡ Reuters ¡dataset: ¡ wall ¡ russia ¡ house ¡ system ¡ country ¡ 804,414 ¡ unlabeled ¡ street ¡ moscow ¡ president ¡ product ¡ import ¡ point ¡ newswire ¡ stories ¡ yeltsin ¡ bill ¡ sogware ¡ world ¡ dow ¡ soviet ¡ congress ¡ develop ¡ economy ¡ Bag-‑of-‑Words ¡ ¡
Deep ¡Boltzmann ¡Machines ¡ Low-‑level ¡features: ¡ Edges ¡ Built ¡from ¡ unlabeled ¡ inputs. ¡ ¡ Input: ¡Pixels ¡ Image ¡ (Salakhutdinov 2008, Salakhutdinov & Hinton 2012) �
Deep ¡Boltzmann ¡Machines ¡ Learn ¡simpler ¡representa:ons, ¡ then ¡compose ¡more ¡complex ¡ones ¡ Higher-‑level ¡features: ¡ Combina:on ¡of ¡edges ¡ Low-‑level ¡features: ¡ Edges ¡ Built ¡from ¡ unlabeled ¡ inputs. ¡ ¡ Input: ¡Pixels ¡ Image ¡ (Salakhutdinov 2008, Salakhutdinov & Hinton 2012) �
Good ¡Genera:ve ¡Model? ¡ HandwriSen ¡Characters ¡
Good ¡Genera:ve ¡Model? ¡ HandwriSen ¡Characters ¡
Good ¡Genera:ve ¡Model? ¡ HandwriSen ¡Characters ¡ Simulated ¡ Real ¡Data ¡
Good ¡Genera:ve ¡Model? ¡ HandwriSen ¡Characters ¡ Real ¡Data ¡ Simulated ¡
Good ¡Genera:ve ¡Model? ¡ HandwriSen ¡Characters ¡
Talk ¡Roadmap ¡ • Introduc:on ¡ ¡ • Mul:-‑Modal ¡Learning ¡ ¡ • Open ¡Problems ¡
Data ¡– ¡Collec:on ¡of ¡Modali:es ¡ • ¡Mul:media ¡content ¡on ¡the ¡web ¡-‑ ¡ image ¡+ ¡text ¡+ ¡audio. ¡ • ¡Product ¡recommenda:on ¡ systems. ¡ car, ¡ automobile ¡ • ¡Robo:cs ¡applica:ons. ¡ sunset, ¡ pacificocean, ¡ Motor ¡control ¡ bakerbeach, ¡ Touch ¡sensors ¡ seashore, ¡ocean ¡ Vision ¡ Audio ¡
Shared ¡Concept ¡ “Modality-‑free” ¡representa:on ¡ ¡ “Concept” ¡ sunset, ¡pacific ¡ocean, ¡ baker ¡beach, ¡seashore, ¡ ocean ¡ “Modality-‑full” ¡representa:on ¡ ¡
Tagging ¡and ¡Retrieval ¡ mosque, ¡tower, ¡ ski, ¡skiing, ¡ building, ¡cathedral, ¡ skiers, ¡skiiers, ¡ dome, ¡castle ¡ snowmobile ¡ bowl, ¡cup, ¡ soup, ¡cups, ¡ kitchen, ¡stove, ¡oven, ¡ coffee ¡ refrigerator, ¡ microwave ¡ beach ¡ snow ¡
Mul:modal ¡Linguis:c ¡Regulari:es ¡ Nearest Images � (Kiros, Salakhutdinov, Zemel, TACL 2015) ¡
Cap:on ¡Genera:on ¡
Cap:on ¡Genera:on ¡
Recommend
More recommend