Genera&ve Stochas&c Networks Trainable by Backprop - - PowerPoint PPT Presentation

genera ve stochas c networks
SMART_READER_LITE
LIVE PREVIEW

Genera&ve Stochas&c Networks Trainable by Backprop - - PowerPoint PPT Presentation

Genera&ve Stochas&c Networks Trainable by Backprop Yoshua Bengio with Eric Laufer, Li Yao,


slide-1
SLIDE 1

Genera&ve ¡Stochas&c ¡Networks ¡ Trainable ¡by ¡Backprop ¡

Yoshua ¡Bengio ¡ with ¡Eric ¡Laufer, ¡Li ¡Yao, ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Guillaume ¡Alain ¡& ¡Pascal ¡Vincent ¡ ¡ RepLearn ¡Workshop ¡@ ¡AAAI ¡2013 ¡ July ¡15th ¡2013, ¡Bellevue, ¡WA, ¡USA ¡ ¡ ¡ ¡

slide-2
SLIDE 2
  • Good ¡features ¡essenBal ¡for ¡successful ¡ML ¡
  • HandcraGing ¡features ¡vs ¡learning ¡them ¡
  • Good ¡representaBon: ¡captures ¡posterior ¡belief ¡about ¡

explanatory ¡causes, ¡disentangles ¡these ¡underlying ¡ factors ¡of ¡variaBon ¡

  • RepresentaBon ¡learning: ¡guesses ¡

¡ ¡ ¡ ¡ ¡the ¡features ¡/ ¡factors ¡/ ¡causes ¡= ¡ ¡ ¡ ¡ ¡ ¡ ¡good ¡representaBon ¡of ¡observed ¡data. ¡

Represe sentation Learning

2 ¡

raw ¡ input ¡ data ¡ represented ¡ by ¡chosen ¡ features ¡ MACHINE ¡ LEARNING ¡ ¡ represented ¡ by ¡learned ¡ features ¡

slide-3
SLIDE 3

De Deep Represe

sentation Learni

ning ng

Learn ¡mul&ple ¡levels ¡of ¡representa&on ¡

  • f ¡increasing ¡complexity/abstrac&on ¡

¡

¡

¡

3 ¡

x ¡ h3 ¡ h2 ¡ h1 ¡ … ¡

  • potenBally ¡exponenBal ¡gain ¡in ¡expressive ¡power ¡
  • brains ¡are ¡deep ¡
  • humans ¡organize ¡knowledge ¡in ¡a ¡composiBonal ¡way ¡
  • BeWer ¡MCMC ¡mixing ¡in ¡space ¡of ¡deeper ¡representaBons ¡

¡(Bengio ¡et ¡al, ¡ICML ¡2013) ¡

  • They ¡work! ¡SOTA ¡on ¡industrial-­‑scale ¡AI ¡tasks ¡

(object ¡recogni&on, ¡speech ¡recogni&on, ¡ ¡ language ¡modeling, ¡music ¡modeling) ¡

¡

slide-4
SLIDE 4

Follo Followi

wing ng up p on n (B

(Bengi engio et et al al NIP IPS’2000)

Neural word embeddings s - visu sualization

4 ¡

slide-5
SLIDE 5

Analogical Represe sentations s for Free (Mi Mikolov kolov et al, ICL CLR 2013)

  • SemanBc ¡relaBons ¡appear ¡as ¡linear ¡relaBonships ¡in ¡the ¡space ¡of ¡

learned ¡representaBons ¡

  • King ¡– ¡Queen ¡≈ ¡ ¡Man ¡– ¡Woman ¡
  • Paris ¡– ¡France ¡+ ¡Italy ¡≈ ¡Rome ¡

5 ¡

Paris ¡ France ¡ Italy ¡ Rome ¡

slide-6
SLIDE 6

Co Combining Multiple Sources s of Evidence with Shared Represe sentations s

  • TradiBonal ¡ML: ¡data ¡= ¡matrix ¡
  • RelaBonal ¡learning: ¡mulBple ¡sources, ¡

different ¡tuples ¡of ¡variables ¡

  • Share ¡representaBons ¡of ¡same ¡types ¡

across ¡data ¡sources ¡

  • Shared ¡learned ¡representaBons ¡help ¡

propagate ¡informaBon ¡among ¡data ¡ sources: ¡e.g., ¡WordNet, ¡XWN, ¡ Wikipedia, ¡FreeBase, ¡ImageNet…

(Bordes ¡et ¡al ¡AISTATS ¡2012, ¡ML ¡J. ¡2013) ¡

  • FACTS ¡= ¡DATA ¡
  • Deduc&on ¡= ¡Generaliza&on ¡

6 ¡

person ¡ url ¡ event ¡ url ¡ words ¡ history ¡

person ¡ url ¡ event ¡ P(person,url,event) ¡ url ¡ words ¡ history ¡ P(url,words,history) ¡

slide-7
SLIDE 7

Temporal Co Coherence and Scales s

  • Hints ¡from ¡nature ¡about ¡different ¡explanatory ¡factors: ¡
  • Rapidly ¡changing ¡factors ¡(oGen ¡noise) ¡
  • Slowly ¡changing ¡(generally ¡more ¡abstract) ¡
  • Different ¡factors ¡at ¡different ¡Bme ¡scales ¡
  • Exploit ¡those ¡hints ¡to ¡disentangle ¡beWer! ¡
  • (Becker ¡& ¡Hinton ¡1993, ¡WiskoW ¡& ¡Sejnowski ¡2002, ¡Hurri ¡& ¡

Hyvarinen ¡2003, ¡Berkes ¡& ¡WiskoW ¡2005, ¡Mobahi ¡et ¡al ¡ 2009, ¡Bergstra ¡& ¡Bengio ¡2009) ¡

slide-8
SLIDE 8

How do humans s generalize from very few examples? s?

8 ¡

  • They ¡transfer ¡knowledge ¡from ¡previous ¡learning: ¡
  • RepresentaBons ¡
  • Explanatory ¡factors ¡
  • Previous ¡learning ¡from: ¡unlabeled ¡data ¡ ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡+ ¡labels ¡for ¡other ¡tasks ¡

  • Prior: ¡shared ¡underlying ¡explanatory ¡factors, ¡in ¡

par&cular ¡between ¡P(x) ¡and ¡P(Y|x) ¡ ¡

  • à

à ¡Need ¡good ¡unsupervised ¡learning ¡of ¡representa&ons ¡ ¡

slide-9
SLIDE 9

Raw ¡data ¡ 1 ¡layer ¡ 2 ¡layers ¡ 4 ¡layers ¡ 3 ¡layers ¡

ICML’2011 ¡ workshop ¡on ¡

  • Unsup. ¡& ¡

Transfer ¡Learning ¡

NIPS’2011 ¡ Transfer ¡ Learning ¡ Challenge ¡ ¡

Paper: ¡ ICML’2012 ¡

Unsu supervise sed and Transf sfer Learning Ch Challenge + Transf sfer Learning Ch Challenge: Deep Learning 1st st Place

slide-10
SLIDE 10

Latent Variables s Love-Hate Relationsh ship

  • GOOD! ¡Appealing: ¡model ¡explanatory ¡factors ¡h ¡
  • BAD! ¡Exact ¡inference? ¡Nope. ¡Just ¡Pain. ¡

¡too ¡many ¡possible ¡configuraBons ¡of ¡h ¡ ¡

  • WORSE! ¡Learning ¡usually ¡requires ¡inference ¡

and/or ¡sampling ¡from ¡P(h, ¡x) ¡

10 ¡

slide-11
SLIDE 11

An Anon

  • nymous

ymous Latent Variables

s

  • No ¡pre-­‑assigned ¡seman1cs ¡
  • Learning ¡discovers ¡underlying ¡factors, ¡ ¡

¡e.g., ¡PCA ¡discovers ¡leading ¡direcBons ¡of ¡variaBons ¡ ¡ ¡

  • Increases ¡expressiveness ¡of ¡P(x)=Σh ¡P(x,h) ¡
  • Universal ¡approximators, ¡e.g. ¡for ¡RBMs ¡ ¡

¡(Le ¡Roux ¡& ¡Bengio, ¡Neural ¡Comp. ¡2008) ¡ . ¡

11 ¡

slide-12
SLIDE 12

Deep Probabilist stic Models s

  • Linear ¡factor ¡models ¡(sparse ¡coding, ¡PCA, ¡ICA) ¡-­‑ ¡shallow ¡
  • Restricted ¡Boltzmann ¡Machines ¡(RBMs) ¡many ¡variants ¡– ¡shallow ¡
  • Energy(x,h) ¡= ¡-­‑ ¡h’ ¡W ¡x ¡
  • Deep ¡Belief ¡Nets ¡(DBN) ¡
  • P(x,h1,h2, ¡h3) ¡= ¡P(x|h1) ¡P(h1|h2 ¡)P(h2, ¡h3), ¡ ¡

¡where ¡P(h2, ¡h3) ¡= ¡RBM, ¡condiBonals ¡= ¡sigmoid+affine ¡

  • Deep ¡Boltzmann ¡Machines ¡(DBM) ¡
  • Energy(x,h1,h2,…) ¡= ¡-­‑ ¡h1’ ¡W1 ¡x ¡-­‑ ¡h2’ ¡W2 ¡h1-­‑… ¡

12 ¡

slide-13
SLIDE 13

Stack of RBMs s à à Deep Deep Bol Boltz tzma mann Ma Machin ine e

(Salakhutdinov ¡& ¡Hinton ¡AISTATS ¡2009) ¡

  • Halve ¡the ¡RBM ¡weights ¡because ¡each ¡layer ¡now ¡has ¡inputs ¡from ¡

below ¡and ¡from ¡above ¡

  • PosiBve ¡phase: ¡(mean-­‑field) ¡variaBonal ¡inference ¡= ¡recurrent ¡AE ¡
  • NegaBve ¡phase: ¡Gibbs ¡sampling ¡(stochasBc ¡units) ¡
  • train ¡by ¡SML/PCD ¡

13 ¡

x ¡ h3 ¡ h2 ¡ h1 ¡ W1 ¡ ½W1 ¡ W1 ¡

T ¡

½W1 ¡ W2 ¡ ½W2 ¡

T ¡

W3 ¡ ½W1 ¡

T ¡

½W1 ¡

T ¡

½W2 ¡ ½W2 ¡

T ¡

½W2 ¡ ½W3 ¡

T ¡

½W3 ¡ ½W3 ¡

T ¡

slide-14
SLIDE 14

Ap Approxima roximate I te Inferen ference e

  • MAP ¡
  • h* ¡≅ ¡argmaxh ¡P(h|x) ¡ ¡è ¡assume ¡1 ¡dominant ¡mode ¡
  • VariaBonal ¡
  • Look ¡for ¡tractable ¡Q(h) ¡minimizing ¡KL(Q(.)||P(.|x)) ¡ ¡
  • Q ¡is ¡either ¡factorial ¡or ¡tree-­‑structured ¡
  • è ¡strong ¡assumpBon ¡
  • MCMC ¡
  • Setup ¡Markov ¡chain ¡asymptoBcally ¡sampling ¡from ¡P(h|x) ¡
  • Approx. ¡marginalizaBon ¡through ¡MC ¡avg ¡over ¡few ¡samples ¡
  • è ¡assume ¡a ¡few ¡dominant ¡modes ¡ ¡
  • Approximate ¡inference ¡can ¡seriously ¡hurt ¡learning ¡

¡ ¡ ¡ ¡ ¡(Kulesza ¡& ¡Pereira ¡NIPS’2007) ¡

14 ¡

slide-15
SLIDE 15

Co Computational Graphs s

  • OperaBons ¡for ¡parBcular ¡task ¡
  • Neural ¡nets’ ¡structure ¡= ¡computaBonal ¡graph ¡for ¡P(y|x) ¡
  • Graphical ¡model’s ¡structure ¡≠ ¡computaBonal ¡graph ¡for ¡inference ¡
  • Recurrent ¡nets ¡& ¡graphical ¡models ¡ ¡

¡è ¡family ¡of ¡computa&onal ¡graphs ¡sharing ¡parameters ¡

  • Could ¡we ¡have ¡a ¡parametrized ¡family ¡of ¡computa5onal ¡graphs ¡

defining ¡“the ¡model”? ¡

15 ¡

slide-16
SLIDE 16

Lea Learned rned Ap

Approxima roximate I te Inferen ference e

  • 1. Construct ¡a ¡computa5onal ¡graph ¡corresponding ¡to ¡inference ¡
  • Loopy ¡belief ¡prop. ¡(Ross ¡et ¡al ¡CVPR ¡2011, ¡Stoyanov ¡et ¡al ¡2011) ¡ ¡
  • VariaBonal ¡mean-­‑field ¡(Goodfellow ¡et ¡al, ¡ICLR ¡2013) ¡ ¡
  • MAP ¡(Kavukcuoglu ¡et ¡al ¡2008, ¡Gregor ¡& ¡LeCun ¡ICML ¡2010) ¡ ¡
  • 2. Op5mize ¡parameters ¡wrt ¡criterion ¡of ¡interest, ¡possibly ¡

decoupling ¡from ¡the ¡generaBve ¡model’s ¡parameters ¡ Learning ¡can ¡compensate ¡for ¡the ¡inadequacy ¡of ¡approximate ¡ inference, ¡taking ¡advantage ¡of ¡specifics ¡of ¡the ¡data ¡distribuBon ¡

¡ ¡

16 ¡

slide-17
SLIDE 17

THE P THE PROB ROBLEM LEM

17 ¡

slide-18
SLIDE 18

Pote Potentia tially Hu

Huge ge Number of

Number of Modes s in the Post sterior P(h|x h|x) )

  • Foreign ¡speech ¡example, ¡y=answer ¡to ¡quesBon: ¡
  • 10 ¡word ¡segments ¡
  • 100 ¡plausible ¡candidates ¡per ¡word ¡
  • 106 ¡possible ¡segmentaBons ¡
  • Most ¡configuraBons ¡(999999/1000000) ¡implausible ¡
  • è ¡1020 ¡high-­‑probability ¡modes ¡
  • All ¡known ¡approximate ¡inference ¡scheme ¡break ¡down ¡if ¡the ¡

posterior ¡has ¡a ¡huge ¡number ¡of ¡modes ¡(fails ¡MAP ¡& ¡MCMC) ¡ and ¡not ¡respecBng ¡a ¡variaBonal ¡approximaBon ¡(fails ¡variaBonal) ¡ ¡

18 ¡

slide-19
SLIDE 19

THE SOLUTION THE SOLUTION

19 ¡

  • Approximate ¡inference ¡
  • FuncBon ¡approximaBon ¡
slide-20
SLIDE 20

Hi Hint nt

  • Deep ¡neural ¡nets ¡learn ¡good ¡P(y|x) ¡classifiers ¡even ¡if ¡there ¡are ¡

potenBally ¡many ¡true ¡latent ¡variables ¡involved ¡

  • Exploits ¡structure ¡in ¡P(y|x) ¡that ¡persist ¡even ¡aGer ¡summing ¡h ¡ ¡
  • But ¡how ¡do ¡we ¡generalize ¡this ¡idea ¡to ¡full ¡joint-­‑distribuBon ¡

learning ¡and ¡answering ¡any ¡quesBon ¡about ¡these ¡variables, ¡not ¡ just ¡one? ¡

20 ¡

slide-21
SLIDE 21

Generative Stochast stic Networks s (GSN)

  • Recurrent ¡parametrized ¡stochas&c ¡computa&onal ¡graph ¡that ¡

defines ¡a ¡transi&on ¡operator ¡for ¡a ¡Markov ¡chain ¡whose ¡ asympto&c ¡distribu&on ¡is ¡implicitly ¡es&mated ¡by ¡the ¡model ¡

  • Noise ¡injected ¡in ¡input ¡and ¡hidden ¡layers ¡
  • Trained ¡to ¡max. ¡reconstrucBon ¡prob. ¡of ¡example ¡at ¡each ¡step ¡
  • Example ¡structure ¡inspired ¡from ¡the ¡DBM ¡Gibbs ¡chain: ¡

21 ¡

x0" h3" h2" h1" W1" W1" W1"

T"

W1" W2" W2"

T"

W3" W1"

T"

W1"

T"

W2" W2"

T"

W2" W3"

T"

W3" W3"

T"

sample"x1" sample"x2" sample"x3" target" target" target" noise ¡ noise ¡ 3 ¡to ¡5 ¡steps ¡

slide-22
SLIDE 22

Denoisi sing Auto-En Auto-Encoder

  • der

(Vincent ¡et ¡al ¡2008) ¡

  • Corrupt ¡the ¡input ¡during ¡training ¡only ¡
  • Train ¡to ¡reconstruct ¡the ¡uncorrupted ¡input ¡

KL(reconstruction | raw input) Hidden code (representation) Corrupted input Raw input reconstruction

  • Encoder ¡& ¡decoder: ¡any ¡parametrizaBon ¡
  • As ¡good ¡or ¡beWer ¡than ¡RBMs ¡for ¡unsupervised ¡pre-­‑training ¡
slide-23
SLIDE 23

Denoisi sing Auto-En Auto-Encoder

  • der
  • Learns ¡a ¡vector ¡field ¡poinBng ¡towards ¡

higher ¡probability ¡direcBon ¡(Alain ¡& ¡Bengio ¡2013) ¡

  • Some ¡DAEs ¡correspond ¡to ¡a ¡kind ¡of ¡

Gaussian ¡RBM ¡with ¡regularized ¡Score ¡ Matching ¡(Vincent ¡2011) ¡ ¡ ¡ ¡ ¡ ¡[equivalent ¡when ¡noiseà0] ¡

  • Compared ¡to ¡RBM: ¡

No ¡parBBon ¡funcBon ¡issue, ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ + ¡can ¡measure ¡training ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ criterion ¡

Corrupted input Corrupted input

prior: ¡examples ¡ concentrate ¡near ¡a ¡ lower ¡dimensional ¡ “manifold” ¡ ¡ r(x)-­‑x ¡ ¡ ¡ ¡ ¡dlogp(x)/dx ¡ ∝

slide-24
SLIDE 24

Regularized Auto-Encoders s Learn a Vector Field or a Markov Ch Chain Transi sition Dist stribution

  • (Bengio, ¡Vincent ¡& ¡Courville, ¡TPAMI ¡2013) ¡review ¡paper ¡
  • (Alain ¡& ¡Bengio ¡ICLR ¡2013; ¡Bengio ¡et ¡al, ¡arxiv ¡2013) ¡

24 ¡

slide-25
SLIDE 25

Previous s Theoretical Resu sults s

  • ConBnuous ¡X ¡
  • Gaussian ¡corrupBon ¡
  • Noise ¡σ ¡à ¡0 ¡
  • Squared ¡reconstrucBon ¡error ¡||r(X+noise)-­‑X||2 ¡

¡ ¡(r(X)-­‑X)/σ2 ¡ ¡esBmates ¡the ¡score ¡d ¡log ¡p(X) ¡/ ¡dX ¡

25 ¡

(Vincent ¡2011, ¡Alain ¡& ¡Bengio ¡2013) ¡

slide-26
SLIDE 26

Denoisi sing Auto-Encoder Markov Ch Chain

  • ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡: ¡true ¡data-­‑generaBng ¡distribuBon ¡
  • ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡: ¡corrupBon ¡process ¡
  • ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡: ¡denoising ¡auto-­‑encoder ¡trained ¡with ¡n ¡examples ¡

from ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡ ¡probabilisBcally ¡“inverts” ¡corrupBon ¡

  • ¡ ¡ ¡ ¡ ¡: ¡Markov ¡chain ¡over ¡X ¡alternaBng ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡ ¡ ¡

26 ¡

Xt ¡ Xt ¡ ~ ¡ Xt+1 ¡ ~ ¡ Xt+1 ¡ Xt+2 ¡ Xt+2 ¡ ~ ¡ corrupt ¡ denoise ¡

slide-27
SLIDE 27

New Theoretical Resu sults: s: Denoisi sing AE AE

27 ¡

  • Denoising ¡AE ¡are ¡consistent ¡esBmators ¡of ¡the ¡data-­‑generaBng ¡

distribuBon ¡through ¡their ¡Markov ¡chain, ¡so ¡long ¡as ¡they ¡ consistently ¡esBmate ¡the ¡condiBonal ¡denoising ¡distribuBon ¡and ¡ the ¡Markov ¡chain ¡converges. ¡

Making Pθn(X| ˜ X) match P(X| ˜ X) makes πn(X) match P(X)

truth ¡ denoising ¡distr. ¡ staBonary ¡distr. ¡ truth ¡

slide-28
SLIDE 28

Generative Stochast stic Networks s (GSN)

  • If ¡we ¡decompose ¡the ¡reconstrucBon ¡probability ¡into ¡a ¡

parametrized ¡noise-­‑dependent ¡part ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡and ¡a ¡noise-­‑ independent ¡part ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡ ¡we ¡also ¡get ¡a ¡consistent ¡ esBmator ¡of ¡the ¡data ¡generaBng ¡distribuBon, ¡if ¡the ¡chain ¡

  • converges. ¡

28 ¡

x0" h3" h2" h1" W1" W1" W1"

T"

W1" W2" W2"

T"

W3" W1"

T"

W1"

T"

W2" W2"

T"

W2" W3"

T"

W3" W3"

T"

sample"x1" sample"x2" sample"x3" target" target" target"

noise ¡ noise ¡

slide-29
SLIDE 29

GSN Experiments: s: validating the theorem in a disc screte non-parametric se setting

  • Discrete ¡data, ¡X ¡

in ¡{0,…,9} ¡

  • CorrupBon: ¡add ¡

+/-­‑ ¡small ¡int. ¡

  • ReconstrucBon ¡

distribuBon ¡= ¡ maximum ¡ likelihood ¡ esBmator ¡ (counBng) ¡

29 ¡

slide-30
SLIDE 30

GSN Experiments: s: validating the theorem in a continuous s non- parametric se setting

  • ConBnuous ¡data, ¡ ¡ ¡ ¡

X ¡in ¡R10, ¡Gaussian ¡ corrupBon ¡

  • ReconstrucBon ¡

distribuBon ¡= ¡ Parzen ¡(mixture ¡of ¡ Gaussians) ¡ esBmator ¡

  • 5000 ¡training ¡

examples, ¡5000 ¡ samples ¡

  • Visualize ¡a ¡pair ¡of ¡

dimensions ¡

30 ¡

slide-31
SLIDE 31

GSN Experiments: s: va

valida idating the theorem in ting the theorem in a continuous s non-parametric se setting

31 ¡

slide-32
SLIDE 32

Sh Shallow

  • w Model

Model: : Ge

Genera raliz izin ing th the Denoisi sing Auto-Encoder Probabilist stic Interpretation

  • Classical ¡denoising ¡auto-­‑encoder ¡architecture, ¡single ¡hidden ¡layer ¡

with ¡noise ¡only ¡injected ¡in ¡input ¡

  • Factored ¡Bernouilli ¡reconstrucBon ¡prob. ¡distr. ¡
  • ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡= ¡parameter-­‑less, ¡salt-­‑and-­‑pepper ¡noise ¡on ¡top ¡of ¡X ¡
  • Generalizes ¡(Alain ¡& ¡Bengio ¡2013): ¡not ¡just ¡con5nuous ¡r.v., ¡any ¡

training ¡criterion ¡(as ¡log-­‑likelihood), ¡not ¡just ¡Gaussian ¡but ¡any ¡ corrup5on ¡(no ¡need ¡to ¡be ¡5ny ¡to ¡correctly ¡es5mate ¡distribu5on). ¡

32 ¡

x0 ¡ W1 ¡ W1 ¡ W1 ¡

T ¡

W1 ¡ W1 ¡

T ¡

W1 ¡

T ¡

sample ¡x1 ¡ sample ¡x2 ¡ target ¡ sample ¡x3 ¡

slide-33
SLIDE 33

Experiments: s: Shallow vs vs Deep Deep

  • Shallow ¡(DAE), ¡no ¡

recurrent ¡path ¡at ¡ higher ¡levels, ¡ state=X ¡only ¡

  • Deep ¡GSN: ¡

33 ¡

x0 ¡

sample ¡x1 ¡ sample ¡x2 ¡

x3 ¡ x0 ¡ sample ¡x1 ¡ sample ¡x2 ¡ sample ¡x3 ¡

slide-34
SLIDE 34

Quantitative Evaluation of Samples s

  • Previous ¡procedure ¡for ¡evaluaBng ¡samples ¡(Breuleux ¡et ¡al ¡2011, ¡

Rifai ¡et ¡al ¡2012, ¡Bengio ¡et ¡al ¡2013): ¡

  • Generate ¡10000 ¡samples ¡from ¡model ¡
  • Use ¡them ¡as ¡training ¡examples ¡for ¡Parzen ¡density ¡esBmator ¡
  • Evaluate ¡its ¡log-­‑likelihood ¡on ¡MNIST ¡test ¡data ¡

34 ¡

Training ¡ examples ¡

slide-35
SLIDE 35

Quest stion Answ swering, Missi ssing Inputs s and and Struct ctured ed Ou Outpu put

  • Once ¡trained, ¡a ¡GSN ¡can ¡sample ¡from ¡any ¡condiBonal ¡over ¡

subsets ¡of ¡its ¡inputs, ¡so ¡long ¡as ¡we ¡use ¡the ¡condiBonal ¡ associated ¡with ¡the ¡reconstrucBon ¡distribuBon ¡and ¡clamp ¡the ¡ right-­‑hand ¡side ¡variables. ¡

35 ¡

slide-36
SLIDE 36

Experiments: s: Structured Co Conditionals s

  • StochasBcally ¡fill-­‑in ¡missing ¡inputs, ¡sampling ¡from ¡the ¡chain ¡that ¡

generates ¡the ¡condiBonal ¡distribuBon ¡of ¡the ¡missing ¡inputs ¡ given ¡the ¡observed ¡ones ¡(noBce ¡the ¡fast ¡burn-­‑in!) ¡

36 ¡

slide-37
SLIDE 37

Not Just st MNIST: experiments s on TFD

  • 3 ¡hidden ¡layer ¡model, ¡ ¡consecuBve ¡samples: ¡

37 ¡

slide-38
SLIDE 38

Fu Future Work: re Work: Mu Mult lti-Modal Modal Reconst struction Dist stributions s

  • All ¡experiments: ¡unimodal ¡(factorial) ¡reconstrucBon ¡distribuBon ¡
  • Theorems ¡require ¡potenBally ¡mulBmodal ¡one ¡
  • In ¡the ¡limit ¡of ¡small ¡noise, ¡unimodal ¡is ¡enough ¡(Alain ¡& ¡Bengio ¡2013) ¡

38 ¡

slide-39
SLIDE 39

Ge Gettin tting R Rid of id of Ba BackProp Prop Al Altogeth together er

  • Some ¡parts ¡of ¡the ¡network ¡may ¡need ¡to ¡take ¡stochasBc ¡hard ¡

decisions, ¡can’t ¡do ¡backprop ¡

  • Discovered ¡an ¡unbiased ¡esBmator ¡of ¡the ¡loss ¡gradient ¡wrt ¡to ¡

binary ¡stochasBc ¡units ¡

  • ¡ ¡

is ¡an ¡unbiased ¡esBmator ¡of ¡the ¡gradient ¡of ¡expectaBon ¡of ¡L ¡wrt ¡ai ¡

  • A ¡lower ¡variance ¡variant ¡has ¡been ¡demonstrated ¡to ¡learn ¡(NIPS ¡

2013 ¡submission), ¡albeit ¡slower ¡than ¡backprop. ¡

  • Hinton ¡also ¡has ¡a ¡proposal ¡for ¡approximaBng ¡gradient ¡backprop ¡

through ¡feedback ¡connecBons, ¡which ¡could ¡be ¡combined ¡w/ ¡this ¡

39 ¡

slide-40
SLIDE 40

The Optimization Ch Challenge in Deep / Recurrent Nets s

  • Higher-­‑level ¡abstracBons ¡require ¡highly ¡non-­‑linear ¡

transformaBons ¡to ¡be ¡learned ¡

  • Sharp ¡non-­‑lineariBes ¡are ¡difficult ¡to ¡learn ¡by ¡gradient ¡
  • ComposiBon ¡of ¡many ¡non-­‑lineariBes ¡= ¡sharp ¡non-­‑linearity ¡
  • Exploding ¡or ¡vanishing ¡gradients ¡

40 ¡

∂Et+1 ∂xt+1

Et+1 Et Et−1 xt+1 xt xt−1 ut−1 ut ut+1

∂Et ∂xt ∂Et−1 ∂xt−1 ∂xt+2 ∂xt+1 ∂xt+1 ∂xt ∂xt ∂xt−1 ∂xt−1 ∂xt−2

A B

slide-41
SLIDE 41

RNN Tricks s

(Pascanu, ¡Mikolov, ¡Bengio, ¡ICML ¡2013; ¡Bengio, ¡Boulanger ¡& ¡Pascanu, ¡ICASSP ¡2013) ¡

  • Clipping ¡gradients ¡(avoid ¡exploding ¡gradients) ¡
  • Leaky ¡integraBon ¡(propagate ¡long-­‑term ¡dependencies) ¡
  • Momentum ¡(cheap ¡2nd ¡order) ¡
  • IniBalizaBon ¡(start ¡in ¡right ¡ballpark ¡avoids ¡exploding/vanishing) ¡
  • Sparse ¡Gradients ¡(symmetry ¡breaking) ¡
  • Gradient ¡propagaBon ¡regularizer ¡(avoid ¡vanishing ¡gradient) ¡
  • LSTM ¡self-­‑loops ¡(avoid ¡vanishing ¡gradient) ¡

41 ¡

error θ θ

slide-42
SLIDE 42

Co Conclusi sions s

  • Radically ¡different ¡approach ¡to ¡probabilis&c ¡unsupervised ¡

learning ¡of ¡genera&ve ¡models ¡through ¡learning ¡a ¡transi&on ¡

  • perator ¡
  • Skips ¡the ¡need ¡for ¡latent ¡variables ¡and ¡approximate ¡inference ¡
  • ver ¡them ¡
  • Eliminates ¡previous ¡limitaBons ¡of ¡probabilisBc ¡interpretaBons ¡of ¡

regularized ¡auto-­‑encoders ¡

  • Any ¡stochasBc ¡but ¡smooth ¡computaBonal ¡graph ¡can ¡be ¡trained ¡

by ¡back-­‑prop ¡with ¡noise ¡injected ¡in ¡the ¡deep ¡network ¡(not ¡just ¡ inputs), ¡just ¡like ¡in ¡recent ¡dropout ¡deep ¡nets ¡

  • Can ¡model ¡joint ¡/ ¡condiBonal ¡/ ¡structured ¡outputs ¡/ ¡missing ¡

variables ¡

42 ¡

slide-43
SLIDE 43

The End The End

43 ¡

Reading ¡material ¡available ¡on ¡arxiv: ¡