machine learning 10 601
play

Machine Learning 10-601 Tom M. Mitchell Machine Learning Department - PowerPoint PPT Presentation

Machine Learning 10-601 Tom M. Mitchell Machine Learning Department Carnegie Mellon University April 15, 2015 Today: Reading: Mitchell: Chapter 4 Artificial neural networks Backpropagation Bishop: Chapter 5 Recurrent


  1. Machine Learning 10-601 Tom M. Mitchell Machine Learning Department Carnegie Mellon University April 15, 2015 Today: Reading: Mitchell: Chapter 4 • Artificial neural networks • • Backpropagation • Bishop: Chapter 5 • Recurrent networks • Quoc Le tutorial: • Convolutional networks • Ruslan Salakhutdinov tutorial: • Deep belief networks • Deep Boltzman machines

  2. Artificial Neural Networks to learn f: X à Y • f might be non-linear function • X (vector of) continuous and/or discrete vars • Y (vector of) continuous and/or discrete vars • Represent f by network of logistic units • Each unit is a logistic function • MLE: train weights of all units to minimize sum of squared errors of predicted network outputs • MAP: train to minimize sum of squared errors plus weight magnitudes

  3. ALVINN [Pomerleau 1993]

  4. M(C)LE Training for Neural Networks • Consider regression problem f:X à Y , for scalar Y y = f(x) + ε assume noise N(0, σ ε ), iid deterministic • Let’s maximize the conditional data likelihood Learned neural network

  5. MAP Training for Neural Networks • Consider regression problem f:X à Y , for scalar Y y = f(x) + ε noise N(0, σ ε ) deterministic Gaussian P(W) = N(0, σ Ι ) ln P(W) ↔ c ∑ i w i 2

  6. x d = input t d = target output o d = observed unit output w i = weight i

  7. (MLE) x d = input t d = target output o d = observed unit output w ij = wt from i to j

  8. w 0 left strt right up

  9. Semantic Memory Model Based on ANN’s [ McClelland & Rogers, Nature 2003] No hierarchy given. Train with assertions, e.g., Can(Canary,Fly)

  10. Training Networks on Time Series • Suppose we want to predict next state of world – and it depends on history of unknown length – e.g., robot with forward-facing sensors trying to predict next sensor reading as it moves and turns

  11. Recurrent Networks: Time Series • Suppose we want to predict next state of world – and it depends on history of unknown length – e.g., robot with forward-facing sensors trying to predict next sensor reading as it moves and turns • Idea: use hidden layer in network to capture state history

  12. Recurrent Networks on Time Series How can we train recurrent net??

  13. Convolutional Neural Nets for Image Recognition [Le Cun, 1992] • specialized architecture: mix different types of units, not completely connected, motivated by primate visual cortex • many shared parameters, stochastic gradient training • very successful! now many specialized architectures for vision, speech, translation, …

  14. Deep Belief Networks [Hinton & Salakhutdinov, 2006] • Problem: training networks with many hidden layers doesn’t work very well – local minima, very slow training if initialize with zero weights • Deep belief networks – autoencoder networks to learn low dimensional encodings – but more layers, to learn better encodings

  15. Deep Belief Networks [Hinton & Salakhutdinov, 2006] original image reconstructed from 2000-1000-500-30 DBN reconstructed from 2000-300, linear PCA versus

  16. [Hinton & Salakhutdinov, 2006] Deep Belief Networks: Training

  17. Encoding of digit images in two dimensions [Hinton & Salakhutdinov, 2006] 784-2 linear encoding (PCA) 784-1000-500-250-2 DBNet

  18. Very Large Scale Use of DBN’s [Quoc Le, et al., ICML , 2012] Data: 10 million 200x200 unlabeled images, sampled from YouTube Training: use 1000 machines (16000 cores) for 1 week Learned network: 3 multi-stage layers, 1.15 billion parameters Achieves 15.8% (was 9.5%) accuracy classifying 1 of 20k ImageNet items Real images that most excite the feature: Image synthesized to most excite the feature:

  19. Restricted Boltzman Machine • Bipartite graph, logistic activation • Inference: fill in any nodes, estimate other nodes • consider v i , h j are boolean variables h 1 h 2 h 3 v 1 v 2 v n …

  20. Impact ¡of ¡Deep ¡Learning ¡ • ¡Speech ¡Recogni4on ¡ • ¡Computer ¡Vision ¡ • ¡Recommender ¡Systems ¡ ¡ • ¡Language ¡Understanding ¡ ¡ • ¡Drug ¡Discovery ¡and ¡Medical ¡ Image ¡Analysis ¡ ¡ [Courtesy ¡of ¡R. ¡Salakhutdinov] ¡

  21. Feature ¡Representa4ons: ¡Tradi4onally ¡ Feature Learning Data extraction algorithm Object ¡ detec4on ¡ Image ¡ vision ¡features ¡ Recogni4on ¡ Audio ¡ classifica4on ¡ Speaker ¡ Audio ¡ audio ¡features ¡ iden4fica4on ¡ [Courtesy ¡of ¡R. ¡Salakhutdinov] ¡

  22. Computer ¡Vision ¡Features ¡ SIFT ¡ Textons ¡ RIFT ¡ HoG ¡ GIST ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  23. Audio ¡Features ¡ Spectrogram ¡ MFCC ¡ Flux ¡ ZCR ¡ Rolloff ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  24. Audio ¡Features ¡ Representa4on ¡Learning: ¡ Spectrogram ¡ MFCC ¡ Can ¡we ¡automa4cally ¡learn ¡ these ¡representa4ons? ¡ Flux ¡ ZCR ¡ Rolloff ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  25. Restricted ¡Boltzmann ¡Machines ¡ Pair-­‑wise ¡ Unary ¡ ¡ ¡hidden ¡variables ¡ Graphical ¡Models: ¡ Powerful ¡ Feature ¡Detectors ¡ framework ¡for ¡represen4ng ¡ dependency ¡structure ¡between ¡ random ¡variables. ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ RBM ¡is ¡a ¡Markov ¡Random ¡Field ¡with: ¡ • ¡Stochas4c ¡binary ¡visible ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Stochas4c ¡binary ¡hidden ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Bipar4te ¡connec4ons. ¡ Markov ¡random ¡fields, ¡Boltzmann ¡machines, ¡log-­‑linear ¡models. ¡ ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  26. Learning ¡Features ¡ Observed ¡ ¡Data ¡ ¡ Learned ¡W: ¡ ¡“edges” ¡ Subset ¡of ¡1000 ¡features ¡ Subset ¡of ¡25,000 ¡characters ¡ Sparse ¡ New ¡Image: ¡ representa8ons ¡ …. ¡ = ¡ Logis4c ¡Func4on: ¡Suitable ¡for ¡ modeling ¡binary ¡images ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  27. Model ¡Learning ¡ ¡ ¡Hidden ¡units ¡ Given ¡a ¡set ¡of ¡ i.i.d. ¡training ¡examples ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡we ¡want ¡to ¡learn ¡ ¡ model ¡parameters ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡ ¡ ¡ Maximize ¡log-­‑likelihood ¡objec4ve: ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡units ¡ Deriva4ve ¡of ¡the ¡log-­‑likelihood: ¡ Difficult ¡to ¡compute: ¡exponen4ally ¡many ¡ ¡ configura4ons ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  28. RBMs ¡for ¡Real-­‑valued ¡Data ¡ Unary ¡ Pair-­‑wise ¡ ¡ ¡hidden ¡variables ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ Gaussian-­‑Bernoulli ¡RBM: ¡ • ¡Stochas4c ¡real-­‑valued ¡visible ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Stochas4c ¡binary ¡hidden ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Bipar4te ¡connec4ons. ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡ (Salakhutdinov & Hinton, NIPS 2007; Salakhutdinov & Murray, ICML 2008)

  29. RBMs ¡for ¡Real-­‑valued ¡Data ¡ Unary ¡ Pair-­‑wise ¡ ¡ ¡hidden ¡variables ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ Learned ¡features ¡(out ¡of ¡10,000) ¡ 4 ¡million ¡ unlabelled ¡ images ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  30. RBMs ¡for ¡Real-­‑valued ¡Data ¡ Unary ¡ Pair-­‑wise ¡ ¡ ¡hidden ¡variables ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ Learned ¡features ¡(out ¡of ¡10,000) ¡ 4 ¡million ¡ unlabelled ¡ images ¡ = 0.9 * + 0.8 * + 0.6 * … New ¡Image ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  31. RBMs ¡for ¡Word ¡Counts ¡ Unary ¡ Pair-­‑wise ¡ 0 1 D K F D K F 1 X X X X X X W k ij v k v k i b k P θ ( v , h ) = Z ( θ ) exp i h j + i + h j a j 0 ¡ @ A i =1 k =1 j =1 i =1 k =1 j =1 0 ¡ 0 ¡ 1 ¡ ⇣ ⌘ i + P F b k j =1 h j W k exp ij 0 ¡ P θ ( v k i = 1 | h ) = ⇣ ⌘ P K i + P F b q j =1 h j W q q =1 exp ij Replicated ¡Soemax ¡Model: ¡undirected ¡topic ¡model: ¡ • ¡Stochas4c ¡1-­‑of-­‑K ¡visible ¡variables. ¡ • ¡Stochas4c ¡binary ¡hidden ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Bipar4te ¡connec4ons. ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡ (Salakhutdinov & Hinton, NIPS 2010, Srivastava & Salakhutdinov, NIPS 2012)

Recommend


More recommend