impact of deep learning
play

Impact of Deep Learning Speech Recogni4on Computer Vision - PowerPoint PPT Presentation

Impact of Deep Learning Speech Recogni4on Computer Vision Recommender Systems Language Understanding Drug Discovery and Medical Image


  1. Impact ¡of ¡Deep ¡Learning ¡ • ¡Speech ¡Recogni4on ¡ • ¡Computer ¡Vision ¡ • ¡Recommender ¡Systems ¡ ¡ • ¡Language ¡Understanding ¡ ¡ • ¡Drug ¡Discovery ¡and ¡Medical ¡ Image ¡Analysis ¡ ¡ [Courtesy ¡of ¡R. ¡Salakhutdinov] ¡

  2. [Hinton & Salakhutdinov, 2006] Deep Belief Networks: Training

  3. Very Large Scale Use of DBN’s [Quoc Le, et al., ICML , 2012] Data: 10 million 200x200 unlabeled images, sampled from YouTube Training: use 1000 machines (16000 cores) for 1 week Learned network: 3 multi-stage layers, 1.15 billion parameters Achieves 15.8% (was 9.5%) accuracy classifying 1 of 20k ImageNet items Real images that most excite the feature: Image synthesized to most excite the feature:

  4. Restricted ¡Boltzmann ¡Machines ¡ Pair-­‑wise ¡ Unary ¡ ¡ ¡hidden ¡variables ¡ Graphical ¡Models: ¡ Powerful ¡ Feature ¡Detectors ¡ framework ¡for ¡represen4ng ¡ dependency ¡structure ¡between ¡ random ¡variables. ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡variables ¡ RBM ¡is ¡a ¡Markov ¡Random ¡Field ¡with: ¡ • ¡Stochas4c ¡binary ¡visible ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Stochas4c ¡binary ¡hidden ¡variables ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ • ¡Bipar4te ¡connec4ons. ¡ Markov ¡random ¡fields, ¡Boltzmann ¡machines, ¡log-­‑linear ¡models. ¡ ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  5. Model ¡Learning ¡ ¡ ¡Hidden ¡units ¡ Given ¡a ¡set ¡of ¡ i.i.d. ¡training ¡examples ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡we ¡want ¡to ¡learn ¡ ¡ model ¡parameters ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡ ¡ ¡ Maximize ¡log-­‑likelihood ¡objec4ve: ¡ Image ¡ ¡ ¡ ¡ ¡ ¡visible ¡units ¡ Deriva4ve ¡of ¡the ¡log-­‑likelihood: ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  6. Deep ¡Boltzmann ¡Machines ¡ Low-­‑level ¡features: ¡ Edges ¡ Built ¡from ¡ unlabeled ¡ inputs. ¡ ¡ Input: ¡Pixels ¡ Image ¡ (Salakhutdinov & Hinton, Neural Computation 2012) [Courtesy, ¡R. ¡Salakhutdinov] ¡

  7. Deep ¡Boltzmann ¡Machines ¡ Learn ¡simpler ¡representa4ons, ¡ then ¡compose ¡more ¡complex ¡ones ¡ Higher-­‑level ¡features: ¡ Combina4on ¡of ¡edges ¡ Low-­‑level ¡features: ¡ Edges ¡ Built ¡from ¡ unlabeled ¡ inputs. ¡ ¡ Input: ¡Pixels ¡ Image ¡ (Salakhutdinov 2008, Salakhutdinov & Hinton 2012) [Courtesy, ¡R. ¡Salakhutdinov] ¡

  8. Model ¡Formula4on ¡ h 3 Same ¡as ¡RBMs ¡ W 3 requires ¡approximate ¡inference ¡to ¡ h 2 train, ¡but ¡it ¡can ¡be ¡done… ¡ W 2 and ¡scales ¡to ¡millions ¡of ¡examples ¡ h 1 W 1 v Input ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  9. Samples ¡Generated ¡by ¡the ¡Model ¡ Training ¡Data ¡ Model-­‑Generated ¡Samples ¡ Data ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  10. Handwri4ng ¡Recogni4on ¡ MNIST ¡Dataset ¡ Op4cal ¡Character ¡Recogni4on ¡ 60,000 ¡examples ¡of ¡10 ¡digits ¡ 42,152 ¡examples ¡of ¡26 ¡English ¡le_ers ¡ ¡ Learning ¡Algorithm ¡ Error ¡ Learning ¡Algorithm ¡ Error ¡ Logis4c ¡regression ¡ 12.0% ¡ Logis4c ¡regression ¡ 22.14% ¡ K-­‑NN ¡ ¡ 3.09% ¡ K-­‑NN ¡ ¡ 18.92% ¡ Neural ¡Net ¡ (Pla_ ¡2005) ¡ 1.53% ¡ Neural ¡Net ¡ 14.62% ¡ SVM ¡ (Decoste ¡et.al. ¡2002) ¡ 1.40% ¡ SVM ¡ (Larochelle ¡et.al. ¡2009) ¡ 9.70% ¡ Deep ¡Autoencoder ¡ 1.40% ¡ Deep ¡Autoencoder ¡ 10.05% ¡ (Bengio ¡et. ¡al. ¡2007) ¡ ¡ (Bengio ¡et. ¡al. ¡2007) ¡ ¡ Deep ¡Belief ¡Net ¡ 1.20% ¡ Deep ¡Belief ¡Net ¡ 9.68% ¡ (Hinton ¡et. ¡al. ¡2006) ¡ ¡ (Larochelle ¡et. ¡al. ¡2009) ¡ ¡ DBM ¡ ¡ 0.95% ¡ DBM ¡ 8.40% ¡ Permuta4on-­‑invariant ¡version. ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  11. 3-­‑D ¡object ¡Recogni4on ¡ NORB ¡Dataset: ¡24,000 ¡examples ¡ Learning ¡Algorithm ¡ Error ¡ Logis4c ¡regression ¡ 22.5% ¡ K-­‑NN ¡ (LeCun ¡2004) ¡ 18.92% ¡ SVM ¡ (Bengio ¡& ¡LeCun ¡ ¡2007) ¡ 11.6% ¡ Deep ¡Belief ¡Net ¡ (Nair ¡& ¡Hinton ¡ ¡ 9.0% ¡ 2009) ¡ ¡ DBM ¡ 7.2% ¡ Pa_ern ¡ Comple4on ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  12. Learning ¡Shared ¡Representa4ons ¡ Across ¡Sensory ¡Modali4es ¡ “Concept” ¡ sunset, ¡pacific ¡ocean, ¡ baker ¡beach, ¡seashore, ¡ ocean ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  13. Mul4modal ¡DBM ¡ Gaussian ¡model ¡ Replicated ¡Sojmax ¡ 0 ¡ Dense, ¡real-­‑valued ¡ Word ¡ 0 ¡ image ¡features ¡ 0 ¡ counts ¡ 1 ¡ 0 ¡ (Srivastava & Salakhutdinov, NIPS 2012, JMLR 2014) ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  14. Mul4modal ¡DBM ¡ Gaussian ¡model ¡ Replicated ¡Sojmax ¡ 0 ¡ Dense, ¡real-­‑valued ¡ Word ¡ 0 ¡ image ¡features ¡ 0 ¡ counts ¡ 1 ¡ 0 ¡ (Srivastava & Salakhutdinov, NIPS 2012, JMLR 2014) ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  15. Mul4modal ¡DBM ¡ Gaussian ¡model ¡ Replicated ¡Sojmax ¡ 0 ¡ Dense, ¡real-­‑valued ¡ Word ¡ 0 ¡ image ¡features ¡ 0 ¡ counts ¡ 1 ¡ 0 ¡ (Srivastava & Salakhutdinov, NIPS 2012, JMLR 2014) ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  16. Mul4modal ¡DBM ¡ Bo_om-­‑up ¡ + ¡ Top-­‑down ¡ Gaussian ¡model ¡ Replicated ¡Sojmax ¡ 0 ¡ Dense, ¡real-­‑valued ¡ Word ¡ 0 ¡ image ¡features ¡ 0 ¡ counts ¡ 1 ¡ 0 ¡ (Srivastava & Salakhutdinov, NIPS 2012, JMLR 2014) ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  17. Mul4modal ¡DBM ¡ Bo_om-­‑up ¡ + ¡ Top-­‑down ¡ Gaussian ¡model ¡ Replicated ¡Sojmax ¡ 0 ¡ Dense, ¡real-­‑valued ¡ Word ¡ 0 ¡ image ¡features ¡ 0 ¡ counts ¡ 1 ¡ 0 ¡ (Srivastava & Salakhutdinov, NIPS 2012, JMLR 2014) ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  18. Text ¡Generated ¡from ¡Images ¡ Generated ¡ ¡ ¡ Generated ¡ ¡ ¡ Given Given ¡ ¡ insect, ¡bu_erfly, ¡insects, ¡ dog, ¡cat, ¡pet, ¡ki_en, ¡ bug, ¡bu_erflies, ¡ ¡ ¡ ¡ ¡ puppy, ¡ginger, ¡tongue, ¡ lepidoptera ¡ ki_y, ¡dogs, ¡furry ¡ graffi4, ¡streetart, ¡stencil, ¡ sea, ¡france, ¡boat, ¡mer, ¡ s4cker, ¡urbanart, ¡graff, ¡ beach, ¡river, ¡bretagne, ¡ sanfrancisco ¡ plage, ¡bri_any ¡ portrait, ¡child, ¡kid, ¡ canada, ¡nature, ¡ ritra_o, ¡kids, ¡children, ¡ sunrise, ¡ontario, ¡fog, ¡ boy, ¡cute, ¡boys, ¡italy ¡ mist, ¡bc, ¡morning ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  19. Text ¡Generated ¡from ¡Images ¡ Generated ¡ ¡ ¡ Given ¡ portrait, ¡women, ¡army, ¡soldier, ¡ ¡ ¡ mother, ¡postcard, ¡soldiers ¡ obama, ¡barackobama, ¡elec4on, ¡ poli4cs, ¡president, ¡hope, ¡change, ¡ sanfrancisco, ¡conven4on, ¡rally ¡ water, ¡glass, ¡beer, ¡bo_le, ¡ drink, ¡wine, ¡bubbles, ¡splash, ¡ drops, ¡drop ¡

  20. Images ¡Selected ¡from ¡Text ¡ Given Retrieved ¡ ¡ water, ¡red, ¡ ¡ ¡ sunset ¡ nature, ¡flower, ¡ red, ¡green ¡ blue, ¡green, ¡ yellow, ¡colors ¡ chocolate, ¡cake ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

  21. Summary ¡ • Efficient ¡learning ¡algorithms ¡for ¡Deep ¡Learning ¡Models. ¡Learning ¡ more ¡adap4ve, ¡robust, ¡and ¡structured ¡representa4ons. ¡ ¡ ¡ Learning ¡a ¡Category ¡ Image ¡Tagging ¡ Text ¡& ¡image ¡retrieval ¡/ ¡ ¡ Hierarchy ¡ Object ¡recogniGon ¡ mosque, ¡tower, ¡ building, ¡cathedral, ¡ dome, ¡castle ¡ CapGon ¡GeneraGon ¡ Speech ¡RecogniGon ¡ MulGmodal ¡Data ¡ HMM ¡decoder ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ sunset, ¡pacific ¡ocean, ¡ beach, ¡seashore ¡ • Deep ¡models ¡improve ¡the ¡current ¡state-­‑of-­‑the ¡art ¡in ¡many ¡ applica4on ¡domains: ¡ Object ¡recogni4on ¡and ¡detec4on, ¡text ¡and ¡image ¡retrieval, ¡handwri_en ¡ Ø character ¡and ¡speech ¡recogni4on, ¡and ¡others. ¡ [Courtesy, ¡R. ¡Salakhutdinov] ¡

Recommend


More recommend