neural turing machines
play

Neural Turing Machines Can neural nets learn programs? - PowerPoint PPT Presentation

Neural Turing Machines Can neural nets learn programs? Alex Graves Greg Wayne Ivo Danihelka Contents 1. IntroducBon 2. FoundaBonal


  1. Neural ¡Turing ¡Machines ¡ Can ¡neural ¡nets ¡learn ¡programs? ¡ ¡ ¡ ¡ Alex ¡Graves ¡ ¡ ¡ Greg ¡Wayne ¡ ¡ ¡ Ivo ¡Danihelka ¡

  2. Contents ¡ 1. IntroducBon ¡ 2. FoundaBonal ¡Research ¡ 3. Neural ¡Turing ¡Machines ¡ 4. Experiments ¡ 5. Conclusions ¡

  3. IntroducBon ¡ • First ¡applicaBon ¡of ¡Machine ¡Learning ¡to ¡logical ¡ flow ¡and ¡external ¡memory ¡

  4. IntroducBon ¡ • First ¡applicaBon ¡of ¡Machine ¡Learning ¡to ¡logical ¡ flow ¡and ¡external ¡memory ¡ • Extend ¡the ¡capabiliBes ¡of ¡neural ¡networks ¡by ¡ coupling ¡them ¡to ¡external ¡memory ¡

  5. IntroducBon ¡ • First ¡applicaBon ¡of ¡Machine ¡Learning ¡to ¡logical ¡ flow ¡and ¡external ¡memory ¡ • Extend ¡the ¡capabiliBes ¡of ¡neural ¡networks ¡by ¡ coupling ¡them ¡to ¡external ¡memory ¡ • Analogous ¡to ¡TM ¡coupling ¡a ¡finite ¡state ¡ machine ¡to ¡infinite ¡tape ¡

  6. IntroducBon ¡ • First ¡applicaBon ¡of ¡Machine ¡Learning ¡to ¡logical ¡ flow ¡and ¡external ¡memory ¡ • Extend ¡the ¡capabiliBes ¡of ¡neural ¡networks ¡by ¡ coupling ¡them ¡to ¡external ¡memory ¡ • Analogous ¡to ¡TM ¡coupling ¡a ¡finite ¡state ¡ machine ¡to ¡infinite ¡tape ¡ • RNN’s ¡have ¡been ¡shown ¡to ¡be ¡Turing-­‑ Complete, ¡Siegelmann ¡et ¡al ¡‘95 ¡

  7. IntroducBon ¡ • First ¡applicaBon ¡of ¡Machine ¡Learning ¡to ¡logical ¡ flow ¡and ¡external ¡memory ¡ • Extend ¡the ¡capabiliBes ¡of ¡neural ¡networks ¡by ¡ coupling ¡them ¡to ¡external ¡memory ¡ • Analogous ¡to ¡TM ¡coupling ¡a ¡finite ¡state ¡ machine ¡to ¡infinite ¡tape ¡ • RNN’s ¡have ¡been ¡shown ¡to ¡be ¡Turing-­‑ Complete, ¡Siegelmann ¡et ¡al ¡‘95 ¡ • Unlike ¡TM, ¡NTM ¡is ¡completely ¡differenBable ¡

  8. FoundaBonal ¡Research ¡ • Neuroscience ¡and ¡Psychology ¡ – Concept ¡of ¡“working ¡memory”: ¡short-­‑term ¡ memory ¡storage ¡and ¡rule ¡based ¡manipulaBon ¡ – Also ¡known ¡as ¡“rapidly ¡created ¡variables” ¡

  9. FoundaBonal ¡Research ¡ • Neuroscience ¡and ¡Psychology ¡ – Concept ¡of ¡“working ¡memory”: ¡short-­‑term ¡ memory ¡storage ¡and ¡rule ¡based ¡manipulaBon ¡ – Also ¡known ¡as ¡“rapidly ¡created ¡variables” ¡ – ObservaBonal ¡neuroscience ¡results ¡in ¡the ¡pre-­‑ frontal ¡cortex ¡and ¡basal ¡ganglia ¡of ¡monkeys ¡

  10. FoundaBonal ¡Research ¡ • Neuroscience ¡and ¡Psychology ¡ • CogniBve ¡Science ¡and ¡LinguisBcs ¡ – AI ¡and ¡CogniBve ¡Science ¡were ¡contemporaneous ¡ in ¡1950’s-­‑1970’s ¡

  11. FoundaBonal ¡Research ¡ • Neuroscience ¡and ¡Psychology ¡ • CogniBve ¡Science ¡and ¡LinguisBcs ¡ – AI ¡and ¡CogniBve ¡Science ¡were ¡contemporaneous ¡ in ¡1950’s-­‑1970’s ¡ – Two ¡fields ¡parted ¡ways ¡when ¡neural ¡nets ¡received ¡ criBcism, ¡Fodor ¡et ¡al. ¡‘88 ¡ • Incapable ¡of ¡“variable-­‑binding” ¡ ¡ – eg ¡“Mary ¡spoke ¡to ¡John” ¡ • Incapable ¡of ¡handling ¡variable ¡sized ¡input ¡

  12. FoundaBonal ¡Research ¡ • Neuroscience ¡and ¡Psychology ¡ • CogniBve ¡Science ¡and ¡LinguisBcs ¡ – AI ¡and ¡CogniBve ¡Science ¡were ¡contemporaneous ¡ in ¡1950’s-­‑1970’s ¡ – Two ¡fields ¡parted ¡ways ¡when ¡neural ¡nets ¡received ¡ criBcism, ¡Fodor ¡et ¡al. ¡’88 ¡ – MoBvated ¡Recurrent ¡Networks ¡research ¡to ¡handle ¡ variable ¡binding ¡and ¡variable ¡length ¡input ¡

  13. FoundaBonal ¡Research ¡ • Neuroscience ¡and ¡Psychology ¡ • CogniBve ¡Science ¡and ¡LinguisBcs ¡ – AI ¡and ¡CogniBve ¡Science ¡were ¡contemporaneous ¡ in ¡1950’s-­‑1970’s ¡ – Two ¡fields ¡parted ¡ways ¡when ¡neural ¡nets ¡received ¡ criBcism, ¡Fodor ¡et ¡al. ¡’88 ¡ – MoBvated ¡Recurrent ¡Networks ¡research ¡to ¡handle ¡ variable ¡binding ¡and ¡variable ¡length ¡input ¡ – Recursive ¡processing ¡hot ¡debate ¡topic ¡in ¡role ¡ inhuman ¡evoluBon ¡(Pinker ¡vs ¡Chomsky) ¡

  14. FoundaBonal ¡Research ¡ • Neuroscience ¡and ¡Psychology ¡ • CogniBve ¡Science ¡ad ¡LinguisBcs ¡ • Recurrent ¡Neural ¡networks ¡ ¡ – Broad ¡class ¡of ¡machines ¡with ¡distributed ¡and ¡ dynamic ¡state ¡

  15. FoundaBonal ¡Research ¡ • Neuroscience ¡and ¡Psychology ¡ • CogniBve ¡Science ¡ad ¡LinguisBcs ¡ • Recurrent ¡Neural ¡networks ¡ ¡ – Broad ¡class ¡of ¡machines ¡with ¡distributed ¡and ¡ dynamic ¡state ¡ – Long ¡Short ¡Term ¡Memory ¡RNN’s ¡designed ¡to ¡ handle ¡vanishing ¡and ¡exploding ¡gradient ¡

  16. FoundaBonal ¡Research ¡ • Neuroscience ¡and ¡Psychology ¡ • CogniBve ¡Science ¡ad ¡LinguisBcs ¡ • Recurrent ¡Neural ¡networks ¡ ¡ – Broad ¡class ¡of ¡machines ¡with ¡distributed ¡and ¡ dynamic ¡state ¡ – Long ¡Short ¡Term ¡Memory ¡RNN’s ¡designed ¡to ¡ handle ¡vanishing ¡and ¡exploding ¡gradient ¡ – NaBvely ¡handle ¡variable ¡length ¡structures ¡

  17. Neural ¡Turing ¡Machines ¡

  18. Neural ¡Turing ¡Machines ¡

  19. Neural ¡Turing ¡Machines ¡ 1. Reading ¡ – M t ¡ is ¡NxM ¡matrix ¡of ¡memory ¡at ¡Bme ¡t ¡

  20. Neural ¡Turing ¡Machines ¡ 1. Reading ¡ – M t ¡ is ¡NxM ¡matrix ¡of ¡memory ¡at ¡Bme ¡t ¡ – w t ¡

  21. Neural ¡Turing ¡Machines ¡ 1. Reading ¡ 2. WriBng ¡involves ¡both ¡erasing ¡and ¡adding ¡

  22. Neural ¡Turing ¡Machines ¡ 1. Reading ¡ 2. WriBng ¡involves ¡both ¡erasing ¡and ¡adding ¡

  23. Neural ¡Turing ¡Machines ¡ 1. Reading ¡ 2. WriBng ¡involves ¡both ¡erasing ¡and ¡adding ¡ 3. Addressing ¡

  24. Neural ¡Turing ¡Machines ¡ • 3. ¡Addressing ¡ – 1. ¡Focusing ¡by ¡Content ¡ • Each ¡head ¡produces ¡key ¡vector ¡ k t ¡of ¡length ¡M ¡ • Generated ¡a ¡content ¡based ¡weight ¡ w t c ¡ based ¡on ¡ similarity ¡measure, ¡using ¡‘key ¡strength’ ¡β t ¡ ¡

  25. Neural ¡Turing ¡Machines ¡ • 3. ¡Addressing ¡ – 2. ¡InterpolaBon ¡ • Each ¡head ¡emits ¡a ¡scalar ¡interpolaBon ¡gate ¡g t ¡ ¡

  26. Neural ¡Turing ¡Machines ¡ • 3. ¡Addressing ¡ – 3. ¡ConvoluBonal ¡shif ¡ • Each ¡head ¡emits ¡a ¡distribuBon ¡over ¡allowable ¡integer ¡ shifs ¡ s t ¡

  27. Neural ¡Turing ¡Machines ¡ • 3. ¡Addressing ¡ – 4. ¡Sharpening ¡ • Each ¡head ¡emits ¡a ¡scalar ¡sharpening ¡parameter ¡γ t ¡ ¡

  28. Neural ¡Turing ¡Machines ¡ • 3. ¡Addressing ¡(puhng ¡it ¡all ¡together) ¡

  29. Neural ¡Turing ¡Machines ¡ • 3. ¡Addressing ¡(puhng ¡it ¡all ¡together) ¡ – This ¡can ¡operate ¡in ¡three ¡complementary ¡modes ¡ • A ¡weighBng ¡can ¡be ¡chosen ¡by ¡the ¡content ¡system ¡ without ¡any ¡modificaBon ¡by ¡the ¡locaBon ¡system ¡

  30. Neural ¡Turing ¡Machines ¡ • 3. ¡Addressing ¡(puhng ¡it ¡all ¡together) ¡ – This ¡can ¡operate ¡in ¡three ¡complementary ¡modes ¡ • A ¡weighBng ¡can ¡be ¡chosen ¡by ¡the ¡content ¡system ¡ without ¡any ¡modificaBon ¡by ¡the ¡locaBon ¡system ¡ • A ¡weighBng ¡produced ¡by ¡the ¡content ¡addressing ¡ system ¡can ¡be ¡chosen ¡and ¡then ¡shifed ¡

  31. Neural ¡Turing ¡Machines ¡ • 3. ¡Addressing ¡(puhng ¡it ¡all ¡together) ¡ – This ¡can ¡operate ¡in ¡three ¡complementary ¡modes ¡ • A ¡weighBng ¡can ¡be ¡chosen ¡by ¡the ¡content ¡system ¡ without ¡any ¡modificaBon ¡by ¡the ¡locaBon ¡system ¡ • A ¡weighBng ¡produced ¡by ¡the ¡content ¡addressing ¡ system ¡can ¡be ¡chosen ¡and ¡then ¡shifed ¡ • A ¡weighBng ¡from ¡the ¡previous ¡Bme ¡step ¡can ¡be ¡rotated ¡ without ¡any ¡input ¡from ¡the ¡content-­‑based ¡addressing ¡ system ¡

Recommend


More recommend