consortium
play

Consortium ANR Jeunes Chercheurs Jeunes Chercheuses Programme - PowerPoint PPT Presentation

ANR ExTra-Learn Extraction and Transfer of Knowledge in Reinforcement Learning A. LAZARIC ANR Runion de lancement projets, Paris SequeL INRIA Lille Nord Europe November 4th, 2014 Consortium ANR Jeunes Chercheurs Jeunes


  1. ANR ExTra-Learn Extraction and Transfer of Knowledge in Reinforcement Learning A. LAZARIC ANR Réunion de lancement projets, Paris SequeL INRIA Lille – Nord Europe November 4th, 2014

  2. Consortium ANR ¡“ Jeunes ¡Chercheurs ¡Jeunes ¡Chercheuses” ¡ Programme ¡ INRIA ¡Lille ¡– ¡Nord ¡Europe ¡ SequeL ¡Team ¡ PhD ¡ Student ¡ A. ¡Lazaric ¡ (CR1) ¡ Post-­‑doc ¡ (2yrs) ¡ J. ¡Mary ¡ R. ¡Munos ¡ M. ¡Valko ¡ (MdC) ¡ (DR1) ¡ (CR1) ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 2

  3. Reinforcement Learning Environment ¡ Critic acJon ¡ observaJon ¡ reward ¡ Agent ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 3

  4. Reinforcement Learning Environment ¡ CriJc ¡ acJon ¡ observaJon ¡ reward ¡ Learning ¡ Agent ¡ Learning ¡of ¡a ¡behavior ¡strategy ¡(a ¡policy) ¡which ¡maximizes ¡the ¡ long ¡term ¡sum ¡of ¡ rewards ¡(delayed ¡reward) ¡by ¡a ¡ direct ¡interacJon ¡ (trial-­‑and-­‑error) ¡with ¡an ¡ unknown ¡and ¡uncertain ¡ environment . ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 4

  5. Reinforcement Learning Task ¡ CriEc ¡ reward ¡ observaEon ¡ acEon ¡ Agent ¡ prior ¡ knowledge ¡ designer ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 5

  6. Transfer in Reinforcement Learning Task ¡ n+1 ¡ CriEc ¡ reward ¡ observaEon ¡ acEon ¡ Agent ¡ transferred ¡ knowledge ¡ Task ¡ 1 ¡ Task ¡ n ¡ past ¡ knowledge ¡ … ¡ Transfer ¡ Transfer ¡ of ¡knowledge ¡ across ¡tasks ¡to ¡ improve ¡ the ¡performance ¡of ¡the ¡learning ¡process ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 6

  7. Objectives ExTra-­‑Learn ¡ (2014-­‑2017) ¡ Objec7ve ¡1 ¡ Objec7ve ¡2 ¡ Objec7ve ¡3 ¡ Solve ¡problems ¡ Reduce ¡sample ¡ Improve ¡ with ¡complex ¡ complexity ¡ accuracy ¡ structure ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 7

  8. Tasks ExTra-­‑Learn ¡ Objec7ve ¡1 ¡ Objec7ve ¡2 ¡ Objec7ve ¡3 ¡ Reduce ¡sample ¡ Solve ¡problems ¡with ¡ Improve ¡accuracy ¡ complexity ¡ complex ¡structure ¡ Task ¡1 ¡ Task ¡2 ¡ Task ¡3 ¡ Transfer ¡of ¡ExploraJon-­‑ Transfer ¡SoluJons ¡for ¡ Hierarchical ¡ ¡ ExploitaJon ¡Strategies ¡ Approximated ¡RL ¡ Transfer ¡RL ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 8

  9. Expected Results ExTra-­‑Learn ¡ Objec7ve ¡1 ¡ Objec7ve ¡2 ¡ Objec7ve ¡3 ¡ Reduce ¡sample ¡ Solve ¡problems ¡with ¡ Improve ¡accuracy ¡ complexity ¡ complex ¡structure ¡ Task ¡1 ¡ Task ¡2 ¡ Task ¡3 ¡ Transfer ¡of ¡ExploraJon-­‑ Transfer ¡SoluJons ¡for ¡ Hierarchical ¡ ¡ ExploitaJon ¡Strategies ¡ Approximated ¡RL ¡ Transfer ¡RL ¡ Models ¡and ¡algorithms ¡ Algorithms ¡with ¡ Algorithms ¡with ¡ for ¡automaJc ¡ provable ¡smaller ¡ provable ¡smaller ¡regret ¡ hierarchical ¡ predicJon ¡error ¡ decomposiJon ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 9

  10. Expected Impact ExTra-­‑Learn ¡ Objec7ve ¡1 ¡ Objec7ve ¡2 ¡ Objec7ve ¡3 ¡ Reduce ¡sample ¡ Solve ¡problems ¡with ¡ Improve ¡accuracy ¡ complexity ¡ complex ¡structure ¡ Task ¡1 ¡ Task ¡2 ¡ Task ¡3 ¡ Transfer ¡of ¡ExploraJon-­‑ Transfer ¡SoluJons ¡for ¡ Hierarchical ¡ ¡ ExploitaJon ¡Strategies ¡ Approximated ¡RL ¡ Transfer ¡RL ¡ Models ¡and ¡algorithms ¡ Algorithms ¡with ¡provable ¡ Algorithms ¡with ¡provable ¡ for ¡automaJc ¡hierarchical ¡ smaller ¡regret ¡ smaller ¡predicJon ¡error ¡ decomposiJon ¡ Novel ¡learning ¡algorithms ¡with ¡potenJal ¡applicaJon ¡to ¡ ¡ recommenda:on ¡systems, ¡games, ¡educa:on ¡ online ¡trading, ¡autonomous ¡robo7cs, ¡online ¡adver7sing, ¡energy ¡management… ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 10

  11. ExTra-Learn https://project.inria.fr/ExTra-Learn/ (under construction) Agence Nationale de Recherche (ANR) Paris www.inria.fr

Recommend


More recommend