Consortium ANR Jeunes Chercheurs Jeunes Chercheuses Programme - PowerPoint PPT Presentation
ANR ExTra-Learn Extraction and Transfer of Knowledge in Reinforcement Learning A. LAZARIC ANR Runion de lancement projets, Paris SequeL INRIA Lille Nord Europe November 4th, 2014 Consortium ANR Jeunes Chercheurs Jeunes
ANR ExTra-Learn Extraction and Transfer of Knowledge in Reinforcement Learning A. LAZARIC ANR Réunion de lancement projets, Paris SequeL INRIA Lille – Nord Europe November 4th, 2014
Consortium ANR ¡“ Jeunes ¡Chercheurs ¡Jeunes ¡Chercheuses” ¡ Programme ¡ INRIA ¡Lille ¡– ¡Nord ¡Europe ¡ SequeL ¡Team ¡ PhD ¡ Student ¡ A. ¡Lazaric ¡ (CR1) ¡ Post-‑doc ¡ (2yrs) ¡ J. ¡Mary ¡ R. ¡Munos ¡ M. ¡Valko ¡ (MdC) ¡ (DR1) ¡ (CR1) ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 2
Reinforcement Learning Environment ¡ Critic acJon ¡ observaJon ¡ reward ¡ Agent ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 3
Reinforcement Learning Environment ¡ CriJc ¡ acJon ¡ observaJon ¡ reward ¡ Learning ¡ Agent ¡ Learning ¡of ¡a ¡behavior ¡strategy ¡(a ¡policy) ¡which ¡maximizes ¡the ¡ long ¡term ¡sum ¡of ¡ rewards ¡(delayed ¡reward) ¡by ¡a ¡ direct ¡interacJon ¡ (trial-‑and-‑error) ¡with ¡an ¡ unknown ¡and ¡uncertain ¡ environment . ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 4
Reinforcement Learning Task ¡ CriEc ¡ reward ¡ observaEon ¡ acEon ¡ Agent ¡ prior ¡ knowledge ¡ designer ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 5
Transfer in Reinforcement Learning Task ¡ n+1 ¡ CriEc ¡ reward ¡ observaEon ¡ acEon ¡ Agent ¡ transferred ¡ knowledge ¡ Task ¡ 1 ¡ Task ¡ n ¡ past ¡ knowledge ¡ … ¡ Transfer ¡ Transfer ¡ of ¡knowledge ¡ across ¡tasks ¡to ¡ improve ¡ the ¡performance ¡of ¡the ¡learning ¡process ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 6
Objectives ExTra-‑Learn ¡ (2014-‑2017) ¡ Objec7ve ¡1 ¡ Objec7ve ¡2 ¡ Objec7ve ¡3 ¡ Solve ¡problems ¡ Reduce ¡sample ¡ Improve ¡ with ¡complex ¡ complexity ¡ accuracy ¡ structure ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 7
Tasks ExTra-‑Learn ¡ Objec7ve ¡1 ¡ Objec7ve ¡2 ¡ Objec7ve ¡3 ¡ Reduce ¡sample ¡ Solve ¡problems ¡with ¡ Improve ¡accuracy ¡ complexity ¡ complex ¡structure ¡ Task ¡1 ¡ Task ¡2 ¡ Task ¡3 ¡ Transfer ¡of ¡ExploraJon-‑ Transfer ¡SoluJons ¡for ¡ Hierarchical ¡ ¡ ExploitaJon ¡Strategies ¡ Approximated ¡RL ¡ Transfer ¡RL ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 8
Expected Results ExTra-‑Learn ¡ Objec7ve ¡1 ¡ Objec7ve ¡2 ¡ Objec7ve ¡3 ¡ Reduce ¡sample ¡ Solve ¡problems ¡with ¡ Improve ¡accuracy ¡ complexity ¡ complex ¡structure ¡ Task ¡1 ¡ Task ¡2 ¡ Task ¡3 ¡ Transfer ¡of ¡ExploraJon-‑ Transfer ¡SoluJons ¡for ¡ Hierarchical ¡ ¡ ExploitaJon ¡Strategies ¡ Approximated ¡RL ¡ Transfer ¡RL ¡ Models ¡and ¡algorithms ¡ Algorithms ¡with ¡ Algorithms ¡with ¡ for ¡automaJc ¡ provable ¡smaller ¡ provable ¡smaller ¡regret ¡ hierarchical ¡ predicJon ¡error ¡ decomposiJon ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 9
Expected Impact ExTra-‑Learn ¡ Objec7ve ¡1 ¡ Objec7ve ¡2 ¡ Objec7ve ¡3 ¡ Reduce ¡sample ¡ Solve ¡problems ¡with ¡ Improve ¡accuracy ¡ complexity ¡ complex ¡structure ¡ Task ¡1 ¡ Task ¡2 ¡ Task ¡3 ¡ Transfer ¡of ¡ExploraJon-‑ Transfer ¡SoluJons ¡for ¡ Hierarchical ¡ ¡ ExploitaJon ¡Strategies ¡ Approximated ¡RL ¡ Transfer ¡RL ¡ Models ¡and ¡algorithms ¡ Algorithms ¡with ¡provable ¡ Algorithms ¡with ¡provable ¡ for ¡automaJc ¡hierarchical ¡ smaller ¡regret ¡ smaller ¡predicJon ¡error ¡ decomposiJon ¡ Novel ¡learning ¡algorithms ¡with ¡potenJal ¡applicaJon ¡to ¡ ¡ recommenda:on ¡systems, ¡games, ¡educa:on ¡ online ¡trading, ¡autonomous ¡robo7cs, ¡online ¡adver7sing, ¡energy ¡management… ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 10
ExTra-Learn https://project.inria.fr/ExTra-Learn/ (under construction) Agence Nationale de Recherche (ANR) Paris www.inria.fr
Recommend
More recommend
Explore More Topics
Stay informed with curated content and fresh updates.