ANR ExTra-Learn Extraction and Transfer of Knowledge in Reinforcement Learning A. LAZARIC ANR Réunion de lancement projets, Paris SequeL INRIA Lille – Nord Europe November 4th, 2014
Consortium ANR ¡“ Jeunes ¡Chercheurs ¡Jeunes ¡Chercheuses” ¡ Programme ¡ INRIA ¡Lille ¡– ¡Nord ¡Europe ¡ SequeL ¡Team ¡ PhD ¡ Student ¡ A. ¡Lazaric ¡ (CR1) ¡ Post-‑doc ¡ (2yrs) ¡ J. ¡Mary ¡ R. ¡Munos ¡ M. ¡Valko ¡ (MdC) ¡ (DR1) ¡ (CR1) ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 2
Reinforcement Learning Environment ¡ Critic acJon ¡ observaJon ¡ reward ¡ Agent ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 3
Reinforcement Learning Environment ¡ CriJc ¡ acJon ¡ observaJon ¡ reward ¡ Learning ¡ Agent ¡ Learning ¡of ¡a ¡behavior ¡strategy ¡(a ¡policy) ¡which ¡maximizes ¡the ¡ long ¡term ¡sum ¡of ¡ rewards ¡(delayed ¡reward) ¡by ¡a ¡ direct ¡interacJon ¡ (trial-‑and-‑error) ¡with ¡an ¡ unknown ¡and ¡uncertain ¡ environment . ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 4
Reinforcement Learning Task ¡ CriEc ¡ reward ¡ observaEon ¡ acEon ¡ Agent ¡ prior ¡ knowledge ¡ designer ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 5
Transfer in Reinforcement Learning Task ¡ n+1 ¡ CriEc ¡ reward ¡ observaEon ¡ acEon ¡ Agent ¡ transferred ¡ knowledge ¡ Task ¡ 1 ¡ Task ¡ n ¡ past ¡ knowledge ¡ … ¡ Transfer ¡ Transfer ¡ of ¡knowledge ¡ across ¡tasks ¡to ¡ improve ¡ the ¡performance ¡of ¡the ¡learning ¡process ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 6
Objectives ExTra-‑Learn ¡ (2014-‑2017) ¡ Objec7ve ¡1 ¡ Objec7ve ¡2 ¡ Objec7ve ¡3 ¡ Solve ¡problems ¡ Reduce ¡sample ¡ Improve ¡ with ¡complex ¡ complexity ¡ accuracy ¡ structure ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 7
Tasks ExTra-‑Learn ¡ Objec7ve ¡1 ¡ Objec7ve ¡2 ¡ Objec7ve ¡3 ¡ Reduce ¡sample ¡ Solve ¡problems ¡with ¡ Improve ¡accuracy ¡ complexity ¡ complex ¡structure ¡ Task ¡1 ¡ Task ¡2 ¡ Task ¡3 ¡ Transfer ¡of ¡ExploraJon-‑ Transfer ¡SoluJons ¡for ¡ Hierarchical ¡ ¡ ExploitaJon ¡Strategies ¡ Approximated ¡RL ¡ Transfer ¡RL ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 8
Expected Results ExTra-‑Learn ¡ Objec7ve ¡1 ¡ Objec7ve ¡2 ¡ Objec7ve ¡3 ¡ Reduce ¡sample ¡ Solve ¡problems ¡with ¡ Improve ¡accuracy ¡ complexity ¡ complex ¡structure ¡ Task ¡1 ¡ Task ¡2 ¡ Task ¡3 ¡ Transfer ¡of ¡ExploraJon-‑ Transfer ¡SoluJons ¡for ¡ Hierarchical ¡ ¡ ExploitaJon ¡Strategies ¡ Approximated ¡RL ¡ Transfer ¡RL ¡ Models ¡and ¡algorithms ¡ Algorithms ¡with ¡ Algorithms ¡with ¡ for ¡automaJc ¡ provable ¡smaller ¡ provable ¡smaller ¡regret ¡ hierarchical ¡ predicJon ¡error ¡ decomposiJon ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 9
Expected Impact ExTra-‑Learn ¡ Objec7ve ¡1 ¡ Objec7ve ¡2 ¡ Objec7ve ¡3 ¡ Reduce ¡sample ¡ Solve ¡problems ¡with ¡ Improve ¡accuracy ¡ complexity ¡ complex ¡structure ¡ Task ¡1 ¡ Task ¡2 ¡ Task ¡3 ¡ Transfer ¡of ¡ExploraJon-‑ Transfer ¡SoluJons ¡for ¡ Hierarchical ¡ ¡ ExploitaJon ¡Strategies ¡ Approximated ¡RL ¡ Transfer ¡RL ¡ Models ¡and ¡algorithms ¡ Algorithms ¡with ¡provable ¡ Algorithms ¡with ¡provable ¡ for ¡automaJc ¡hierarchical ¡ smaller ¡regret ¡ smaller ¡predicJon ¡error ¡ decomposiJon ¡ Novel ¡learning ¡algorithms ¡with ¡potenJal ¡applicaJon ¡to ¡ ¡ recommenda:on ¡systems, ¡games, ¡educa:on ¡ online ¡trading, ¡autonomous ¡robo7cs, ¡online ¡adver7sing, ¡energy ¡management… ¡ A. LAZARIC - ExTra-Learn November 4th, 2014 - 10
ExTra-Learn https://project.inria.fr/ExTra-Learn/ (under construction) Agence Nationale de Recherche (ANR) Paris www.inria.fr
Recommend
More recommend