Intro AlphaGo AlphaGo Zero AlphaZero Summary A Deep Journey of Playing Games with RL NSE Seminar Kim Hammar kimham@kth.se January 31, 2020 1 / 41
2 / 41 Why Combine the two? Branching factor = 3 香 桂 香 歩 角 銀 香 桂 VA LV E 歩 歩 角 銀 金 R 歩 桂 x 1 , 3 x 0 , 3 歩 香 金 Ply 3 歩 角 桂 歩 銀 玉 香 歩 歩 歩 角 歩 銀 金 金 歩 桂 歩 玉 歩 歩 香 香 歩 歩 金 金 銀 歩 歩 角 歩 桂 桂 銀 歩 玉 桂 歩 歩 歩 金 歩 銀 香 角 歩 歩 歩 角 角 歩 銀 銀 歩 歩 玉 金 角 香 歩 歩 歩 歩 歩 銀 桂 x 1 , 2 x 0 , 2 香 桂 角 歩 歩 歩 歩 歩 金 金 歩 金 歩 角 香 銀 歩 歩 歩 歩 歩 歩 玉 歩 桂 桂 歩 歩 歩 歩 銀 Depth = 3 香 角 金 歩 歩 歩 歩 歩 玉 玉 歩 金 角 香 銀 歩 歩 歩 歩 歩 銀 歩 桂 ˆ y Ply 2 香 桂 角 歩 歩 歩 歩 歩 歩 金 歩 金 角 香 銀 金 歩 歩 歩 歩 歩 桂 桂 歩 歩 玉 歩 歩 歩 歩 歩 歩 銀 銀 香 角 金 歩 歩 歩 金 歩 歩 歩 歩 歩 角 桂 桂 香 桂 銀 歩 玉 歩 歩 歩 歩 香 香 角 角 金 歩 歩 歩 銀 歩 角 歩 歩 歩 角 角 香 香 x 1 , 1 x 0 , 1 銀 玉 金 歩 歩 歩 歩 桂 桂 歩 歩 銀 歩 桂 角 歩 歩 歩 金 金 歩 香 歩 銀 銀 玉 歩 歩 桂 歩 歩 歩 金 金 歩 銀 歩 歩 角 歩 玉 金 香 歩 歩 銀 歩 歩 桂 角 歩 金 香 歩 Ply 1 玉 玉 桂 歩 歩 b 1 b 0 金 金 銀 角 歩 歩 歩 桂 香 銀 銀 角 角 歩 歩 香 桂 桂 香 香 P P P p P P s t + 1 p P P p P P P Environment p p k P P p p P k P Action a t p p p P P k P V V V V V r t + 1 b p Q k P N N N N N O O O O O b p Q k P C C C C C b p p Q k k P P r t s t b K N Q b K Q N b b K N Q Q K r N Agent K r N r K K N N r r r r Games AI & Machine Learning Why Games Summary AlphaZero AlphaGo Zero AlphaGo Intro
Intro AlphaGo AlphaGo Zero AlphaZero Summary Why Games AI & Machine Learning Games r r r r N N r K K N K r N K r Agent Q Q N K b b N Q K b Q N K b Action a t P P k k Q p p b s t r t P k Q p b C C C C C P k Q p b P P p p r t + 1 O O O O O P k p N N N N N P p V V V V V P k p P p P k p P p P P Environment P p P P P p s t + 1 P P P 香 香 桂 桂 香 銀 銀 歩 歩 角 角 角 角 桂 歩 歩 香 金 金 歩 角 角 桂 銀 b 0 b 1 歩 歩 香 歩 金 玉 玉 Ply 1 歩 角 角 歩 歩 銀 歩 香 桂 金 玉 歩 歩 角 角 歩 歩 銀 歩 金 金 歩 歩 歩 香 桂 歩 歩 玉 銀 銀 歩 歩 角 角 銀 歩 金 金 歩 歩 歩 歩 桂 歩 玉 歩 桂 桂 歩 歩 歩 金 歩 金 銀 香 香 角 角 角 角 歩 歩 歩 歩 角 角 歩 銀 歩 歩 歩 角 角 桂 香 香 x 0 , 1 x 1 , 1 桂 桂 歩 歩 歩 歩 歩 金 歩 玉 金 歩 歩 銀 香 角 角 歩 歩 歩 歩 歩 歩 角 桂 香 桂 銀 銀 歩 歩 歩 歩 歩 歩 玉 歩 歩 歩 銀 Depth = 3 香 角 角 金 金 歩 歩 歩 歩 歩 歩 金 角 香 銀 歩 歩 歩 歩 歩 歩 銀 桂 Ply 2 y ˆ 香 桂 角 角 金 玉 玉 歩 歩 歩 歩 歩 歩 金 歩 角 香 銀 歩 歩 歩 歩 歩 歩 銀 歩 桂 香 桂 歩 角 角 玉 歩 歩 歩 歩 歩 歩 角 香 銀 歩 金 歩 金 金 歩 歩 歩 歩 歩 桂 x 0 , 2 x 1 , 2 桂 玉 歩 歩 歩 歩 香 角 角 金 歩 金 銀 歩 銀 角 角 歩 歩 歩 歩 角 香 桂 銀 玉 歩 歩 桂 桂 歩 歩 歩 金 金 歩 銀 歩 角 歩 歩 銀 歩 桂 香 歩 香 歩 金 玉 銀 歩 歩 角 歩 金 歩 香 歩 玉 銀 歩 桂 角 歩 Ply 3 金 香 歩 x 0 , 3 x 1 , 3 銀 桂 角 歩 金 香 歩 歩 桂 銀 角 歩 VA LV E R 桂 香 Branching factor = 3 香 Why Combine the two? ▸ AI & Games have a long history (Turing ’50& Minsky 60’) ▸ Simple to evaluate, reproducible, controllable, quick feedback loop ▸ Common benchmark for the research community 2 / 41
Intro AlphaGo AlphaGo Zero AlphaZero Summary 1997: DeepBlue 1 vs Kasparov 2em1 1 Murray Campbell, A. Joseph Hoane, and Feng-hsiung Hsu. “Deep Blue”. In: Artif. Intell. 134.1–2 (Jan. 2002), 57–83. issn : 0004-3702. doi : 10.1016/S0004- 3702(01)00129- 1 . url : https://doi.org/10.1016/S0004-3702(01)00129-1 . 3 / 41
Intro AlphaGo AlphaGo Zero AlphaZero Summary 1992: Tesauro’s TD-Gammon 2 2em1 2 Gerald Tesauro. “TD-Gammon, a Self-Teaching Backgammon Program, Achieves Master-Level Play”. In: Neural Comput. 6.2 (Mar. 1994), 215–219. issn : 0899-7667. doi : 10.1162/neco.1994.6.2.215 . url : https://doi.org/10.1162/neco.1994.6.2.215 . 4 / 41
Intro AlphaGo AlphaGo Zero AlphaZero Summary 1959: Arthur Samuel’s Checkers Player 3 2em1 3 A. L. Samuel. “Some Studies in Machine Learning Using the Game of Checkers”. In: IBM J. Res. Dev. 3.3 (July 1959), 210–229. issn : 0018-8646. doi : 10.1147/rd.33.0210 . url : https://doi.org/10.1147/rd.33.0210 , A. L. Samuel. “Some Studies in Machine Learning Using the Game of Checkers”. In: IBM J. Res. Dev. 3.3 (July 1959), 210–229. issn : 0018-8646. doi : 10.1147/rd.33.0210 . url : https://doi.org/10.1147/rd.33.0210 . 5 / 41
Intro AlphaGo AlphaGo Zero AlphaZero Summary 6 / 41
Intro AlphaGo AlphaGo Zero AlphaZero Summary 7 / 41
Intro AlphaGo AlphaGo Zero AlphaZero Summary Papers in Focus Today ▸ AlphaGo 4 ▸ AlphaGo Zero 5 ▸ AlphaZero 6 AlphaGo AlphaGo Zero Alpha Zero Nature, 6.5k citations Nature, 2.5k citations Science, 400 citations 2016 2017 2018 2em1 4 David Silver et al. “Mastering the Game of Go with Deep Neural Networks and Tree Search”. In: Nature 529.7587 (Jan. 2016), pp. 484–489. doi : 10.1038/nature16961 . 2em1 5 David Silver et al. “Mastering the game of Go without human knowledge”. In: Nature 550 (Oct. 2017), pp. 354–. url : http://dx.doi.org/10.1038/nature24270 . 2em1 6 David Silver et al. “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play”. In: Science 362.6419 (2018), pp. 1140–1144. url : http : //science.sciencemag.org/content/362/6419/1140/tab-pdf . 8 / 41
Intro AlphaGo AlphaGo Zero AlphaZero Summary The Reinforcement Learning Problem ▸ Notation; policy : π , state : s , reward : r , action : a ▸ Agent’s goal: maximize reward, R t = ∞ 0 ≤ γ ≤ 1 ∑ γ k r t + k + 1 k = 0 ▸ RL’s goal, find optimal policy π ∗ = max π E [ R ∣ π ] Agent Action a t s t r t r t + 1 Environment s t + 1 9 / 41
Intro AlphaGo AlphaGo Zero AlphaZero Summary RL Examples: Elevator (Crites & Barto ’95 7 ) select(up,down,wait,stop at floor 1 , ⋯ ,n ) a t + 1 y ˆ x 1 , 1 x 1 , 2 x 1 , 3 b 1 x 0 , 1 x 0 , 2 x 0 , 3 b 0 Elevator Agent r t + 1 Observations ElevatorPosition Reward ∈ R 2em1 7 Robert H. Crites and Andrew G. Barto. “Improving Elevator Performance Using Re- inforcement Learning”. In: Proceedings of the 8th International Conference on Neural Information Processing Systems . NIPS’95. Denver, Colorado: MIT Press, 1995, 1017–1023. 10 / 41
Intro AlphaGo AlphaGo Zero AlphaZero Summary RL Examples: Atari (Mnih ’15) 8 a t + 1 ⋯ Q ( s,a 1 ) Q ( s,a 18 ) DQN Agent r t + 1 Observations Reward ∈ R Screen frames ∈ R 4 × 84 × 84 2em1 8 Volodymyr Mnih et al. “Human-level control through deep reinforcement learning”. In: Nature 518.7540 (Feb. 2015), pp. 529–533. issn : 00280836. url : http://dx.doi.org/10.1038/ nature14236 . 11 / 41
Intro AlphaGo AlphaGo Zero AlphaZero Summary How to Act Optimally? (Bellman 57’ 9 ) ∞ optimal ( s t ) = max E [ γ k − 1 r t + k ∣ s t ] ∑ π k = 1 2em1 9 Richard Bellman. Dynamic Programming . Dover Publications, 1957. isbn : 9780486428093. 12 / 41
Intro AlphaGo AlphaGo Zero AlphaZero Summary How to Act Optimally? (Bellman 57’ 10 ) ∞ optimal ( s t ) = max E [ γ k − 1 r t + k ∣ s t ] ∑ π k = 1 ∞ = max E [ r t + 1 γ k − 1 r t + k ∣ s t ] ∑ π k = 2 ∞ = max a t E [ r t + 1 + max E [ ∑ γ k − 1 r t + k ∣ s t + 1 ]∣ s t ] π k = 2 = max a t E [ r t + 1 + γ max E [ ∞ γ k − 2 r t + k ∣ s t + 1 ]∣ s t ] ∑ π k = 2 ∞ = max a t E [ r t + 1 + γ max E [ γ k − 2 r t + k ∣ s t + 1 ]∣ s t ] ∑ π k = 2 = max a t E [ r t + 1 + γoptimal ( s t + 1 )∣ s t ] 12 / 41 2em1 10 Richard Bellman. Dynamic Programming . Dover Publications, 1957. isbn : 9780486428093.
Intro AlphaGo AlphaGo Zero AlphaZero Summary Reinforcement Learning: An Overview Deep Reinforcement Learning Gradient ∇ θ L ( y, ˆ y ) b 0 b 1 ⎛ ⎞ x 1 ⎜ ⎟ ⋮ x 0 , 1 x 1 , 1 ⎜ ⎟ y ˆ L ( y, ˆ y ) ⎝ ⎠ y ˆ x n x 0 , 2 x 1 , 2 C C C C C O O O O O x 0 , 3 x 1 , 3 N N N N N V V V V V Features Model θ Prediction Loss Algorithms: DQN, DDPG, Double-DQN 13 / 41
Recommend
More recommend