learning to trick robots into cooperative behavior
play

Learning to Trick Robots into Cooperative Behavior Jen Jen Chung - PowerPoint PPT Presentation

Learning to Trick Robots into Cooperative Behavior Jen Jen Chung Autonomous Agents and Distributed Intelligence Lab Oregon State University UAV Package Delivery Increasing interest


  1. Learning to Trick Robots into Cooperative Behavior Jen ¡Jen ¡Chung ¡ ¡ Autonomous ¡Agents ¡and ¡Distributed ¡Intelligence ¡Lab ¡ Oregon ¡State ¡University ¡

  2. UAV Package Delivery Increasing ¡interest ¡in ¡delivery ¡ • drones: ¡UPS, ¡Amazon, ¡etc. ¡ Dense ¡UAV ¡traffic ¡in ¡cluDered ¡ • urban ¡environment ¡ No ¡current ¡framework ¡for ¡large ¡ • scale ¡coordinaIon ¡ Jen Jen Chung | Oregon State University DEMUR 2015 1

  3. A Cross-Section of the Airspace Automated ¡UAV ¡traffic ¡ • management ¡ Challenges: ¡ • – Narrow ¡thoroughfares ¡of ¡ dense ¡traffic ¡ – Heterogeneous ¡UAVs ¡ – Dynamic ¡obstacle ¡landscape ¡ Goals ¡ • – Minimize ¡conflict ¡occurrences ¡ – Avoid ¡cascading ¡effects ¡ – Maintain ¡throughput ¡ 100m Jen Jen Chung | Oregon State University DEMUR 2015 2

  4. Multiagent UAV Traffic Management (UTM) Divide ¡airspace ¡into ¡sectors ¡ • – Assign ¡single ¡UTM ¡agent ¡to ¡ manage ¡each ¡sector ¡ MulIagent ¡team: ¡ • – UTM ¡agents ¡ individually ¡learn ¡ policy ¡for ¡assigning ¡sector ¡ traversal ¡costs ¡ – Reward ¡is ¡total ¡number ¡of ¡ conflicts ¡in ¡ global ¡system ¡ 100m Jen Jen Chung | Oregon State University DEMUR 2015 3

  5. A Hierarchical Approach Sector ¡Agents ¡ Define ¡cost ¡of ¡travel ¡in ¡each ¡sector ¡ according ¡to ¡current ¡UAV ¡density ¡ UAVs ¡ Sector-­‑level ¡planner ¡ Plans ¡across ¡sector ¡cost ¡graph ¡ Low-­‑level ¡planner ¡ Plans ¡across ¡obstacle ¡map ¡according ¡to ¡ sector ¡traversal ¡plan ¡ Jen Jen Chung | Oregon State University DEMUR 2015 4

  6. UTM Learning Agents Learn ¡the ¡cost ¡of ¡travel ¡to ¡apply ¡ • to ¡UAVs ¡in ¡the ¡sector ¡ • Neural ¡network ¡control ¡ – Inputs: ¡UAV ¡counts ¡in ¡sector ¡ § Separate ¡into ¡traffic ¡types, ¡e.g. ¡ heading, ¡priority, ¡plaTorm ¡etc. ¡ – Outputs: ¡Cost ¡of ¡through-­‑sector ¡ travel ¡for ¡each ¡traffic ¡type ¡ • CooperaIve ¡coevoluIon ¡to ¡learn ¡ NN ¡weights ¡ – Fitness ¡value: ¡number ¡of ¡conflicts ¡ Jen Jen Chung | Oregon State University DEMUR 2015 5

  7. Evolutionary Algorithms for Learning Control Policies IniIalize ¡populaIon ¡of ¡ k ¡NNs ¡ Retain ¡ k ¡best ¡performing ¡ Mutate ¡each ¡to ¡create ¡ NNs ¡ total ¡populaIon ¡of ¡2 k ¡NNs ¡ Test ¡each ¡NN ¡and ¡assess ¡fitness ¡ Jen Jen Chung | Oregon State University IROS 2015 6

  8. Cooperative Coevolutionary Algorithms (CCEAs) IniIalize ¡ M ¡populaIons ¡of ¡ k ¡NNs ¡ Retain ¡ k ¡best ¡performing ¡ Mutate ¡each ¡to ¡create ¡M ¡ NNs ¡of ¡each ¡populaIon ¡ populaIons ¡of ¡2 k ¡NNs ¡ Assess ¡team ¡performance ¡and ¡ Randomly ¡select ¡one ¡NN ¡from ¡ assign ¡fitness ¡to ¡team ¡members each ¡populaIon ¡to ¡create ¡team ¡ T i ¡ ¡ Jen Jen Chung | Oregon State University DEMUR 2015 7

  9. Simulation Experiments Urban ¡airspace ¡ • – 256×256 ¡cell ¡map ¡of ¡San ¡ Francisco ¡ – 15 ¡Voronoi ¡parIIons ¡ Fitness ¡calculaIon ¡ • – Linear: ¡no. ¡conflicts ¡at ¡each ¡ cell ¡summed ¡ – QuadraIc: ¡no. ¡conflicts ¡at ¡ each ¡cell ¡squared ¡and ¡ summed ¡ 100m Jen Jen Chung | Oregon State University DEMUR 2015 8

  10. Simulation Experiments Sector ¡agents ¡ • – IniIalized ¡with ¡populaIon ¡of ¡10 ¡NN ¡control ¡policies, ¡10% ¡mutaIon ¡noise ¡ – Inputs: ¡{n N , ¡n S , ¡n E , ¡n W } ¡ – Outputs: ¡{c N , ¡c S , ¡c E , ¡c W } ¡ – Fitness: ¡number ¡of ¡conflicts ¡ UAVs ¡ • – StochasIcally ¡generated ¡from ¡predefined ¡set ¡of ¡start ¡and ¡goal ¡locaIons ¡ – Approximately ¡100 ¡UAVs ¡in ¡airspace ¡during ¡single ¡learning ¡epoch ¡ – A* ¡planning ¡at ¡both ¡sector-­‑ ¡and ¡low-­‑level ¡ – Conflict ¡radius: ¡2 ¡cells ¡(approx. ¡4m) ¡ Jen Jen Chung | Oregon State University DEMUR 2015 9

  11. Learning Results: Total Conflicts Team ¡performance ¡over ¡ • 100 ¡learning ¡epochs ¡ Averaged ¡over ¡20 ¡trials ¡ • 16% ¡reducIon ¡in ¡total ¡ • system ¡conflicts ¡ Jen Jen Chung | Oregon State University DEMUR 2015 10

  12. Congestion Reduction: Linear Cost Fitness Function Random ¡iniIalized ¡sector ¡costs ¡ Learned ¡sector ¡costs ¡ Jen Jen Chung | Oregon State University DEMUR 2015 11

  13. Congestion Reduction: Quadratic Cost Fitness Function Random ¡iniIalized ¡sector ¡costs ¡ Learned ¡sector ¡costs ¡ Jen Jen Chung | Oregon State University DEMUR 2015 12

  14. Extensions to Sector Agent Control Policies Not ¡all ¡UAVs ¡in ¡the ¡airspace ¡are ¡ • equal ¡ Account ¡for ¡UAV ¡type ¡in ¡NN ¡ • Package ¡ Emergency ¡ inputs ¡and ¡outputs ¡ delivery ¡UAVs ¡ medical ¡UAVs ¡ Weighted ¡ Cross-­‑weighted ¡ MulI-­‑mind ¡ Jen Jen Chung | Oregon State University DEMUR 2015 13

  15. A Hierarchical Approach Sector ¡Agents ¡ Define ¡cost ¡of ¡travel ¡in ¡each ¡sector ¡ according ¡to ¡current ¡UAV ¡density ¡ UAVs ¡ Sector-­‑level ¡planner ¡ Plans ¡across ¡sector ¡cost ¡graph ¡ Low-­‑level ¡planner ¡ Plans ¡across ¡obstacle ¡map ¡according ¡to ¡ sector ¡traversal ¡plan ¡ Jen Jen Chung | Oregon State University DEMUR 2015 14

  16. Risk-Aware Graph Search (RAGS) Graph ¡search ¡with ¡uncertain ¡ • edge ¡costs ¡ – Normal ¡distribuIons ¡ Bound ¡path ¡set ¡ • – DominaIon ¡according ¡to ¡ mean ¡and ¡variance ¡ ) ∧ A . σ 2 < B . σ 2 ( ) ( A < B ↔ A . c < B . c 100m Jen Jen Chung | Oregon State University DEMUR 2015 15

  17. RAGS Path Execution A 3 ~ ! µ A m , σ A m ( ) 2 A 2 A A 1 c A 0 Start Goal B 1 c B 0 B 2 B B 3 ~ ! µ B n , σ B n ( ) 2 B 4 The ¡probability ¡that ¡traveling ¡via ¡B ¡ ¡ will ¡yield ¡a ¡cheaper ¡path ¡than ¡traveling ¡via ¡A ¡ m ∞ ( ) ∑ ⋅ 1 − P c B i > x , ∀ i ∈ 1, ! , n ( ) dx ∫ P c A i = x ; c A j > x , ∀ j ≠ i { } −∞ i = 1 Jen Jen Chung | Oregon State University DEMUR 2015 16

  18. RAGS vs. Existing Planning Algorithms TesIng ¡on ¡graph ¡with ¡100 ¡verIces ¡ • – 3 ¡sets ¡of ¡edge ¡cost ¡distribuIons ¡ ε ~ ! µ , σ 2 ( ) Edge cost = Euclidean distance + ε , [ ] µ ∈ 0,100 σ 2 ∈ 0, σ max " $ 2 2 % , = 5,10,20 { } σ max # Compared ¡against ¡ • – Naïve ¡A* ¡on ¡the ¡mean ¡ – Greedy ¡on ¡bounded ¡path ¡set ¡ – D* ¡ Jen Jen Chung | Oregon State University DEMUR 2015 17

  19. RAGS vs. Existing Planning Algorithms σ 2 ∈ 0,5 σ 2 ∈ 0,10 σ 2 ∈ 0,20 ( ) ( ) ( ) Jen Jen Chung | Oregon State University DEMUR 2015 18

  20. RAGS Integration with UTM Agents 100m Jen Jen Chung | Oregon State University DEMUR 2015 19

  21. Comparison of A* and RAGS UAVs ¡planning ¡with ¡A* ¡ UAVs ¡planning ¡with ¡RAGS ¡ Jen Jen Chung | Oregon State University DEMUR 2015 20

  22. Conclusions and Future Work Implicit ¡cooperaIon ¡by ¡learning ¡individual ¡control ¡policies ¡trained ¡on ¡ • global ¡reward ¡structures ¡ Risk-­‑aware ¡graph ¡search ¡accounts ¡for ¡modeled ¡uncertainIes ¡in ¡the ¡ • environment ¡ IniIal ¡integraIon ¡of ¡high ¡and ¡low-­‑level ¡decision ¡making ¡shows ¡faster ¡ • learning ¡rates ¡ Future ¡work ¡ • – Reward ¡shaping ¡to ¡improve ¡UTM ¡agent ¡policies ¡ – TheoreIcal ¡guarantees ¡of ¡RAGS ¡ – ValidaIon ¡and ¡verificaIon ¡ Jen Jen Chung | Oregon State University DEMUR 2015 21

  23. Acknowledgements Professors ¡ Graduate ¡Students ¡ Undergrads ¡ Interns ¡ Jen Jen Chung | Oregon State University DEMUR 2015 22

Recommend


More recommend