the dueling bandits problem
play

The Dueling Bandits Problem Yisong Yue Collaborators - PowerPoint PPT Presentation

The Dueling Bandits Problem Yisong Yue Collaborators Yanan Vincent Josef Sui Zhuang Broder Joel Thorsten Bobby Burdick Joachims Kleinberg


  1. The ¡Dueling ¡Bandits ¡Problem ¡ Yisong ¡Yue ¡ ¡

  2. Collaborators Yanan ¡ Vincent ¡ Josef ¡ Sui ¡ Zhuang ¡ Broder ¡ Joel ¡ Thorsten ¡ Bobby ¡ Burdick ¡ Joachims ¡ Kleinberg ¡

  3. Outline • Brief ¡Overview ¡of ¡Mul2-­‑Armed ¡Bandits ¡ – Sequen@al ¡Experimental ¡Design ¡ • Dueling ¡Bandits ¡ – Mathema@cal ¡proper@es ¡ – Connec@ons ¡to ¡other ¡problems ¡ • Recent ¡Results ¡& ¡Ongoing ¡Research ¡

  4. Multi-Armed Bandit Problem (stochastic version) • K ¡ac@ons ¡(aka ¡arms ¡or ¡bandits) ¡ • Each ¡ac@on ¡has ¡an ¡average ¡reward: ¡μ k ¡ – Unknown ¡to ¡us ¡ – Assume ¡WLOG ¡that ¡u 1 ¡is ¡largest ¡ • For ¡t ¡= ¡1…T ¡ – Algorithm ¡chooses ¡ac@on ¡a(t) ¡ Algorithm ¡only ¡receives ¡ ¡ – Receives ¡random ¡reward ¡y(t) ¡ feedback ¡on ¡chosen ¡ac@on ¡ • Expecta@on ¡μ a(t) ¡ ¡ • Goal: ¡ minimize ¡Tu 1 ¡– ¡(μ a(1) ¡ + ¡μ a(2) ¡ + ¡… ¡+ ¡μ a(T) ) ¡ “Regret” ¡ If ¡we ¡had ¡perfect ¡informa@on ¡to ¡start ¡ Expected ¡Reward ¡of ¡Algorithm ¡

  5. Example: Interactive Personalization ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Sports ¡ : 0 Average Likes -- -- -- -- -- # Shown 0 0 0 1 0

  6. Example: Interactive Personalization ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Sports ¡ : 0 Average Likes -- -- -- 0 -- # Shown 0 0 0 1 0

  7. Example: Interactive Personalization ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Poli@cs ¡ : 0 Average Likes -- -- -- 0 -- # Shown 0 0 1 1 0

  8. Example: Interactive Personalization ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Poli@cs ¡ : 1 Average Likes -- -- 1 0 -- # Shown 0 0 1 1 0

  9. Example: Interactive Personalization ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡World ¡ : 1 Average Likes -- -- 1 0 -- # Shown 0 0 1 1 1

  10. Example: Interactive Personalization ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡World ¡ : 1 Average Likes -- -- 1 0 0 # Shown 0 0 1 1 1

  11. Example: Interactive Personalization ¡ ¡ ¡ ¡ ¡ ¡ ¡Economy ¡ : 1 Average Likes -- -- 1 0 0 # Shown 0 1 1 1 1

  12. Example: Interactive Personalization … ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Economy ¡ : 2 Average Likes -- 1 1 0 0 # Shown 0 1 1 1 1

  13. What Should Algorithm Recommend? Exploit: Explore: Best: ¡ ¡ ¡ ¡ ¡ ¡ ¡Economy ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Celebrity ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Poli@cs ¡ How ¡to ¡Op2mally ¡Balance ¡Explore/Exploit ¡Tradeoff? ¡ Characterized ¡by ¡the ¡Mul@-­‑Armed ¡Bandit ¡Problem ¡ ¡ : 24 Average Likes -- 0.44 0.4 0.33 0.2 # Shown 0 25 10 15 20

  14. ( ) ( ) + ( ) … + ( OPT ) = ( ) ( ) ( ) … ( ALG ) = + + Time Horizon Regret: ( ) − ALG ( ) R ( T ) = OPT • Opportunity ¡cost ¡of ¡not ¡knowing ¡preferences ¡ • ¡“ no-­‑regret ” ¡ ¡if ¡R(T)/T ¡ è ¡0 ¡ – Efficiency ¡measured ¡by ¡convergence ¡rate ¡

  15. Thompson Sampling • Maintain ¡distribu@on ¡over ¡rewards ¡ – 𝑄 ( ​𝜈↓ 1 ,… ​𝜈↓𝐿 | 𝑍 ) ¡ • Every ¡round: ¡ – Sample ¡ ​𝜈 ↓ 1 ,… ​𝜈 ↓𝐿 ¡ – Play ¡arm ¡with ¡highest ¡ ​𝜈 ↓𝑏 ¡ – Incorporate ¡feedback ¡into ¡ 𝑍 ¡

  16. Incentivizing Exploration # ¡Arms ¡ 𝑃(​𝐿/𝜁 log​( 𝑈 ) ) ¡ Regret ¡Bound: ¡ Time ¡horizon ¡ Gap ¡between ¡best ¡& ¡2 nd ¡best ¡ Images ¡from ¡Chu-­‑Cheng ¡Hsieh ¡ [Agrawal ¡& ¡Goyal; ¡COLT ¡2012] ¡

  17. The Motivating Problem • Slot ¡Machine ¡= ¡One-­‑Armed ¡Bandit ¡ ¡ ¡ Each ¡Arm ¡Has ¡ ¡ Different ¡Payoff ¡ • Goal: ¡ Minimize ¡regret ¡From ¡pulling ¡subop@mal ¡arms ¡ Image ¡source: ¡hhp://research.microsoj.com/en-­‑us/projects/bandits/ ¡

  18. Many Applications Online ¡Adver@sing ¡ Search ¡Engines ¡ Recommender ¡Systems ¡ Sequen2al ¡Experimental ¡Design ¡ Personalized ¡Clinical ¡ ¡ Treatment ¡

  19. What if Rewards aren’t Directly Measureable?

  20. Evaluating using Click Data Interpreta2on ¡1: ¡ Result ¡#2 ¡is ¡good. ¡ (Absolute) ¡ Interpreta2on ¡2: ¡ Result ¡#2 ¡is ¡beher ¡ than ¡Result ¡#1. ¡ (Rela@ve ¡/ ¡Preference) ¡

  21. Evaluating using Click Data Retrieval ¡Func2on ¡A ¡ Retrieval ¡Func2on ¡B ¡ Which ¡is ¡beher? ¡

  22. Analogy to Sensory Testing • (Hypothe@cal) ¡taste ¡experiment: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡vs ¡ – Natural ¡usage ¡context ¡ • Experiment ¡1: ¡ Absolute ¡Metrics ¡ Very ¡Thirsty! ¡ ¡ ¡ 3 cans 3 cans 3 cans 2 cans 1 can 5 cans Total: 8 cans Total: 9 cans

  23. Analogy to Sensory Testing • (Hypothe@cal) ¡taste ¡experiment: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡vs ¡ – Natural ¡usage ¡context ¡ • Experiment ¡1: ¡ Rela2ve ¡Metrics ¡ ¡ ¡ 2 - 1 2 - 1 3 - 0 2 - 0 1 - 0 4 - 1 All 6 prefer Pepsi

  24. Interleaving (Taste Test in Search) Ranking ¡A ¡ Ranking ¡B ¡ 1. Napa ¡Valley ¡– ¡The ¡authority ¡for ¡lodging... ¡ 1. ¡Napa ¡Country, ¡California ¡– ¡Wikipedia ¡ ¡www.napavalley.com ¡ ¡en.wikipedia.org/wiki/Napa_Valley ¡ 2. Napa ¡Valley ¡Wineries ¡-­‑ ¡Plan ¡your ¡wine... ¡ 2. ¡Napa ¡Valley ¡– ¡The ¡authority ¡for ¡lodging... ¡ ¡www.napavalley.com/wineries ¡ ¡www.napavalley.com ¡ 3. Napa ¡Valley ¡College ¡ 3. ¡Napa: ¡The ¡Story ¡of ¡an ¡American ¡Eden... ¡ ¡www.napavalley.edu/homex.asp ¡ ¡books.google.co.uk/books?isbn=... ¡ 4. ¡Been ¡There ¡| ¡Tips ¡| ¡Napa ¡Valley ¡ 4. ¡Napa ¡Valley ¡Hotels ¡– ¡Bed ¡and ¡Breakfast... ¡ ¡www.ivebeenthere.co.uk/@ps/16681 ¡ ¡www.napalinks.com ¡ Presented ¡Ranking ¡ 5. ¡Napa ¡Valley ¡Wineries ¡and ¡Wine ¡ 5. ¡NapaValley.org ¡ 1. Napa ¡Valley ¡– ¡The ¡authority ¡for ¡lodging... ¡ ¡www.napavintners.com ¡ ¡www.napavalley.org ¡ ¡www.napavalley.com ¡ 6. ¡Napa ¡Country, ¡California ¡– ¡Wikipedia ¡ 6. ¡The ¡Napa ¡Valley ¡Marathon ¡ 2. ¡Napa ¡Country, ¡California ¡– ¡Wikipedia ¡ ¡en.wikipedia.org/wiki/Napa_Valley ¡ ¡www.napavalleymarathon.org ¡ ¡en.wikipedia.org/wiki/Napa_Valley ¡ 3. ¡Napa: ¡The ¡Story ¡of ¡an ¡American ¡Eden... ¡ ¡books.google.co.uk/books?isbn=... ¡ 4. Napa ¡Valley ¡Wineries ¡– ¡Plan ¡your ¡wine... ¡ ¡www.napavalley.com/wineries ¡ 5. ¡Napa ¡Valley ¡Hotels ¡– ¡Bed ¡and ¡Breakfast... ¡ A B ¡www.napalinks.com ¡ ¡ 6. Napa ¡Balley ¡College ¡ ¡www.napavalley.edu/homex.asp ¡ [Radlinski et al. 2008] 7 ¡NapaValley.org ¡ ¡www.napavalley.org ¡

Recommend


More recommend