learning theory and decision trees lecture 10
play

Learning theory and Decision trees Lecture 10 David - PowerPoint PPT Presentation

Learning theory and Decision trees Lecture 10 David Sontag New York University Slides adapted from Carlos Guestrin & Luke Zettlemoyer What about con:nuous hypothesis


  1. Learning ¡theory ¡and ¡Decision ¡trees ¡ Lecture ¡10 ¡ David ¡Sontag ¡ New ¡York ¡University ¡ Slides adapted from Carlos Guestrin & Luke Zettlemoyer

  2. What ¡about ¡con:nuous ¡hypothesis ¡spaces? ¡ • Con:nuous ¡hypothesis ¡space: ¡ ¡ – |H| ¡= ¡ ∞ ¡ – Infinite ¡variance??? ¡ • Only ¡care ¡about ¡the ¡maximum ¡number ¡of ¡ points ¡that ¡can ¡be ¡classified ¡exactly! ¡

  3. How ¡many ¡points ¡can ¡a ¡linear ¡boundary ¡classify ¡ exactly? ¡(1-­‑D) ¡ 2 Points: Yes!! 3 Points: No… etc (8 total)

  4. ShaLering ¡and ¡Vapnik–Chervonenkis ¡Dimension ¡ A ¡ set ¡of ¡points ¡ is ¡ sha$ered ¡by ¡a ¡hypothesis ¡ space ¡H ¡iff: ¡ – For ¡all ¡ways ¡of ¡ spli+ng ¡the ¡examples ¡into ¡ posi:ve ¡and ¡nega:ve ¡subsets ¡ – There ¡exists ¡some ¡ consistent ¡hypothesis ¡h ¡ The ¡ VC ¡Dimension ¡ of ¡H ¡over ¡input ¡space ¡X ¡ – The ¡size ¡of ¡the ¡ largest ¡finite ¡subset ¡of ¡X ¡ shaLered ¡by ¡H ¡

  5. How ¡many ¡points ¡can ¡a ¡linear ¡boundary ¡classify ¡ exactly? ¡(2-­‑D) ¡ 3 Points: Yes!! 4 Points: No… etc. [Figure from Chris Burges]

  6. How ¡many ¡points ¡can ¡a ¡linear ¡boundary ¡classify ¡ exactly? ¡(d-­‑D) ¡ • A ¡linear ¡classifier ¡∑ j=1..d w j x j ¡ + ¡b ¡ ¡can ¡ represent ¡all ¡ assignments ¡of ¡possible ¡labels ¡to ¡d+1 ¡points ¡ ¡ – But ¡not ¡d+2! ¡ – Thus, ¡VC-­‑dimension ¡of ¡d-­‑dimensional ¡linear ¡classifiers ¡is ¡ d+1 ¡ – Bias ¡term ¡b ¡required ¡ – Rule ¡of ¡Thumb: ¡number ¡of ¡parameters ¡in ¡model ¡o_en ¡ ( but ¡not ¡always ) ¡matches ¡max ¡number ¡of ¡points ¡ ¡ • Ques:on: ¡Can ¡we ¡get ¡a ¡bound ¡for ¡error ¡as ¡a ¡func:on ¡of ¡ the ¡VC-­‑dimension? ¡

  7. PAC ¡bound ¡using ¡VC ¡dimension ¡ • VC ¡dimension: ¡number ¡of ¡training ¡points ¡that ¡can ¡be ¡ classified ¡exactly ¡(shaLered) ¡by ¡hypothesis ¡space ¡H!!! ¡ – Measures ¡relevant ¡size ¡of ¡hypothesis ¡space ¡ • Same ¡bias ¡/ ¡variance ¡tradeoff ¡as ¡always ¡ – Now, ¡just ¡a ¡func:on ¡of ¡VC(H) ¡ • Note: ¡all ¡of ¡this ¡theory ¡is ¡for ¡ binary ¡classifica:on ¡ – Can ¡be ¡generalized ¡to ¡mul:-­‑class ¡and ¡also ¡regression ¡

  8. What ¡is ¡the ¡VC-­‑dimension ¡of ¡rectangle ¡ classifiers? ¡ • First, ¡show ¡that ¡there ¡are ¡4 ¡points ¡that ¡ can ¡be ¡ shaLered: ¡ • Then, ¡show ¡that ¡no ¡set ¡of ¡5 ¡points ¡can ¡be ¡ shaLered: ¡ [Figures from Anand Bhaskar, Ilya Sukhar]

  9. Generaliza:on ¡bounds ¡using ¡VC ¡dimension ¡ • Linear ¡classifiers: ¡ ¡ – VC(H) ¡= ¡d+1, ¡for ¡ d ¡features ¡plus ¡constant ¡term ¡ b ¡ • Classifiers ¡using ¡Gaussian ¡Kernel ¡ – VC(H) ¡= ¡ ∞ Euclidean distance, squared [Figure from Chris Burges] [Figure from mblondel.org]

  10. Gap ¡tolerant ¡classifiers ¡ • Suppose ¡data ¡lies ¡in ¡R d ¡in ¡a ¡ball ¡of ¡diameter ¡ D ¡ • Consider ¡a ¡hypothesis ¡class ¡H ¡of ¡linear ¡classifiers ¡that ¡can ¡only ¡ classify ¡point ¡sets ¡with ¡margin ¡at ¡least ¡ M ¡ • What ¡is ¡the ¡largest ¡set ¡of ¡points ¡that ¡H ¡can ¡shaLer? ¡ Cannot ¡shaLer ¡these ¡points: ¡ Y=0 Φ =0 Φ =1 Y=+1 D = 2 M = 3/2 Φ =0 Y=0 < M Φ = − 1 Y=-1 Y=0 Φ =0 SVM ¡a@empts ¡to ¡ d, D 2 ✓ ◆ M = 2 γ = 2 1 VC dimension = min minimize ¡ || w || 2 , ¡which ¡ || w || M 2 minimizes ¡VC-­‑dimension!!! ¡ [Figure from Chris Burges]

  11. Gap ¡tolerant ¡classifiers ¡ • Suppose ¡data ¡lies ¡in ¡R d ¡in ¡a ¡ball ¡of ¡diameter ¡ D ¡ • Consider ¡a ¡hypothesis ¡class ¡H ¡of ¡linear ¡classifiers ¡that ¡can ¡only ¡ classify ¡point ¡sets ¡with ¡margin ¡at ¡least ¡ M ¡ • What ¡is ¡the ¡largest ¡set ¡of ¡points ¡that ¡H ¡can ¡shaLer? ¡ Y=0 Φ =0 What ¡is ¡R=D/2 ¡for ¡the ¡Gaussian ¡kernel? ¡ Φ =1 Y=+1 R = max || φ ( x ) || x D = 2 p = max φ ( x ) · φ ( x ) M = 3/2 x p = max K ( x, x ) Φ =0 Y=0 x = 1 ! ¡ Φ = − 1 Y=-1 Y=0 Φ =0 d, D 2 ✓ ◆ VC dimension = min M 2 [Figure from Chris Burges]

  12. What ¡you ¡need ¡to ¡know ¡ • Finite ¡hypothesis ¡space ¡ – Derive ¡results ¡ – Coun:ng ¡number ¡of ¡hypothesis ¡ • Complexity ¡of ¡the ¡classifier ¡depends ¡on ¡number ¡of ¡ points ¡that ¡can ¡be ¡classified ¡exactly ¡ – Finite ¡case ¡– ¡number ¡of ¡hypotheses ¡considered ¡ – Infinite ¡case ¡– ¡VC ¡dimension ¡ – VC ¡dimension ¡of ¡gap ¡tolerant ¡classifiers ¡to ¡jus:fy ¡SVM ¡ • Bias-­‑Variance ¡tradeoff ¡in ¡learning ¡theory ¡

  13. Decision ¡Trees ¡

  14. Machine ¡Learning ¡in ¡the ¡ER ¡ Physician documentation Triage Information Specialist consults MD comments (blood pressure, heart (free text) rate, temperature, …) 2 hrs 30 min T=0 Repeated vital signs Disposition (continuous values) Measured every 30 s Lab results (Continuous valued)

  15. Can ¡we ¡predict ¡infec:on? ¡ Physician documentation Specialist consults Triage Information (blood pressure, heart MD comments rate, temperature, …) (free text) Many crucial decisions about a patient’s care are Repeated vital signs made here! (continuous values) Measured every 30 s Lab results (Continuous valued)

  16. Can ¡we ¡predict ¡infec:on? ¡ • Previous ¡automa:c ¡approaches ¡based ¡on ¡simple ¡criteria: ¡ – Temperature ¡< ¡96.8 ¡°F ¡or ¡> ¡100.4 ¡°F ¡ – Heart ¡rate ¡> ¡90 ¡beats/min ¡ – Respiratory ¡rate ¡> ¡20 ¡breaths/min ¡ • Too ¡simplified… ¡e.g., ¡heart ¡rate ¡depends ¡on ¡age! ¡

  17. Can ¡we ¡predict ¡infec:on? ¡ • These ¡are ¡the ¡aLributes ¡we ¡have ¡for ¡each ¡pa:ent: ¡ – Temperature ¡ – Heart ¡rate ¡(HR) ¡ – Respiratory ¡rate ¡(RR) ¡ – Age ¡ – Acuity ¡and ¡pain ¡level ¡ – Diastolic ¡and ¡systolic ¡blood ¡pressure ¡(DBP, ¡SBP) ¡ – Oxygen ¡Satura:on ¡(SaO2) ¡ • We ¡have ¡these ¡aLributes ¡+ ¡label ¡(infec:on) ¡for ¡200,000 ¡ pa:ents! ¡ • Let’s ¡ learn ¡to ¡classify ¡infec:on ¡

  18. Predic:ng ¡infec:on ¡using ¡decision ¡trees ¡

Recommend


More recommend