cse446 decision trees winter 2015
play

CSE446: Decision Trees Winter 2015 Luke Ze;lemoyer - PowerPoint PPT Presentation

CSE446: Decision Trees Winter 2015 Luke Ze;lemoyer Slides adapted from Carlos Guestrin and Andrew Moore A learning problem: predict fuel efficiency


  1. CSE446: ¡Decision ¡Trees ¡ Winter ¡2015 ¡ Luke ¡Ze;lemoyer ¡ ¡ ¡ Slides ¡adapted ¡from ¡Carlos ¡Guestrin ¡and ¡Andrew ¡Moore ¡

  2. A ¡learning ¡problem: ¡predict ¡fuel ¡efficiency ¡ mpg cylinders displacement horsepower weight acceleration modelyear maker good 4 low low low high 75to78 asia bad 6 medium medium medium medium 70to74 america bad 4 medium medium medium low 75to78 europe bad 8 high high high low 70to74 america bad 6 medium medium medium medium 70to74 america • 40 Records bad 4 low medium low medium 70to74 asia bad 4 low medium low low 70to74 asia • Discrete data bad 8 high high high low 75to78 america : : : : : : : : (for now) : : : : : : : : : : : : : : : : bad 8 high high high low 70to74 america • Predict MPG good 8 high medium high high 79to83 america bad 8 high high high low 75to78 america good 4 low low low low 79to83 america • Need to find: bad 6 medium medium medium high 75to78 america good 4 medium low low low 79to83 america f : X � Y good 4 low low medium high 79to83 america bad 8 high high high low 70to74 america good 4 low medium low medium 75to78 europe bad 5 medium medium medium medium 75to78 europe X Y From the UCI repository (thanks to Ross Quinlan)

  3. How ¡to ¡Represent ¡our ¡FuncMon? ¡ f ( ) à mpg cylinders displacement horsepower weight acceleration modelyear maker mpg cylinders displ good 4 low low low high 75to78 asia good 4 low bad 6 medium medium medium medium 70to74 america bad 6 med bad 4 medium medium medium low 75to78 europe bad 4 med bad 8 high high high low 70to74 america bad 8 high bad 6 medium medium medium medium 70to74 america bad 6 med bad 4 low medium low medium 70to74 asia bad 4 low bad 4 low medium low low 70to74 asia bad 4 low bad 8 high high high low 75to78 america bad 8 high ConjuncMons ¡in ¡ProposiMonal ¡Logic? ¡ : : : : : : : : : : : : : : : : : : : : : : ¡ : : : : : : : : : : : bad 8 high high high low 70to74 america bad 8 high good 8 high medium high high 79to83 america good 8 high maker=asia ¡ ¡ ∧ ¡ ¡weight=low ¡ bad 8 high high high low 75to78 america bad 8 high good 4 low low low low 79to83 america good 4 low bad 6 medium medium medium high 75to78 america bad 6 med good 4 medium low low low 79to83 america good 4 med good 4 low low medium high 79to83 america good 4 low bad 8 high high high low 70to74 america bad 8 high good 4 low medium low medium 75to78 europe good 4 low bad 5 medium medium medium medium 75to78 europe bad 5 med Need to find “Hypothesis”: f : X � Y

  4. Restricted ¡Hypothesis ¡Space ¡ • Many ¡possible ¡representaMons ¡ • Natural ¡choice: ¡ conjunc&on ¡of ¡a;ribute ¡constraints ¡ • For ¡each ¡a;ribute: ¡ – Constrain ¡to ¡a ¡specific ¡value: ¡eg ¡ maker=asia ¡ – Don’t ¡care: ¡ ? ¡ • For ¡example ¡ ¡ ¡ ¡ ¡ ¡ maker ¡ ¡cyl ¡ ¡ ¡ ¡displace ¡ ¡weight ¡ ¡ ¡accel ¡…. ¡ ¡ ¡ ¡ ¡ ¡asia ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡? ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡? ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡low ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡? ¡ Represents ¡ maker=asia ¡ ∧ ¡weight=low ¡

  5. Consistency ¡ • Say ¡an ¡“example ¡is ¡consistent ¡with ¡a ¡hypothesis” ¡when ¡the ¡ example ¡ logically ¡sa*sfies ¡ the ¡hypothesis ¡ • Hypothesis: ¡ ¡maker=asia ¡ ∧ ¡weight=low ¡ ¡ maker ¡ ¡cyl ¡ ¡ ¡ ¡displace ¡ ¡weight ¡ ¡ ¡accel ¡…. ¡ ¡ ¡ ¡ ¡ ¡asia ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡? ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡? ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡low ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡? ¡ • Examples: ¡ ¡ asia ¡ ¡ 5 ¡ low ¡ ¡ low ¡ low ¡ … ¡ usa ¡ 4 ¡ low ¡ low ¡ low ¡ … ¡

  6. Ordering ¡on ¡Hypothesis ¡Space ¡ h1: maker=asia ∧ accel=low x 1 ¡ asia ¡ ¡ 5 ¡ low ¡ ¡ low ¡ low ¡ x 2 ¡ usa ¡ 4 ¡ med ¡ med ¡ med ¡ h2: maker=asia h3: maker=asia ∧ weight=low

  7. Hypotheses: decision trees f : X � Y • Each internal node tests an attribute x i Cylinders ¡ • Each branch assigns an attribute 3 ¡ 4 ¡ 5 ¡ 6 ¡ 8 ¡ value x i =v good bad bad Maker ¡ Horsepower ¡ • Each leaf assigns a class y low ¡ med ¡ america ¡ asia ¡ europe ¡ high ¡ • To classify input x : bad good bad good good bad traverse the tree from root to leaf, output the labeled y

  8. Hypothesis space mpg cylinders displacement horsepower weight acceleration modelyear maker • How many possible good 4 low low low high 75to78 asia bad 6 medium medium medium medium 70to74 america hypotheses? bad 4 medium medium medium low 75to78 europe bad 8 high high high low 70to74 america bad 6 medium medium medium medium 70to74 america bad 4 low medium low medium 70to74 asia bad 4 low medium low low 70to74 asia bad 8 high high high low 75to78 america • What functions can be : : : : : : : : : : : : : : : : : : : : : : : : represented? bad 8 high high high low 70to74 america good 8 high medium high high 79to83 america bad 8 high high high low 75to78 america good 4 low low low low 79to83 america bad 6 medium medium medium high 75to78 america good 4 medium low low low 79to83 america good 4 low low medium high 79to83 america bad 8 high high high low 70to74 america good 4 low medium low medium 75to78 europe bad 5 medium medium medium medium 75to78 europe Cylinders ¡ 6 ¡ 3 ¡ 4 ¡ 5 ¡ 8 ¡ bad good bad Maker ¡ Horsepower ¡ america ¡ low ¡ med ¡ high ¡ asia ¡ europe ¡ bad good good good bad bad

  9. What ¡funcMons ¡can ¡be ¡represented? ¡ Cylinders ¡ • Decision trees can represent any boolean 6 ¡ 3 ¡ 4 ¡ 5 ¡ 8 ¡ function! bad good bad Maker ¡ Horsepower ¡ • But, could require america ¡ low ¡ med ¡ high ¡ asia ¡ europe ¡ exponentially many bad good good good bad bad nodes… cyl=3 ∨ (cyl=4 ∧ (maker=asia ∨ maker=europe)) ∨ …

  10. Hypothesis space mpg cylinders displacement horsepower weight acceleration modelyear maker • How many possible good 4 low low low high 75to78 asia bad 6 medium medium medium medium 70to74 america hypotheses? bad 4 medium medium medium low 75to78 europe bad 8 high high high low 70to74 america bad 6 medium medium medium medium 70to74 america bad 4 low medium low medium 70to74 asia bad 4 low medium low low 70to74 asia bad 8 high high high low 75to78 america • What functions can be : : : : : : : : : : : : : : : : : : : : : : : : represented? bad 8 high high high low 70to74 america good 8 high medium high high 79to83 america bad 8 high high high low 75to78 america good 4 low low low low 79to83 america bad 6 medium medium medium high 75to78 america • How many will be good 4 medium low low low 79to83 america good 4 low low medium high 79to83 america bad 8 high high high low 70to74 america consistent with a given good 4 low medium low medium 75to78 europe bad 5 medium medium medium medium 75to78 europe dataset? Cylinders ¡ • How will we choose the 6 ¡ 3 ¡ 4 ¡ 5 ¡ 8 ¡ bad good bad best one? Maker ¡ Horsepower ¡ • Lets first look at how to split america ¡ low ¡ med ¡ high ¡ asia ¡ europe ¡ nodes, then consider how to bad good good good bad bad find the best tree

  11. mpg cylinders displacement horsepower weight acceleration modelyear maker What ¡is ¡the ¡ good 4 low low low high 75to78 asia bad 6 medium medium medium medium 70to74 america bad 4 medium medium medium low 75to78 europe Simplest ¡Tree? ¡ bad 8 high high high low 70to74 america bad 6 medium medium medium medium 70to74 america bad 4 low medium low medium 70to74 asia bad 4 low medium low low 70to74 asia bad 8 high high high low 75to78 america : : : : : : : : : : : : : : : : : : : : : : : : bad 8 high high high low 70to74 america good 8 high medium high high 79to83 america bad 8 high high high low 75to78 america predict ¡ good 4 low low low low 79to83 america bad 6 medium medium medium high 75to78 america good 4 medium low low low 79to83 america mpg=bad ¡ good 4 low low medium high 79to83 america bad 8 high high high low 70to74 america good 4 low medium low medium 75to78 europe bad 5 medium medium medium medium 75to78 europe Is ¡this ¡a ¡good ¡tree? ¡ ¡Means: ¡ ¡ [22+, ¡18-­‑] ¡ ¡ ¡ ¡correct ¡on ¡22 ¡examples ¡ ¡ ¡ ¡incorrect ¡on ¡18 ¡examples ¡

  12. A ¡Decision ¡Stump ¡

Recommend


More recommend