Lecture 5: Classification and dimension reduction Felix Held, Mathematical Sciences MSA220/MVE440 Statistical Learning for Big Data 4th April 2019
Random Forests 1. Given a training sample with ๐ features, do for ๐ = 1, โฆ , ๐ถ on bootstrapped data. Note: Step 1.2.1 leads to less correlation between trees built Majority vote at ๐ฒ across trees Classification: ๐ถ 1 ๐ ๐ (๐ฒ) = ๐ ห Regression: 2. For a new ๐ฒ predict 1.2.3 Split the node 1.2.2 Find best splitting variable among these ๐ 1.2.1 Randomly select ๐ variables from the ๐ available ๐ min replacement) 1.1 Draw a bootstrap sample of size ๐ from training data (with 1/21 1.2 Grow a tree ๐ ๐ until each node reaches minimal node size ๐ถ โ ๐=1 ๐ ๐ (๐ฒ)
Comparison of RF, Bagging and CART ๐ฒ โผ ๐(๐, ๐ป), ๐ฒ โ โ 5 , Toy example Training and test data were sampled from the true model. Results 2/21 ๐ โผ ๐(0, 1) ๐ง = ๐ฆ 2 where 1 + ๐ ๐ป ๐๐ = 1, ๐ป ๐๐ = 0.98, ๐ โ ๐ for RF, bagged CART and a single CART, using ๐ฆ 1 , โฆ , ๐ฆ 5 as predictor variables. ( ๐ ๐ข๐ = 50 , ๐ ๐ข๐ = 100 ) โ Test error 2.1 โ โ 1.8 โ โ โ โ โ โ โ โ โ 1.5 โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ 0 100 200 300 Number of trees
Variable importance set for that particular tree, since they were not used serves as an importance measure for variable ๐ 1 ๐น (๐) 1 calculate test error again ๐น (๐) 1. Impurity index: Splitting on a feature leads to a reduction during training. Resulting in test error ๐น 0 a chance of about 63% to be selected trees per feature gives a measure for variable importance of node impurity. Summing all improvements over all 3/21 2. Out-of-bag error โถ During bootstrapping for large enough ๐ , each sample has โถ For bagging the remaining samples are out-of-bag . โถ These out-of-bag samples for tree ๐ ๐ can be used as a test โถ Permute variable ๐ in the out-of-bag samples and โถ The increase in error โ ๐น 0 โฅ 0
RF applied to cardiovascular dataset Monica dataset ( http://thl.fi/monica , ๐ = 6367 , ๐ = 11 ) 4/21 number of cardiovascular risk factors (class ratio 1.25 alive : 1 dead) Predicting whether or not patients survive a 10 year period given a Error estimate Variable importance 0.25 โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ yronset โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ stroke Type โ โ Type Alive Acc. smstat Alive 0.20 โ Dead Acc. Dead โ Outโofโbag error Mean Acc. sex โ OOB Mean Gini โ โ premi โ โ โ 0.15 โ โ โ โ โ โ โ โ โ โ โ hosp โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ highbp โ 0.10 โ hichol โ โ โ โ โ diabetes โ โ โ โ โ โ โ 0.05 โ angina โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ age โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ 0 50 100 150 200 0 1 2 3 Number of Trees Decrease
Recommend
More recommend