 
              Lecture 2: Model-based classification Felix Held, Mathematical Sciences MSA220/MVE440 Statistical Learning for Big Data 28th March 2019
Reprise: Statistical Learning (I) ๐ ๐ฝ ๐(๐ง|๐ฒ) [๐ง] โ ๐ฒ ๐ ๐ธ (GLM)) 2. linear regression (viewpoint: generalized linear models ๐ง ๐ ๐ ๐ฒ ๐๐ โ๐ ๐ (๐ฒ) โ 1/25 Regression 1. k-nearest neighbour regression ๐(๐ฒ) = ๐ฝ ๐(๐ง|๐ฒ) [๐ง] ห loss โถ Theoretically best regression function for squared error โถ Approximate (1) or make model-assumptions (2) ๐ฝ ๐(๐ง|๐ฒ) [๐ง] โ 1
Reprise: Statistical Learning (II) Classification sensible model assumptions instead? 2. Instead of approximating ๐(๐|๐ฒ) from data, can we make ๐ฒ ๐ โ๐ ๐ (๐ฒ) โ ๐ 1. k-nearest neighbour classification ๐(๐|๐ฒ) 1โค๐โค๐ฟ ๐(๐ฒ) = arg max ฬ possible classes 2/25 โถ Theoretically best classification rule for 0-1 loss and ๐ฟ โถ Approximate (1) or make model-assumptions (2) ๐(๐|๐ฒ) โ 1 1 (๐ ๐ = ๐)
Amendment: kNN methods There are two choices to make when implementing a kNN method 1. The metric to determine a neighbourhood 2. The number of neighbours, i.e. ๐ The choice of metric changes the underlying local model of the method while ๐ is a tuning parameter. 3/25 โถ e.g. Euclidean/ โ 2 norm, Manhattan/ โ 1 norm, max norm, โฆ
Model-based classification
Classification as regression 0 1 Note that ๐ฒ ๐ ๐ธ = otherwise 1 2 1 ๐ฒ ๐ ๐ธ โค 4/25 model approximation for Bayesโ rule as well ๐(0|๐ฒ) = 1 โ ๐(1|๐ฒ) โ 1 โ ๐ฒ ๐ ๐ธ , we indirectly specified a ๐(1|๐ฒ) = ๐ฝ ๐(๐|๐ฒ) [๐] โ ๐ฒ ๐ ๐ธ Note that ๐ has a discrete distribution. ๐ฝ ๐(๐|๐ฒ) [๐] = 0 โ ๐(0|๐ฒ) + 1 โ ๐(1|๐ฒ) = ๐(1|๐ฒ) โถ Consider a two-class problem, with ๐ ๐ = 0 or ๐ ๐ = 1 โถ Instead of 0-1 loss, use square error loss, i.e. โถ Linear regression model assumption โถ Since we are approximating ๐(1|๐ฒ) and ๐(๐ฒ) = { 2 defines the decision boundary
0-1 regression The solid black lines show the decision boundary . 5/25 4.5 โ 1.0 โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ 4.0 โ โ โ โ โ โ โ โ โ โ Sepal Width โ โ โ 3.5 โ โ โ โ โ โ Coding โ โ โ โ โ โ โ โ โ โ โ โ โ 0.5 โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ 3.0 โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ 2.5 โ โ โ โ โ โ โ โ โ โ 0.0 โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ 2.0 โ 5 6 7 5 6 7 Sepal Length Sepal Length Species setosa versicolor โ โ
0-1 regressions and outliers 6/25 5 โ โ Case โ โ โ โ โ โ โ โ โ โ โ โ โ โ x 2 โ โ No outlier โ โ โ โ โ โ โ โ โ 0 โ โ โ โ With Outlier โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ5 โ โ 0 5 10 x 1
Dummy encoding for categorical variables In regression, when a predictor ๐ฆ is categorical , i.e. takes one Example: ๐ฆ = 1 โ ๐จ = (1, 0, 0) ๐ฆ = 2 โ ๐จ = (0, 1, 0) ๐ฆ = 3 โ ๐จ = (0, 0, 1) Idea Turn a classification problem into a regression problem by as vectors in dummy encoding. 7/25 of ๐ฟ values, it is common to use a dummy encoding . representing the class outcomes ๐ ๐ in the training data (๐ ๐ , ๐ฒ ๐ )
Multiple classes ๐(๐ฆ) = arg max for ๐ โ ๐ ๐ฒ ๐ ๐ธ (๐) 1โค๐โค๐ฟ ๐(๐|๐ฒ) โ arg max 1โค๐โค๐ฟ 8/25 ๐ ๐จ (๐ฟ) โฎ ๐ ๐จ (1) blackboard). If there are ๐ฟ classes then โถ This creates a sequence of 0-1 regressions (see โถ= 1 (๐ ๐ = 1) โ ๐(๐จ (1) = 1|๐ฒ) โ ๐ฒ ๐ ๐ธ (1) โถ= 1 (๐ ๐ = ๐ฟ) โ ๐(๐จ (๐ฟ) = 1|๐ฒ) โ ๐ฒ ๐ ๐ธ (๐ฟ) โถ Note that ๐(๐|๐ฒ) = ๐(๐จ (๐) = 1|๐ฒ) โ ๐ฒ ๐ ๐ธ (๐) โถ Classification rule Decision boundaries are defined by ๐(๐ฆ) = ๐ฒ ๐ ๐พ (๐) = ๐ฒ ๐ ๐พ (๐)
Multiple 0-1 regressions 9/25 1 โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ Coding โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ 0 โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ 1 โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ Coding โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ 0 โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ 0 5 10 Predictor Class โ 1 โ 2 โ 3
Problems with 0-1 regression Observations : 1. ๐ฒ ๐ ๐ธ is unbounded but models a probability ๐(๐|๐ฒ) โ [0, 1] 2. Only values of ๐ฒ ๐ ๐ธ around 0.5 (for binary classification) or close to the maximal value (for multiple classes) are really of interest. 3. Sensitive to points far away from the boundary (outliers) (adding polynomial predictors can sometimes help, but this is arbitrary and data dependent) Inspiration from GLM Can we transform ๐ฒ ๐ ๐ธ such that the transformed values are in [0, 1] , are similar to the original values when close to 0.5 and insensitive outliers far away from the boundary? 10/25 4. Masking: Classes can get buried among other classes
Logistic function and Normal Distribution CDF Logistic (sigmoid) function โ2๐ 1 โโ ๐ฆ Standard Normal CDF 1 + exp (๐ฆ) exp (๐ฆ) ๐(๐ฆ) = 11/25 1.00 0.75 0.50 y 0.25 0.00 โ4 โ2 0 2 4 x Type Logistic Function Standard Normal CDF ฮฆ(๐ฆ) = โซ exp (โ๐จ 2 2 ) d ๐จ
(occurs seldom in practice) Logistic and probit regression more predictors forces the intercept to โโ and the corresponding predictor coefficient to +โ . 12/25 โถ We arrive at logistic regression when assuming ๐(1|๐ฒ) = ๐ฝ ๐(๐|๐ฒ) [๐] = ๐ โ1 (๐ฒ ๐ ๐ธ) or probit regression when assuming ๐(1|๐ฒ) = ๐ฝ ๐(๐|๐ฒ) [๐] = ฮฆ โ1 (๐ฒ ๐ ๐ธ) โถ Parameters can be estimated by iteratively reweighted least squares (Details in ESL Ch. 4.4.1) โถ A warning: Problematic situation in two-class case โถ Assume two classes can be separated perfectly in one or โถ Logistic regression tries to fit a step-like function, which
Logistic regression and outliers 13/25 5 Case โ โ โ โ โ โ 0โ1: no outlier โ โ โ โ โ x 2 โ โ โ โ โ โ โ โ โ โ 0โ1: with outlier โ โ โ โ โ โ 0 โ โ โ โ โ โ Logistic: with outlier โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ5 โ 0 5 10 x 1
Multi-class logistic regression ๐ (๐ด) = classifier, โฆ multinomial logistic regression, maximum entropy ๐ฟโ1 ๐ ๐ฒ ๐ (๐ธ (๐) โ๐ธ (๐ฟ) ) ๐(๐|๐ฒ) = or ๐ฟ โ ๐ ๐ฒ ๐ ๐ธ (๐) ๐(๐|๐ฒ) = ๐ (๐จ ๐ โ๐จ ๐ฟ ) ๐ฟโ1 ๐ โ outcome leads again to a series of regression problems. ๐ ๐ (๐ด) = โ ๐ ๐จ ๐ 14/25 ๐ฟ โถ In case of ๐ฟ > 2 classes, using dummy encoding for the โถ Requirement: Probabilities should be modelled, i.e. in ๐(๐|๐ฒ) โ [0, 1] for each class and โ ๐ ๐(๐|๐ฒ) = 1 โถ Softmax function: ๐ โถ โ ๐ฟ โฆ [0, 1] ๐ฟ ๐=1 ๐ ๐จ ๐ 1 + โ ๐=1 ๐ (๐จ ๐ โ๐จ ๐ฟ ) โถ Model now: ๐=1 ๐ ๐ฒ ๐ ๐ธ (๐) 1 + โ ๐=1 ๐ ๐ฒ ๐ (๐ธ (๐) โ๐ธ (๐ฟ) ) โถ This method has many names: softmax regression,
Recommend
More recommend