Regularization Effect of Large Initial Learning Rate Yuanzhi Li* - PowerPoint PPT Presentation

Regularization Effect of Large Initial Learning Rate Yuanzhi Li* Colin Wei* Tengyu Ma Carnegie Mellon University Stanford University Stanford University

Large Initial Learning Rate is Crucial for Generalization

Large Initial Learning Rate is Crucial for Generalization • Common schedule: large initial learning rate + annealing

Large Initial Learning Rate is Crucial for Generalization • Common schedule: large initial learning rate + annealing • … But small learning rate: better train and test performance up until annealing Train Accuracy Val Accuracy annealing

Large Initial Learning Rate is Crucial for Generalization • Common schedule: large initial learning rate + annealing • … But small learning rate: better train and test performance up until annealing Train Accuracy Val Accuracy annealing • Large LR outperforms small LR after annealing!

LR schedule changes order of learning patterns => generalization

LR schedule changes order of learning patterns => generalization • Small LR quickly memorizes hard-to-fit “class signatures”

LR schedule changes order of learning patterns => generalization • Small LR quickly memorizes hard-to-fit “class signatures” • Ignores other patterns, harming generalization

LR schedule changes order of learning patterns => generalization • Small LR quickly memorizes hard-to-fit “class signatures” • Ignores other patterns, harming generalization • Large initial LR + annealing learns easy-to-fit patterns first

LR schedule changes order of learning patterns => generalization • Small LR quickly memorizes hard-to-fit “class signatures” • Ignores other patterns, harming generalization • Large initial LR + annealing learns easy-to-fit patterns first • Only memorizes hard-to-fit patterns after annealing

LR schedule changes order of learning patterns => generalization • Small LR quickly memorizes hard-to-fit “class signatures” • Ignores other patterns, harming generalization • Large initial LR + annealing learns easy-to-fit patterns first • Only memorizes hard-to-fit patterns after annealing • => learns to use all patterns, helping generalization!

LR schedule changes order of learning patterns => generalization • Small LR quickly memorizes hard-to-fit “class signatures” • Ignores other patterns, harming generalization • Large initial LR + annealing learns easy-to-fit patterns first • Only memorizes hard-to-fit patterns after annealing • => learns to use all patterns, helping generalization! • Intuition: larger LR • ⇒ larger noise in activations

LR schedule changes order of learning patterns => generalization • Small LR quickly memorizes hard-to-fit “class signatures” • Ignores other patterns, harming generalization • Large initial LR + annealing learns easy-to-fit patterns first • Only memorizes hard-to-fit patterns after annealing • => learns to use all patterns, helping generalization! • Intuition: larger LR • ⇒ larger noise in activations • ⇒ effectively weaker representational power

LR schedule changes order of learning patterns => generalization • Small LR quickly memorizes hard-to-fit “class signatures” • Ignores other patterns, harming generalization • Large initial LR + annealing learns easy-to-fit patterns first • Only memorizes hard-to-fit patterns after annealing • => learns to use all patterns, helping generalization! • Intuition: larger LR • ⇒ larger noise in activations • ⇒ effectively weaker representational power • ⇒ won’t overfit to “signatures”

LR schedule changes order of learning patterns => generalization • Small LR quickly memorizes hard-to-fit “class signatures” • Ignores other patterns, harming generalization • Large initial LR + annealing learns easy-to-fit patterns first • Only memorizes hard-to-fit patterns after annealing • => learns to use all patterns, helping generalization! • Intuition: larger LR • ⇒ larger noise in activations • ⇒ effectively weaker representational power • ⇒ won’t overfit to “signatures” • Non-convexity is crucial: different LR schedules find different solutions

Demonstration on Modified CIFAR10

Demonstration on Modified CIFAR10 Group 1: 20% examples with hard-to-generalize, easy-to- fit patterns original image

Demonstration on Modified CIFAR10 Group 1: 20% examples with Group 2: 20% examples with hard-to-generalize, easy-to- easy-to-generalize, hard-to- fit patterns fit patterns original image hard-to-fit patch indicating class

Demonstration on Modified CIFAR10 Group 1: 20% examples with Group 2: 20% examples with Group 3: 60% examples hard-to-generalize, easy-to- easy-to-generalize, hard-to- with both patterns fit patterns fit patterns original image hard-to-fit patch indicating class

Demonstration on Modified CIFAR10 Group 1: 20% examples with Group 2: 20% examples with Group 3: 60% examples hard-to-generalize, easy-to- easy-to-generalize, hard-to- with both patterns fit patterns fit patterns original image hard-to-fit patch indicating class • Small LR memorizes patch, ignores rest of the image • ⇒ learns image from 20% examples

Demonstration on Modified CIFAR10 Group 1: 20% examples with Group 2: 20% examples with Group 3: 60% examples hard-to-generalize, easy-to- easy-to-generalize, hard-to- with both patterns fit patterns fit patterns original image hard-to-fit patch indicating class • Small LR memorizes patch, ignores rest of the image • ⇒ learns image from 20% examples • Large initial LR initially ignores patch, only learns it after annealing • ⇒ learns image from 80% examples

Theoretical Setting Group 1: 20% examples with Group 2: 20% examples with Group 3: 60% examples hard-to-generalize, easy-to- easy-to-generalize, hard-to- with both patterns fit patterns fit patterns linearly classifiable patterns

Theoretical Setting Group 1: 20% examples with Group 2: 20% examples with Group 3: 60% examples hard-to-generalize, easy-to- easy-to-generalize, hard-to- with both patterns fit patterns fit patterns clustered but not linearly classifiable patterns linearly separable

Theoretical Setting Group 1: 20% examples with Group 2: 20% examples with Group 3: 60% examples hard-to-generalize, easy-to- easy-to-generalize, hard-to- with both patterns fit patterns fit patterns Contains both clustered but not linearly classifiable patterns patterns linearly separable

Conclusion

Conclusion • Small LR optimizes faster, but generalizes worse than large initial LR + annealing

Conclusion • Small LR optimizes faster, but generalizes worse than large initial LR + annealing • Explanation: order of learning pattern types • Easy-to-generalize, hard-to-fit patterns • Hard-to-generalize, easy-to-fit patterns

Conclusion • Small LR optimizes faster, but generalizes worse than large initial LR + annealing • Explanation: order of learning pattern types • Easy-to-generalize, hard-to-fit patterns • Hard-to-generalize, easy-to-fit patterns • SGD noise from large LR is mechanism for regularization

Conclusion • Small LR optimizes faster, but generalizes worse than large initial LR + annealing • Explanation: order of learning pattern types • Easy-to-generalize, hard-to-fit patterns • Hard-to-generalize, easy-to-fit patterns • SGD noise from large LR is mechanism for regularization Come find our poster: 10:45 AM -- 12:45 PM @ East Exhibition Hall B + C #144!

Regularization Effect of Large Initial Learning Rate Yuanzhi Li* - PowerPoint PPT Presentation

Regularization Effect of Large Initial Learning Rate Yuanzhi Li* Colin Wei* Tengyu Ma Carnegie Mellon University Stanford University Stanford University Large Initial Learning Rate is Crucial for Generalization Large Initial Learning Rate is

Labor Classification Yrs Rate 1 Rate 2 Rate 3 Rate 4 Rate 5 Rate 6 Rate 7 Rate 8 Rate 9

Introduction CSCE 970 CSCE 970 Lecture 3: Lecture 3: Regularization Regularization CSCE 970

Regularization Regularization is a general approach to add a complexity parameter to a

10. Regularization More on tradeoffs Regularization Effect of using different norms

Regularization Overview Regularization Overview Problems & Multicollinearity We will

Regularization for Multi-Output Learning Lorenzo Rosasco 9.520 L. Rosasco Regularization for

Bell Schedule 2020-21 Initial Data Initial Data Initial Data Initial

CS7015 (Deep Learning) : Lecture 8 Regularization: Bias Variance Tradeoff, l2 regularization,

Manifold Regularization Lorenzo Rosasco MIT, 9.520 L. Rosasco Manifold Regularization About

Variable Rate Debt Options: Auction Rate Securities Auction Rate Securities What are Auction Rate

The Learning Problem and Regularization Tomaso Poggio 9.520 Class 02 September 2015 Tomaso

The Learning Problem and Regularization Tomaso Poggio 9.520 Class 02 February 2011 Tomaso

The Learning Problem and Regularization Tomaso Poggio 9.520 Class 02 September 2014 Tomaso

Regularization via Spectral Filtering Lorenzo Rosasco MIT, 9.520 Class 7 L. Rosasco

Regularization Paths Boosting fits a regularization path toward a max-margin classifier.

LIC-Based Regularization of Multi-Valued Images David Tschumperl CNRS UMR 6072 (GREYC/ENSICAEN)

Recommendations in Context Francesco Ricci Free University of Bolzano/ Bozen fricci@unibz.it

ALICE - ONE YEAR LATER LES - Silicon Valley Chapter July 22, 2015 Panelists: Michael Zachary

Deep Dive: CNCF Serverless WG/ CloudEvents Agenda CloudEvents demo Deployment pipeline

Web Development: Youre Doing it Wrong Stefan Tilkov, innoQ QCon London 2013 Session # 9770

Stirling Numbers of the Second Kind and Primality Joe DeMaio, Stephen Touset Department of

Tutorial Slides for Week 12 ENEL 353: Digital Circuits Fall 2015 Term Steve Norman, PhD, PEng

Curvature: how quickly does a curve change direction? 1 2 3 The normal and binormal vectors

E-commerce issues ROME 24 | 28 SEPTEMBER 2018 Mary Beth Garneau (Statisitics Canada) Erika

Regularization Effect of Large Initial Learning Rate Yuanzhi Li* - PowerPoint PPT Presentation

Regularization Effect of Large Initial Learning Rate Yuanzhi Li* Colin Wei* Tengyu Ma Carnegie Mellon University Stanford University Stanford University Large Initial Learning Rate is Crucial for Generalization Large Initial Learning Rate is

Labor Classification Yrs Rate 1 Rate 2 Rate 3 Rate 4 Rate 5 Rate 6 Rate 7 Rate 8 Rate 9

Introduction CSCE 970 CSCE 970 Lecture 3: Lecture 3: Regularization Regularization CSCE 970

Regularization Regularization is a general approach to add a complexity parameter to a

10. Regularization More on tradeoffs Regularization Effect of using different norms

Regularization Overview Regularization Overview Problems &amp; Multicollinearity We will

Regularization for Multi-Output Learning Lorenzo Rosasco 9.520 L. Rosasco Regularization for

Bell Schedule 2020-21 Initial Data Initial Data Initial Data Initial

CS7015 (Deep Learning) : Lecture 8 Regularization: Bias Variance Tradeoff, l2 regularization,

Manifold Regularization Lorenzo Rosasco MIT, 9.520 L. Rosasco Manifold Regularization About

Variable Rate Debt Options: Auction Rate Securities Auction Rate Securities What are Auction Rate

The Learning Problem and Regularization Tomaso Poggio 9.520 Class 02 September 2015 Tomaso

The Learning Problem and Regularization Tomaso Poggio 9.520 Class 02 February 2011 Tomaso

The Learning Problem and Regularization Tomaso Poggio 9.520 Class 02 September 2014 Tomaso

Regularization via Spectral Filtering Lorenzo Rosasco MIT, 9.520 Class 7 L. Rosasco

Regularization Paths Boosting fits a regularization path toward a max-margin classifier.

LIC-Based Regularization of Multi-Valued Images David Tschumperl CNRS UMR 6072 (GREYC/ENSICAEN)

Recommendations in Context Francesco Ricci Free University of Bolzano/ Bozen fricci@unibz.it

ALICE - ONE YEAR LATER LES - Silicon Valley Chapter July 22, 2015 Panelists: Michael Zachary

Deep Dive: CNCF Serverless WG/ CloudEvents Agenda CloudEvents demo Deployment pipeline

Web Development: Youre Doing it Wrong Stefan Tilkov, innoQ QCon London 2013 Session # 9770

Stirling Numbers of the Second Kind and Primality Joe DeMaio, Stephen Touset Department of

Tutorial Slides for Week 12 ENEL 353: Digital Circuits Fall 2015 Term Steve Norman, PhD, PEng

Curvature: how quickly does a curve change direction? 1 2 3 The normal and binormal vectors

E-commerce issues ROME 24 | 28 SEPTEMBER 2018 Mary Beth Garneau (Statisitics Canada) Erika

Regularization Overview Regularization Overview Problems & Multicollinearity We will