3 months ago

Domain-independent Dominance of Adaptive Methods

Pedro Savarese David McAllester Sudarshan Babu Michael Maire

Abstract

From a simplified analysis of adaptive methods, we derive AvaGrad, a new optimizer which outperforms SGD on vision tasks when its adaptability is properly tuned. We observe that the power of our method is partially explained by a decoupling of learning rate and adaptability, greatly simplifying hyperparameter search. In light of this observation, we demonstrate that, against conventional wisdom, Adam can also outperform SGD on vision tasks, as long as the coupling between its learning rate and adaptability is taken into account. In practice, AvaGrad matches the best results, as measured by generalization accuracy, delivered by any existing optimizer (SGD or adaptive) across image classification (CIFAR, ImageNet) and character-level language modelling (Penn Treebank) tasks.

Code Repositories

lolemacs/avagrad

Official

pytorch

Mentioned in GitHub

Benchmarks

Benchmark	Methodology	Metrics
stochastic-optimization-on-cifar-10-wrn-28-10	Adam (eps-adjusted)	Accuracy: 96.36
stochastic-optimization-on-cifar-10-wrn-28-10	AdamW	Accuracy: 95.89
stochastic-optimization-on-cifar-10-wrn-28-10	AdaBound	Accuracy: 94.6
stochastic-optimization-on-cifar-10-wrn-28-10	AvaGrad	Accuracy: 96.2
stochastic-optimization-on-cifar-10-wrn-28-10	AdaShift	Accuracy: 95.92
stochastic-optimization-on-cifar-10-wrn-28-10	SGD	Accuracy: 96.14
stochastic-optimization-on-cifar-100-wrn-28	Adam (eps-adjusted)	Accuracy: 81.04
stochastic-optimization-on-cifar-100-wrn-28	AvaGrad	Accuracy: 81.24
stochastic-optimization-on-cifar-100-wrn-28	AdaBound	Accuracy: 77.24
stochastic-optimization-on-cifar-100-wrn-28	AdamW	Accuracy: 79.87
stochastic-optimization-on-cifar-100-wrn-28	AdaShift	Accuracy: 81.12
stochastic-optimization-on-cifar-100-wrn-28	SGD	Accuracy: 80.95
stochastic-optimization-on-imagenet-resnet-50-2	AvaGrad	Top 1 Accuracy: 76.51
stochastic-optimization-on-imagenet-resnet-50-2	SGD	Top 1 Accuracy: 75.99
stochastic-optimization-on-imagenet-resnet-50-2	AdaBound	Top 1 Accuracy: 72.01
stochastic-optimization-on-imagenet-resnet-50-2	AdamW	Top 1 Accuracy: 72.9
stochastic-optimization-on-penn-treebank	AdaShift	Bit per Character (BPC): 1.274
stochastic-optimization-on-penn-treebank	AdaBound	Bit per Character (BPC): 2.863
stochastic-optimization-on-penn-treebank	AvaGrad	Bit per Character (BPC): 1.175
stochastic-optimization-on-penn-treebank	AdamW	Bit per Character (BPC): 1.23

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started

Hyper Newsletters

Subscribe to our latest updates

We will deliver the latest updates of the week to your inbox at nine o'clock every Monday morning

Command Palette