No More Adam: Learning Rate Scaling at Initialization is All You Need

Update: 2024-12-20

Description

🤗 Upvotes: 177 | cs.LG, cs.AI

Authors:

Minghao Xu, Lichuan Xiang, Xu Cai, Hongkai Wen

Title:

No More Adam: Learning Rate Scaling at Initialization is All You Need

Arxiv:

http://arxiv.org/abs/2412.11768v2

Abstract:

In this work, we question the necessity of adaptive gradient methods for training deep neural networks. SGD-SaI is a simple yet effective enhancement to stochastic gradient descent with momentum (SGDM). SGD-SaI performs learning rate Scaling at Initialization (SaI) to distinct parameter groups, guided by their respective gradient signal-to-noise ratios (g-SNR). By adjusting learning rates without relying on adaptive second-order momentum, SGD-SaI helps prevent training imbalances from the very first iteration and cuts the optimizer's memory usage by half compared to AdamW. Despite its simplicity and efficiency, SGD-SaI consistently matches or outperforms AdamW in training a variety of Transformer-based tasks, effectively overcoming a long-standing challenge of using SGD for training Transformers. SGD-SaI excels in ImageNet-1K classification with Vision Transformers(ViT) and GPT-2 pretraining for large language models (LLMs, transformer decoder-only), demonstrating robustness to hyperparameter variations and practicality for diverse applications. We further tested its robustness on tasks like LoRA fine-tuning for LLMs and diffusion models, where it consistently outperforms state-of-the-art optimizers. From a memory efficiency perspective, SGD-SaI achieves substantial memory savings for optimizer states, reducing memory usage by 5.93 GB for GPT-2 (1.5B parameters) and 25.15 GB for Llama2-7B compared to AdamW in full-precision training settings.

Comments

Top Podcasts

The Best New Comedy Podcast Right Now – June 2024 The Best News Podcast Right Now – June 2024 The Best New Business Podcast Right Now – June 2024 The Best New Sports Podcast Right Now – June 2024 The Best New True Crime Podcast Right Now – June 2024 The Best New Joe Rogan Experience Podcast Right Now – June 20 The Best New Dan Bongino Show Podcast Right Now – June 20 The Best New Mark Levin Podcast – June 2024

In Channel

Qwen2.5 Technical Report

2024-12-2125:31

MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

2024-12-2123:02

LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks

2024-12-2123:11

How to Synthesize Text Data without Model Collapse?

2024-12-2124:20

Flowing from Words to Pixels: A Framework for Cross-Modality Evolution

2024-12-2119:57

Affordance-Aware Object Insertion via Mask-Aware Dual Diffusion

2024-12-2120:44

LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

2024-12-2121:08

DI-PCG: Diffusion-based Efficient Inverse Procedural Content Generation for High-quality 3D Asset Creation

2024-12-2123:08

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

2024-12-2124:09

No More Adam: Learning Rate Scaling at Initialization is All You Need

2024-12-2021:59

Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

2024-12-2021:56

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

2024-12-2024:45

AniDoc: Animation Creation Made Easier

2024-12-2022:20

FashionComposer: Compositional Fashion Image Generation

2024-12-2019:47

GUI Agents: A Survey

2024-12-2021:01

Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning

2024-12-2022:42

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

2024-12-2020:41

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

2024-12-2020:52

Are Your LLMs Capable of Stable Reasoning?

2024-12-1924:11

Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models

2024-12-1922:34

00:00

1.0x

No More Adam: Learning Rate Scaling at Initialization is All You Need

Jingwen Liang, Gengyu Wang

#box-pro-ellipsis-173490920466819{-webkit-line-clamp:2;}No More Adam: Learning Rate Scaling at Initialization is All You Need

No More Adam: Learning Rate Scaling at Initialization is All You Need

Jingwen Liang, Gengyu Wang

No More Adam: Learning Rate Scaling at Initialization is All You Need