学习率论文 - 专知

会员服务 ·

学习率

Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules

Arxiv

0+阅读 · 11月3日

Arithmetic-Mean $μ$P for Modern Architectures: A Unified Learning-Rate Scale for CNNs and ResNets

Arxiv

0+阅读 · 11月27日

Representation Meets Optimization: Training PINNs and PIKANs for Gray-Box Discovery in Systems Pharmacology

Arxiv

0+阅读 · 11月14日

OBLR-PO: A Theoretical Framework for Stable Reinforcement Learning

Arxiv

0+阅读 · 11月28日

Conflicting Biases at the Edge of Stability: Norm versus Sharpness Regularization

Arxiv

0+阅读 · 12月18日

Straight to Zero: Why Linearly Decaying the Learning Rate to Zero Works Best for LLMs

Arxiv

0+阅读 · 11月23日

Neuronal Fluctuations: Learning Rates vs Participating Neurons

Arxiv

0+阅读 · 11月13日

Adaptive Decentralized Federated Learning for Robust Optimization

Arxiv

0+阅读 · 12月3日

Adaptive Decentralized Federated Learning for Robust Optimization

Arxiv

0+阅读 · 12月2日

How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining

Arxiv

0+阅读 · 11月24日

Nonparametric Instrumental Variable Regression with Observed Covariates

Arxiv

0+阅读 · 11月24日

SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs

Arxiv

0+阅读 · 12月7日

Safely Learning Controlled Stochastic Dynamics

Arxiv

0+阅读 · 12月11日

Tuning for Two Adversaries: Enhancing the Robustness Against Transfer and Query-Based Attacks using Hyperparameter Tuning

Arxiv

0+阅读 · 12月18日

Tuning for Two Adversaries: Enhancing the Robustness Against Transfer and Query-Based Attacks using Hyperparameter Tuning

Arxiv

0+阅读 · 11月17日

参考链接

微信扫码咨询专知VIP会员