Scaling laws describe how learning performance improves with data, compute, or training time, and have become a central theme in modern deep learning. We study this phenomenon in a canonical nonlinear model: phase retrieval with anisotropic Gaussian inputs whose covariance spectrum follows a power law. Unlike the isotropic case, where dynamics collapse to a two-dimensional system, anisotropy yields a qualitatively new regime in which an infinite hierarchy of coupled equations governs the evolution of the summary statistics. We develop a tractable reduction that reveals a three-phase trajectory: (i) fast escape from low alignment, (ii) slow convergence of the summary statistics, and (iii) spectral-tail learning in low-variance directions. From this decomposition, we derive explicit scaling laws for the mean-squared error, showing how spectral decay dictates convergence times and error curves. Experiments confirm the predicted phases and exponents. These results provide the first rigorous characterization of scaling laws in nonlinear regression with anisotropic data, highlighting how anisotropy reshapes learning dynamics.


翻译:缩放定律描述了学习性能如何随数据、计算资源或训练时间提升而改善,已成为现代深度学习的核心主题。我们在一个典型非线性模型中研究这一现象:使用各向异性高斯输入的相位恢复问题,其协方差谱遵循幂律分布。与各向同性情形(动力学简化为二维系统)不同,各向异性导致了一个质变的新机制,其中无限阶耦合方程组控制着摘要统计量的演化。我们提出了一种可处理的约简方法,揭示出三阶段轨迹:(i)从低对齐状态的快速逃离,(ii)摘要统计量的缓慢收敛,以及(iii)低方差方向上的谱尾学习。基于此分解,我们推导了均方误差的显式缩放定律,阐明了谱衰减如何决定收敛时间和误差曲线。实验验证了预测的阶段与指数。这些结果首次严格刻画了各向异性数据非线性回归中的缩放定律,凸显了各向异性如何重塑学习动力学。

0
下载
关闭预览

相关内容

【ICML2025】多模态表示坍塌的深度剖析
专知会员服务
15+阅读 · 5月30日
【NeurIPS2022】黎曼扩散模型
专知会员服务
42+阅读 · 2022年9月15日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员