The training of deep vision models is fundamentally a signal recovery problem amidst high-dimensional stochastic noise. Current optimization paradigms impose a static compromise on information channel capacity. For instance, magnitude-based methods, such as AdamW, operate on the assumption that gradient norms are high-fidelity curvature signals. While this allows for precision in smooth regimes, it leads to catastrophic noise amplification when applied to rugged, non-convex landscapes. Conversely, sign-based methods (e.g., Lion) perform a radical 1-bit quantization of the gradient, which aims to provide robust regularization at the cost of discarding fine-grained descent information. We propose that optimal convergence requires neither static prior, but rather a dynamic modulation of the update bitrate. We introduce \textbf{ThermoLion}, a vision-centric framework that utilizes local Signal-to-Noise Ratio (SNR) gating to autonomously transition parameters between a "low-bit" exploration phase and a "high-precision" exploitation phase. Furthermore, we introduce a Momentum Alignment mechanism that detects constructive interference between historical drift and instantaneous gradients to accelerate convergence during stable trajectories. Empirical benchmarks across 12 diverse vision datasets (including CIFAR, SVHN, and GTSRB) demonstrate that ThermoLion serves as a hyperparameter-free generalist, surpassing both AdamW and Lion in convergence speed and terminal accuracy without architecture-specific tuning.


翻译:深度视觉模型的训练本质上是一个高维随机噪声中的信号恢复问题。当前的优化范式对信息通道容量施加了静态折衷。例如,基于幅度的方法(如AdamW)基于梯度范数是高保真曲率信号的假设运行。虽然这在平滑区域允许精确性,但当应用于崎岖的非凸地形时,会导致灾难性的噪声放大。相反,基于符号的方法(如Lion)对梯度执行激进的1位量化,旨在以丢弃细粒度下降信息为代价提供鲁棒的正则化。我们提出,最优收敛既不需要静态先验,而是需要更新比特率的动态调制。我们引入了\\textbf{ThermoLion},这是一个以视觉为中心的框架,利用局部信噪比(SNR)门控,自主地将参数在“低比特”探索阶段和“高精度”利用阶段之间转换。此外,我们引入了动量对齐机制,该机制检测历史漂移与瞬时梯度之间的建设性干扰,以在稳定轨迹期间加速收敛。在12个多样化视觉数据集(包括CIFAR、SVHN和GTSRB)上的实证基准测试表明,ThermoLion作为一个无需超参数调整的通用优化器,在收敛速度和最终准确度上均超越了AdamW和Lion,且无需针对特定架构进行调整。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员