The success of today's large language models (LLMs) depends on the observation that larger models perform better. However, the origin of this neural scaling law, that loss decreases as a power law with model size, remains unclear. We propose that representation superposition, meaning that LLMs represent more features than they have dimensions, can be a key contributor to loss and cause neural scaling. Based on Anthropic's toy model, we use weight decay to control the degree of superposition, allowing us to systematically study how loss scales with model size. When superposition is weak, the loss follows a power law only if data feature frequencies are power-law distributed. In contrast, under strong superposition, the loss generically scales inversely with model dimension across a broad class of frequency distributions, due to geometric overlaps between representation vectors. We confirmed that open-sourced LLMs operate in the strong superposition regime and have loss scaling inversely with model dimension, and that the Chinchilla scaling laws are also consistent with this behavior. Our results identify representation superposition as a central driver of neural scaling laws, providing insights into questions like when neural scaling laws can be improved and when they will break down.


翻译:当今大型语言模型(LLMs)的成功依赖于一个观察:模型越大,性能越好。然而,这种损失随模型尺寸呈幂律下降的神经缩放定律的起源仍不明确。我们提出,表征叠加——即LLMs表征的特征数量超过其维度数——可能是损失的关键贡献者,并导致神经缩放。基于Anthropic的玩具模型,我们利用权重衰减来控制叠加程度,从而系统研究损失如何随模型尺寸缩放。当叠加较弱时,仅当数据特征频率呈幂律分布时,损失才遵循幂律。相反,在强叠加下,由于表征向量间的几何重叠,损失在广泛的频率分布类别中普遍与模型维度成反比缩放。我们证实,开源LLMs在强叠加状态下运行,其损失与模型维度成反比缩放,且Chinchilla缩放定律也与该行为一致。我们的研究结果将表征叠加确定为神经缩放定律的核心驱动因素,为诸如神经缩放定律何时可改进、何时会失效等问题提供了见解。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员