Sparse autoencoders (SAEs) are designed to extract interpretable features from language models by enforcing a sparsity constraint. Ideally, training an SAE would yield latents that are both sparse and semantically meaningful. However, many SAE latents activate frequently (i.e., are \emph{dense}), raising concerns that they may be undesirable artifacts of the training procedure. In this work, we systematically investigate the geometry, function, and origin of dense latents and show that they are not only persistent but often reflect meaningful model representations. We first demonstrate that dense latents tend to form antipodal pairs that reconstruct specific directions in the residual stream, and that ablating their subspace suppresses the emergence of new dense features in retrained SAEs -- suggesting that high density features are an intrinsic property of the residual space. We then introduce a taxonomy of dense latents, identifying classes tied to position tracking, context binding, entropy regulation, letter-specific output signals, part-of-speech, and principal component reconstruction. Finally, we analyze how these features evolve across layers, revealing a shift from structural features in early layers, to semantic features in mid layers, and finally to output-oriented signals in the last layers of the model. Our findings indicate that dense latents serve functional roles in language model computation and should not be dismissed as training noise.


翻译:稀疏自编码器(SAEs)旨在通过施加稀疏性约束从语言模型中提取可解释的特征。理想情况下,训练SAE应得到既稀疏又具有语义意义的潜在特征。然而,许多SAE潜在特征频繁激活(即呈现“稠密”特性),引发了对它们可能是训练过程中不良伪影的担忧。本研究系统性地探究了稠密潜在特征的几何结构、功能及起源,并证明它们不仅具有持续性,而且通常反映了模型的有意义表征。我们首先证明稠密潜在特征倾向于形成反极对,以重构残差流中的特定方向,且消融其子空间会抑制重新训练的SAE中新稠密特征的出现——这表明高密度特征是残差空间的内在属性。接着,我们提出了稠密潜在特征的分类体系,识别出与位置追踪、上下文绑定、熵调节、字母特定输出信号、词性标注及主成分重构相关的类别。最后,我们分析了这些特征在模型各层间的演化规律,揭示了从早期层的结构特征,到中间层的语义特征,最终在模型最后层转向输出导向信号的转变过程。我们的研究结果表明,稠密潜在特征在语言模型计算中发挥着功能性作用,不应被简单视为训练噪声。

0
下载
关闭预览

相关内容

【KDD2022】GraphMAE:自监督掩码图自编码器
专知会员服务
23+阅读 · 2022年6月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【KDD2022】GraphMAE:自监督掩码图自编码器
专知会员服务
23+阅读 · 2022年6月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员