Two traditions of interpretability have evolved side by side but seldom spoken to each other: Concept Bottleneck Models (CBMs), which prescribe what a concept should be, and Sparse Autoencoders (SAEs), which discover what concepts emerge. While CBMs use supervision to align activations with human-labeled concepts, SAEs rely on sparse coding to uncover emergent ones. We show that both paradigms instantiate the same geometric structure: each learns a set of linear directions in activation space whose nonnegative combinations form a concept cone. Supervised and unsupervised methods thus differ not in kind but in how they select this cone. Building on this view, we propose an operational bridge between the two paradigms. CBMs provide human-defined reference geometries, while SAEs can be evaluated by how well their learned cones approximate or contain those of CBMs. This containment framework yields quantitative metrics linking inductive biases -- such as SAE type, sparsity, or expansion ratio -- to emergence of plausible\footnote{We adopt the terminology of \citet{jacovi2020towards}, who distinguish between faithful explanations (accurately reflecting model computations) and plausible explanations (aligning with human intuition and domain knowledge). CBM concepts are plausible by construction -- selected or annotated by humans -- though not necessarily faithful to the true latent factors that organise the data manifold.} concepts. Using these metrics, we uncover a ``sweet spot'' in both sparsity and expansion factor that maximizes both geometric and semantic alignment with CBM concepts. Overall, our work unifies supervised and unsupervised concept discovery through a shared geometric framework, providing principled metrics to measure SAE progress and assess how well discovered concept align with plausible human concepts.


翻译:可解释性研究的两大传统并行发展却鲜有交流:概念瓶颈模型(CBMs)规定了概念应当是什么,而稀疏自编码器(SAEs)则探索了哪些概念会自然涌现。CBMs通过监督学习将激活与人工标注的概念对齐,SAEs则依赖稀疏编码来发现涌现概念。我们证明这两种范式实则实例化了相同的几何结构:两者均在激活空间中学习一组线性方向,其非负组合构成一个概念锥。因此,监督与非监督方法的差异不在于本质,而在于如何选择这个锥。基于此视角,我们构建了连接两种范式的操作桥梁。CBMs提供人工定义的参考几何结构,而SAEs可通过其学习到的锥逼近或包含CBM锥的程度来评估。这种包含框架产生了量化指标,将归纳偏置(如SAE类型、稀疏性或扩展比)与合理概念的涌现联系起来。我们采用Jacovi等人(2020)的术语,区分忠实解释(准确反映模型计算)与合理解释(符合人类直觉与领域知识)。CBM概念因其由人工选择或标注而具有构造上的合理性,但未必忠实于组织数据流形的真实潜在因子。利用这些指标,我们发现了稀疏性与扩展因子的“最佳平衡点”,能最大化与CBM概念的几何及语义对齐。总体而言,本研究通过共享的几何框架统一了监督与非监督的概念发现,为衡量SAE进展及评估发现概念与合理人类概念的契合度提供了原则性度量标准。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
专知会员服务
44+阅读 · 2021年7月1日
专知会员服务
50+阅读 · 2021年6月2日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
专知会员服务
44+阅读 · 2021年7月1日
专知会员服务
50+阅读 · 2021年6月2日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员