AI systems that output their reasoning in natural language offer an opportunity for safety -- we can \emph{monitor} their chain of thought (CoT) for undesirable reasoning, such as the pursuit of harmful objectives. However, the extent to which CoT faithfully reflects the underlying reasoning process, and hence the extent to which it can be usefully monitored, may be influenced by certain aspects of training. We investigate how different \emph{training incentives}, applied to a reasoning model, affect its monitorability. We introduce a novel methodology for measuring monitorability according to whether a monitor can predict a key latent variable using the model's reasoning. When controlling for accuracy, we do not find evidence for consistent effects from commonly used incentives (length penalties and KL regularisation), but we find that adversarial optimisation (penalising monitor accuracy) degrades monitor performance, while direct optimisation for monitorability does not reliably lead to improvements. Our code is available at https://github.com/QiyaoWei/reasoning-under-pressure.


翻译:以自然语言输出推理过程的AI系统为安全性提供了机遇——我们可以对其思维链(CoT)进行监控,以检测不良推理,例如追求有害目标。然而,思维链在多大程度上忠实反映底层推理过程,进而其可监控性的有效程度,可能受到训练中某些因素的影响。本研究探讨了应用于推理模型的不同训练激励如何影响其可监控性。我们提出了一种新颖的方法论,通过监控器能否利用模型推理预测关键潜在变量来衡量可监控性。在控制准确性的条件下,我们未发现常用激励(长度惩罚和KL正则化)产生一致影响的证据,但发现对抗性优化(惩罚监控器准确性)会降低监控性能,而直接针对可监控性进行优化并不能可靠地带来改进。我们的代码可在 https://github.com/QiyaoWei/reasoning-under-pressure 获取。

0
下载
关闭预览

相关内容

【NeurIPS2025】迈向开放世界的三维“物体性”学习
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
初学者系列:Deep FM详解
专知
109+阅读 · 2019年8月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
初学者系列:Deep FM详解
专知
109+阅读 · 2019年8月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员