机器学习有望在科学、工业和社会等众多领域产生深远影响。尽管当前的人工智能(AI)系统仍普遍依赖人类监督,未来的应用将越来越多地要求系统具备高度自治能力。要实现这一转变,我们必须能够信任这些日益庞大的模型的行为。为此,本论文围绕三个关键研究方向展开:安全性、鲁棒性与可解释性。 我们首先聚焦于强化学习(Reinforcement Learning, RL)模仿学习(Imitation Learning, IL)中的安全问题。尽管学习得到的策略在性能上取得了显著成果,但它们在训练过程中的探索行为及测试阶段环境的变化,常常会导致不安全的决策。为此,我们提出了一种基于模型预测控制(Model Predictive Control, MPC)的安全引导机制,可在用户指定约束条件下,对基础 RL 策略的动作进行修正。通过合理的优化建模与损失函数设计,我们从理论上证明了最终优化得到的基础策略在最优点上具有可证明的安全性。 针对 IL 中独有的因果混淆(causal confusion)问题,即观测数据与专家行为之间存在虚假相关,进而可能在部署时引发不安全行为,我们引入结构因果模型(Structural Causal Models, SCMs)的工具来识别并屏蔽存在问题的观测信息。与此前需依赖专家反馈或专家奖励函数的做法不同,我们的方法仅需实验者能对初始状态进行干预这一更为现实的假设。 论文第二部分关注如何增强分类器对抗扰动下的鲁棒性。分类器是众多 AI 系统的核心组件,但实验表明其对输入中的微小扰动极为敏感。我们首先扩展了随机平滑(randomized smoothing)方法的适用性,从传统各向同性认证推广至数据流形子空间的投影,从而在认证体积上获得数量级的提升。随后,我们从更基础的层面重新审视鲁棒性问题,提出了非对称鲁棒认证(asymmetric certification)框架。在该二分类场景下,我们仅要求模型在某一特定类别上具备认证鲁棒性,符合现实中对抗者主要关注产生“假阴性”(false negatives)的实际需求。我们进一步引入一类特征凸(feature-convex)结构,从而实现高效、确定性、封闭形式的认证半径计算。 论文的第三部分探讨了模型可解释性的两个方面:一是大型语言模型(LLMs)如何决定向人类用户推荐什么,二是如何构建结构上可解释的学习模型。我们首先分析了对话式搜索引擎中 LLM 对消费产品排序的行为,结果表明,模型在优先考虑产品名称、网站内容及输入上下文位置方面存在显著差异。最后,我们提出了一类新的可解释模型——结构传输网络(Structural Transport Nets),用于那些潜在表示具备数学结构的领域。通过学习一个到“镜像代数结构”的双射映射,我们能够在潜在空间中执行满足原始输入空间代数规律的操作。实验表明,遵守底层代数规律对于学习准确且自洽的表示操作至关重要。

成为VIP会员查看完整内容
8

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】评估算法系统的隐私性与问责性
【ETHZ博士论文】机器学习代码: 安全性与可靠性
专知会员服务
19+阅读 · 2024年10月25日
【CMU博士论文】经典方法对现代机器学习的改进
专知会员服务
27+阅读 · 2024年8月16日
【物联网】物联网产业现状与技术发展
产业智能官
15+阅读 · 2018年12月17日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
463+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
169+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员