【伯克利博士论文】机器学习中的安全性、鲁棒性与可解释性

机器学习有望在科学、工业和社会等众多领域产生深远影响。尽管当前的人工智能（AI）系统仍普遍依赖人类监督，未来的应用将越来越多地要求系统具备高度自治能力。要实现这一转变，我们必须能够信任这些日益庞大的模型的行为。为此，本论文围绕三个关键研究方向展开：安全性、鲁棒性与可解释性。我们首先聚焦于强化学习（Reinforcement Learning, RL）与模仿学习（Imitation Learning, IL）中的安全问题。尽管学习得到的策略在性能上取得了显著成果，但它们在训练过程中的探索行为及测试阶段环境的变化，常常会导致不安全的决策。为此，我们提出了一种基于模型预测控制（Model Predictive Control, MPC）的安全引导机制，可在用户指定约束条件下，对基础 RL 策略的动作进行修正。通过合理的优化建模与损失函数设计，我们从理论上证明了最终优化得到的基础策略在最优点上具有可证明的安全性。针对 IL 中独有的因果混淆（causal confusion）问题，即观测数据与专家行为之间存在虚假相关，进而可能在部署时引发不安全行为，我们引入结构因果模型（Structural Causal Models, SCMs）的工具来识别并屏蔽存在问题的观测信息。与此前需依赖专家反馈或专家奖励函数的做法不同，我们的方法仅需实验者能对初始状态进行干预这一更为现实的假设。论文第二部分关注如何增强分类器对抗扰动下的鲁棒性。分类器是众多 AI 系统的核心组件，但实验表明其对输入中的微小扰动极为敏感。我们首先扩展了随机平滑（randomized smoothing）方法的适用性，从传统各向同性认证推广至数据流形子空间的投影，从而在认证体积上获得数量级的提升。随后，我们从更基础的层面重新审视鲁棒性问题，提出了非对称鲁棒认证（asymmetric certification）框架。在该二分类场景下，我们仅要求模型在某一特定类别上具备认证鲁棒性，符合现实中对抗者主要关注产生“假阴性”（false negatives）的实际需求。我们进一步引入一类特征凸（feature-convex）结构，从而实现高效、确定性、封闭形式的认证半径计算。论文的第三部分探讨了模型可解释性的两个方面：一是大型语言模型（LLMs）如何决定向人类用户推荐什么，二是如何构建结构上可解释的学习模型。我们首先分析了对话式搜索引擎中 LLM 对消费产品排序的行为，结果表明，模型在优先考虑产品名称、网站内容及输入上下文位置方面存在显著差异。最后，我们提出了一类新的可解释模型——结构传输网络（Structural Transport Nets），用于那些潜在表示具备数学结构的领域。通过学习一个到“镜像代数结构”的双射映射，我们能够在潜在空间中执行满足原始输入空间代数规律的操作。实验表明，遵守底层代数规律对于学习准确且自洽的表示操作至关重要。

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

专知会员服务

9+阅读 · 5月30日

【CMU博士论文】评估算法系统的隐私性与问责性

专知会员服务

7+阅读 · 5月27日

【EPFL博士论文】决策系统中的机器学习：公平性、鲁棒性与数据偏差

专知会员服务

21+阅读 · 5月19日

【斯坦福博士论文】推动医学人工智能发展的数据高效算法

专知会员服务

28+阅读 · 2024年12月1日