【伯克利博士论文】语言模型的脆弱性

在我的博士研究期间，大型语言模型（LLMs）从一个相对新兴的研究方向发展成为现代计算机科学中最热门的领域之一。迄今为止，这些模型仍在以快速的步伐不断进步，各种行业团体争相将其投入生产，应用于多个业务领域。然而，这一进展并非全然正面——我们已经观察到，AI模型的部署已导致广泛的安全、隐私和稳健性失败。在本论文中，我将讨论构建值得信赖和安全的LLMs的理论与实践。在第一部分，我将展示LLMs如何在训练过程中记忆文本和图像，这使得对手能够从模型的训练集提取私密或受版权保护的数据。我将提出通过数据去重和差分隐私等技术来缓解这些攻击，展示攻击有效性降低几个数量级的结果。在第二部分，我将展示在部署过程中，对手可以发送恶意输入来触发错误分类或启用模型滥用。这些攻击可以是普遍性和隐蔽性的，我将展示它们需要对抗训练和系统级防护措施的新进展来进行缓解。最后，在第三部分，我将展示在语言模型部署后，对手可以通过污染反馈数据（提供给模型开发者的反馈数据）来操控模型的行为。我将讨论如何通过新的学习算法和数据过滤技术来缓解这些风险。

尽管取得了这些成功，但在本论文中，我将展示现代AI系统也存在广泛的安全性和隐私漏洞。例如，医疗助手可能被迫泄露用户的私人数据，写作助手可能会无意中复制受版权保护的文本段落，而对手可以滥用电子邮件写作工具来制作更有效的钓鱼攻击。这些脆弱性不仅仅是理论上的：其中许多已经在现实世界的部署中得到了验证。我将深入分析这些脆弱性，通过一系列已发布的工作，展示这些攻击在现实世界的LLM系统中的首次识别与度量。在此过程中，我将提出能够通过修改模型的训练集、算法或模型架构来缓解这些脆弱性的防御技术。本论文的结构遵循构建和部署现代LLM的生命周期： 1. 第一部分：预训练阶段

现代LLM在大量语料库上进行训练。本部分展示了模型在此阶段可能无意中记住文本，导致用户隐私、版权侵犯和数据所有权等方面的严重问题。我将提出数据去重、差分隐私和基于强化学习的人类反馈（RLHF）等技术，来缓解这些风险。 1. 第二部分：部署阶段

模型训练完成后，部署到实际应用中。本部分将介绍一个通用框架，用于创建能够操控模型预测的对抗性输入。这包括经典威胁（例如，避开垃圾邮件过滤器）和新兴问题（例如，劫持LLM代理或绕过内容保护措施）。 1. 第三部分：迭代与持续学习

模型部署后，组织会收集反馈数据并对模型进行迭代。本部分探讨了现实世界系统如何在此过程中演变，并展示了对手如何通过“污染”模型训练集，系统地影响部署模型的未来版本。我将提出基于数据过滤、差分隐私和学习算法修改的缓解措施。

成为VIP会员查看完整内容

相关内容

大语言模型

关注 62

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

【CUHK博士论文】现代机器学习中的因果性学习

专知会员服务

35+阅读 · 1月24日

【斯坦福博士论文】通过深度状态空间方法推进序列建模

专知会员服务

28+阅读 · 1月5日

【阿姆斯特丹博士论文】在语言模型中寻找结构

专知会员服务

26+阅读 · 2024年11月27日

【普林斯顿博士论文】驾驭现代芯片设计中的异构性与可扩展性

专知会员服务

20+阅读 · 2024年8月13日