大型语言模型(Large Language Models, LLMs)的发展极大地推动了自然语言处理的进步,但其在大规模语料上的训练也带来了显著风险,包括敏感个人数据的记忆化受版权保护内容的泄漏,以及可能助长恶意行为的知识。为缓解这些问题,并遵循诸如“被遗忘权(right to be forgotten)”等法律与伦理规范,机器遗忘(machine unlearning)被提出,作为一种关键技术,旨在选择性地从LLM中移除特定知识,同时不损害模型的整体性能。 本综述系统回顾了自2021年以来发表的180余篇关于LLM遗忘的研究工作,聚焦于大规模生成式模型。与以往的综述不同,我们提出了针对遗忘方法与评测体系的全新分类框架。具体而言,本文将现有方法明确划分为三大类: * 训练阶段遗忘(training-time unlearning), * 后训练阶段遗忘(post-training unlearning), * 推理阶段遗忘(inference-time unlearning), 根据遗忘操作介入模型生命周期的不同阶段进行区分。

在评测方面,我们不仅系统整理了现有的数据集与评测指标,还深入分析了它们的优劣势与适用性,为研究者提供了实用的参考与指导。此外,论文还讨论了该领域面临的关键挑战以及值得探索的未来研究方向。 总体而言,本综述旨在为安全、可靠的大语言模型的发展提供全面的知识图景与研究指引。

1 引言(Introduction)

大型语言模型(Large Language Models, LLMs)极大地推动了自然语言处理(NLP)研究范式的转变,并支持了多样化的实际应用。这些能力源于在大规模文本语料上的训练,使模型能够在其参数中内化与编码大量知识。然而,这种强大的能力同时也带来了严重风险。例如,训练过程中记忆的个人可识别信息(Personally Identifiable Information, PII)可能被隐私攻击提取,从而引发与“被遗忘权”(right to be forgotten)等数据保护法规相关的担忧【128, 157】。同样,训练数据中未经授权使用的受版权保护内容可能使模型提供者面临法律风险【168】。此外,LLMs 还可能内化可助长恶意行为的知识【86, 88】,而越狱攻击(jailbreak attacks)可能诱导模型生成有害或非法内容。鉴于这些问题,从 LLM 中选择性地移除特定知识已成为提升其安全性、可靠性及合规性的重要一步。 一种直接的解决方案是在移除问题数据后重新训练整个模型。然而,这种方法计算成本极高,对于大规模模型而言几乎不可行。相比之下,机器遗忘(machine unlearning)【18】提供了一种更高效的替代方案,其目标是在保持模型在保留数据上的整体性能的同时,选择性地移除特定训练数据的影响。在 LLM 场景下,由于其独特的自回归式下一个词预测机制(autoregressive next-token prediction mechanism)【179】,研究者提出了针对这类模型专门设计的遗忘算法。 本综述聚焦于面向大规模生成式语言模型(large-scale generative language models)的遗忘技术,这类模型主要用于生成任务(generation tasks),而非分类任务。我们系统回顾了自 2021 年以来发表的180 余篇相关研究,旨在对 LLM 遗忘的定义、方法、评测体系、挑战与未来方向进行全面梳理与分析。 现有的一些综述也涉及 LLM 遗忘主题,但多数采用了更宽泛的研究范围或专注于某些特定方面【8, 34, 97, 124, 146, 176, 190, 201】。与那些同样聚焦于 LLM 遗忘的综述【13, 51】相比,本文提供了一个更系统、更全面的视角,并在以下几个方面作出独特贡献(表 1 总结了详细比较): 1. 提出新的遗忘方法分类体系。

我们依据遗忘操作所处的训练阶段,将现有方法划分为三类:

训练阶段遗忘(training-time unlearning)

后训练阶段遗忘(post-training unlearning)

推理阶段遗忘(inference-time unlearning)

相较于以参数类型或范围为依据的分类方式,这一体系具有更清晰的结构,因为某些全参数方法同样可以仅应用于部分参数,或通过集成 LoRA 适配器(Low-Rank Adaptation) 来扩展到额外参数。 1. 多维度的评测分析。

我们不仅汇总了现有的数据集与评测指标,还从多个维度对其进行深入分析。

对数据集而言,我们从任务形式、内容特征与实验范式三个角度比较了 18 个已有基准,评估其适用性并提供实用指导。 * 对评测指标而言,我们基于 LLM 遗忘的目标,对知识记忆度指标及其适用性进行了分析,同时考察了模型效用、鲁棒性与效率等常用评测维度。 1. 挑战与未来方向的讨论。

我们深入探讨了当前 LLM 遗忘领域面临的关键挑战,并提出了若干潜在的研究方向。

这些贡献共同旨在推动 LLM 遗忘这一新兴研究领域的发展,从而促进更安全、更负责任的人工智能系统的构建。

成为VIP会员查看完整内容
0

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
大语言模型中的隐式推理:综合综述
专知会员服务
27+阅读 · 9月4日
基于大型语言模型的人机系统综述
专知会员服务
25+阅读 · 5月12日
可解释人工智能中的大语言模型:全面综述
专知会员服务
51+阅读 · 4月2日
多模态基础模型的机制可解释性综述
专知会员服务
41+阅读 · 2月28日
大规模语言模型的人类偏好学习综述
专知会员服务
41+阅读 · 2024年6月19日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
86+阅读 · 2024年5月3日
大型语言模型中的数字遗忘:遗忘方法的综述
专知会员服务
33+阅读 · 2024年4月8日
可解释人工智能中基于梯度的特征归因技术综述
专知会员服务
28+阅读 · 2024年3月20日
大型语言模型幻觉缓解技术的全面综述
专知会员服务
71+阅读 · 2024年1月3日
综述| 当图神经网络遇上强化学习
图与推荐
35+阅读 · 2022年7月1日
时空数据挖掘:综述
专知
34+阅读 · 2022年6月30日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 10月30日
A Survey of Large Language Models
Arxiv
487+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
VIP会员
相关VIP内容
大语言模型中的隐式推理:综合综述
专知会员服务
27+阅读 · 9月4日
基于大型语言模型的人机系统综述
专知会员服务
25+阅读 · 5月12日
可解释人工智能中的大语言模型:全面综述
专知会员服务
51+阅读 · 4月2日
多模态基础模型的机制可解释性综述
专知会员服务
41+阅读 · 2月28日
大规模语言模型的人类偏好学习综述
专知会员服务
41+阅读 · 2024年6月19日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
86+阅读 · 2024年5月3日
大型语言模型中的数字遗忘:遗忘方法的综述
专知会员服务
33+阅读 · 2024年4月8日
可解释人工智能中基于梯度的特征归因技术综述
专知会员服务
28+阅读 · 2024年3月20日
大型语言模型幻觉缓解技术的全面综述
专知会员服务
71+阅读 · 2024年1月3日
相关资讯
综述| 当图神经网络遇上强化学习
图与推荐
35+阅读 · 2022年7月1日
时空数据挖掘:综述
专知
34+阅读 · 2022年6月30日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员