大型语言模型(Large Language Models, LLMs)的发展极大地推动了自然语言处理的进步,但其在大规模语料上的训练也带来了显著风险,包括敏感个人数据的记忆化、受版权保护内容的泄漏,以及可能助长恶意行为的知识。为缓解这些问题,并遵循诸如“被遗忘权(right to be forgotten)”等法律与伦理规范,机器遗忘(machine unlearning)被提出,作为一种关键技术,旨在选择性地从LLM中移除特定知识,同时不损害模型的整体性能。 本综述系统回顾了自2021年以来发表的180余篇关于LLM遗忘的研究工作,聚焦于大规模生成式模型。与以往的综述不同,我们提出了针对遗忘方法与评测体系的全新分类框架。具体而言,本文将现有方法明确划分为三大类: * 训练阶段遗忘(training-time unlearning), * 后训练阶段遗忘(post-training unlearning), * 推理阶段遗忘(inference-time unlearning), 根据遗忘操作介入模型生命周期的不同阶段进行区分。
在评测方面,我们不仅系统整理了现有的数据集与评测指标,还深入分析了它们的优劣势与适用性,为研究者提供了实用的参考与指导。此外,论文还讨论了该领域面临的关键挑战以及值得探索的未来研究方向。 总体而言,本综述旨在为安全、可靠的大语言模型的发展提供全面的知识图景与研究指引。
大型语言模型(Large Language Models, LLMs)极大地推动了自然语言处理(NLP)研究范式的转变,并支持了多样化的实际应用。这些能力源于在大规模文本语料上的训练,使模型能够在其参数中内化与编码大量知识。然而,这种强大的能力同时也带来了严重风险。例如,训练过程中记忆的个人可识别信息(Personally Identifiable Information, PII)可能被隐私攻击提取,从而引发与“被遗忘权”(right to be forgotten)等数据保护法规相关的担忧【128, 157】。同样,训练数据中未经授权使用的受版权保护内容可能使模型提供者面临法律风险【168】。此外,LLMs 还可能内化可助长恶意行为的知识【86, 88】,而越狱攻击(jailbreak attacks)可能诱导模型生成有害或非法内容。鉴于这些问题,从 LLM 中选择性地移除特定知识已成为提升其安全性、可靠性及合规性的重要一步。 一种直接的解决方案是在移除问题数据后重新训练整个模型。然而,这种方法计算成本极高,对于大规模模型而言几乎不可行。相比之下,机器遗忘(machine unlearning)【18】提供了一种更高效的替代方案,其目标是在保持模型在保留数据上的整体性能的同时,选择性地移除特定训练数据的影响。在 LLM 场景下,由于其独特的自回归式下一个词预测机制(autoregressive next-token prediction mechanism)【179】,研究者提出了针对这类模型专门设计的遗忘算法。 本综述聚焦于面向大规模生成式语言模型(large-scale generative language models)的遗忘技术,这类模型主要用于生成任务(generation tasks),而非分类任务。我们系统回顾了自 2021 年以来发表的180 余篇相关研究,旨在对 LLM 遗忘的定义、方法、评测体系、挑战与未来方向进行全面梳理与分析。 现有的一些综述也涉及 LLM 遗忘主题,但多数采用了更宽泛的研究范围或专注于某些特定方面【8, 34, 97, 124, 146, 176, 190, 201】。与那些同样聚焦于 LLM 遗忘的综述【13, 51】相比,本文提供了一个更系统、更全面的视角,并在以下几个方面作出独特贡献(表 1 总结了详细比较): 1. 提出新的遗忘方法分类体系。
我们依据遗忘操作所处的训练阶段,将现有方法划分为三类:
训练阶段遗忘(training-time unlearning)
后训练阶段遗忘(post-training unlearning)
推理阶段遗忘(inference-time unlearning)
相较于以参数类型或范围为依据的分类方式,这一体系具有更清晰的结构,因为某些全参数方法同样可以仅应用于部分参数,或通过集成 LoRA 适配器(Low-Rank Adaptation) 来扩展到额外参数。 1. 多维度的评测分析。
我们不仅汇总了现有的数据集与评测指标,还从多个维度对其进行深入分析。
对数据集而言,我们从任务形式、内容特征与实验范式三个角度比较了 18 个已有基准,评估其适用性并提供实用指导。 * 对评测指标而言,我们基于 LLM 遗忘的目标,对知识记忆度指标及其适用性进行了分析,同时考察了模型效用、鲁棒性与效率等常用评测维度。 1. 挑战与未来方向的讨论。
我们深入探讨了当前 LLM 遗忘领域面临的关键挑战,并提出了若干潜在的研究方向。
这些贡献共同旨在推动 LLM 遗忘这一新兴研究领域的发展,从而促进更安全、更负责任的人工智能系统的构建。