Large language models, trained on massive corpora, are prone to verbatim memorization of training data, creating significant privacy and copyright risks. While previous works have proposed various definitions for memorization, many exhibit shortcomings in comprehensively capturing this phenomenon, especially in aligned models. To address this, we introduce a novel framework: multi-prefix memorization. Our core insight is that memorized sequences are deeply encoded and thus retrievable via a significantly larger number of distinct prefixes than non-memorized content. We formalize this by defining a sequence as memorized if an external adversarial search can identify a target count of distinct prefixes that elicit it. This framework shifts the focus from single-path extraction to quantifying the robustness of a memory, measured by the diversity of its retrieval paths. Through experiments on open-source and aligned chat models, we demonstrate that our multi-prefix definition reliably distinguishes memorized from non-memorized data, providing a robust and practical tool for auditing data leakage in LLMs.


翻译:在大型语料库上训练的大型语言模型容易逐字记忆训练数据,从而带来显著的隐私和版权风险。尽管先前的研究提出了多种记忆的定义,但许多定义在全面捕捉这一现象方面存在不足,尤其是在对齐模型中。为解决此问题,我们引入了一种新颖的框架:多前缀记忆。我们的核心见解是,被记忆的序列被深度编码,因此可通过比非记忆内容显著更多的不同前缀来检索。我们通过形式化定义:如果一个外部对抗性搜索能够识别出足以引发该序列的目标数量的不同前缀,则该序列被视为被记忆。该框架将焦点从单一路径提取转向量化记忆的稳健性,通过其检索路径的多样性来衡量。通过对开源和对齐聊天模型的实验,我们证明了我们的多前缀定义能够可靠地区分记忆数据与非记忆数据,为审计大型语言模型中的数据泄露提供了一个稳健且实用的工具。

0
下载
关闭预览

相关内容

【ICML2024】TIMEX++: 通过信息瓶颈学习时间序列解释
专知会员服务
17+阅读 · 2024年5月16日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【NeurIPS 2021】实例依赖的偏标记学习
专知会员服务
11+阅读 · 2021年11月28日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
VIP会员
相关VIP内容
【ICML2024】TIMEX++: 通过信息瓶颈学习时间序列解释
专知会员服务
17+阅读 · 2024年5月16日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【NeurIPS 2021】实例依赖的偏标记学习
专知会员服务
11+阅读 · 2021年11月28日
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员