语言模型主要在来自互联网的大规模文本数据上进行训练,因此理解这些数据源变得愈发重要。精确匹配的搜索引擎可以在大型文本语料库中进行搜索——统计字符串出现次数并检索包含它们的文档——但其高存储开销限制了其在互联网规模数据上的应用。本文提出 INFINI-GRAM MINI,一个高效且可扩展的系统,使得PB级文本语料也能实现可搜索。 该系统基于 FM-index 数据结构(Ferragina 和 Manzini,2000),该结构能够同时实现文本的索引与压缩。INFINI-GRAM MINI 生成的索引仅占语料库大小的 44%。与现有最优的 FM-index 实现相比,INFINI-GRAM MINI 在索引速度上提升了 18 倍,在索引阶段的内存使用上减少了 3.2 倍,而查询阶段的内存消耗则降低到可忽略的水平。我们在一台拥有 128 个 vCPU 的单节点 CPU 服务器上,在 99 天内完成了 83TB 互联网文本的索引(若使用 137 个此类节点,则仅需 19 小时)。 我们展示了 INFINI-GRAM MINI 的一个重要应用场景——大规模基准数据污染分析。结果显示,多个核心语言模型评测基准在互联网抓取数据中存在严重污染(例如 GSM8K 的污染率高达 74.2%),这可能导致在使用此类数据训练语言模型时高估其能力。我们建立了一个“基准污染通报平台”,以共享核心及社区贡献基准的数据污染率。同时,我们还发布了一个网页界面与 API 接口,以支持基于 INFINI-GRAM MINI 索引的一般搜索查询。

https://arxiv.org/abs/2506.12229

成为VIP会员查看完整内容
0

相关内容

【NTU博士论文】图结构数据的深度学习
专知会员服务
34+阅读 · 2024年9月18日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
86+阅读 · 2024年5月3日
【KDD2023】协同过滤的高效联合超参数和架构搜索
专知会员服务
23+阅读 · 2023年7月23日
专知会员服务
20+阅读 · 2021年5月4日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
63+阅读 · 2021年4月21日
专知会员服务
46+阅读 · 2020年10月22日
最新《图嵌入组合优化》综述论文,40页pdf
【NeurIPS2019】图变换网络:Graph Transformer Network
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
487+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Identity-aware Graph Neural Networks
Arxiv
14+阅读 · 2021年1月25日
A survey on deep hashing for image retrieval
Arxiv
15+阅读 · 2020年6月10日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关主题
相关VIP内容
【NTU博士论文】图结构数据的深度学习
专知会员服务
34+阅读 · 2024年9月18日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
86+阅读 · 2024年5月3日
【KDD2023】协同过滤的高效联合超参数和架构搜索
专知会员服务
23+阅读 · 2023年7月23日
专知会员服务
20+阅读 · 2021年5月4日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
63+阅读 · 2021年4月21日
专知会员服务
46+阅读 · 2020年10月22日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
相关论文
A Survey of Large Language Models
Arxiv
487+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Identity-aware Graph Neural Networks
Arxiv
14+阅读 · 2021年1月25日
A survey on deep hashing for image retrieval
Arxiv
15+阅读 · 2020年6月10日
Arxiv
11+阅读 · 2018年7月31日
微信扫码咨询专知VIP会员