【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索 - 专知VIP

会员服务 ·

0

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

语言模型主要在来自互联网的大规模文本数据上进行训练，因此理解这些数据源变得愈发重要。精确匹配的搜索引擎可以在大型文本语料库中进行搜索——统计字符串出现次数并检索包含它们的文档——但其高存储开销限制了其在互联网规模数据上的应用。本文提出 INFINI-GRAM MINI，一个高效且可扩展的系统，使得PB级文本语料也能实现可搜索。该系统基于 FM-index 数据结构（Ferragina 和 Manzini，2000），该结构能够同时实现文本的索引与压缩。INFINI-GRAM MINI 生成的索引仅占语料库大小的 44%。与现有最优的 FM-index 实现相比，INFINI-GRAM MINI 在索引速度上提升了 18 倍，在索引阶段的内存使用上减少了 3.2 倍，而查询阶段的内存消耗则降低到可忽略的水平。我们在一台拥有 128 个 vCPU 的单节点 CPU 服务器上，在 99 天内完成了 83TB 互联网文本的索引（若使用 137 个此类节点，则仅需 19 小时）。我们展示了 INFINI-GRAM MINI 的一个重要应用场景——大规模基准数据污染分析。结果显示，多个核心语言模型评测基准在互联网抓取数据中存在严重污染（例如 GSM8K 的污染率高达 74.2%），这可能导致在使用此类数据训练语言模型时高估其能力。我们建立了一个“基准污染通报平台”，以共享核心及社区贡献基准的数据污染率。同时，我们还发布了一个网页界面与 API 接口，以支持基于 INFINI-GRAM MINI 索引的一般搜索查询。

https://arxiv.org/abs/2506.12229

成为VIP会员查看完整内容

0

相关内容

PEFT A2Z：大型语言与视觉模型的参数高效微调综述

PEFT A2Z：大型语言与视觉模型的参数高效微调综述

专知会员服务

21+阅读 · 4月22日

【NTU博士论文】图结构数据的深度学习

【NTU博士论文】图结构数据的深度学习

专知会员服务

34+阅读 · 2024年9月18日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

53+阅读 · 2024年8月22日

RAG与RAU：自然语言处理中的检索增强语言模型综述

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

86+阅读 · 2024年5月3日

【KDD2023】协同过滤的高效联合超参数和架构搜索

【KDD2023】协同过滤的高效联合超参数和架构搜索

专知会员服务

23+阅读 · 2023年7月23日

【CVPR2021】基于噪声鲁棒深度学习的快速元更新策略

专知会员服务

20+阅读 · 2021年5月4日

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

专知会员服务

63+阅读 · 2021年4月21日

「NeurIPS 2020」基于局部子图的图元学习

专知会员服务

46+阅读 · 2020年10月22日

【ICLR 2020】基于组合的多关系图卷积网络 Composition-Based Multi-Relational Graph Convolutional Networks

【ICLR 2020】基于组合的多关系图卷积网络 Composition-Based Multi-Relational Graph Convolutional Networks

专知会员服务

108+阅读 · 2020年3月29日

【北京师范大学-KDD2020投稿论文】PM2.5-GNN-基于图神经网络的PM2.5预测

【北京师范大学-KDD2020投稿论文】PM2.5-GNN-基于图神经网络的PM2.5预测

专知会员服务

52+阅读 · 2020年3月3日

【2022新书】使用Scikit-Learn、Keras和TensorFlow实践机器学习:构建智能系统的概念、工具和技术第三版

【2022新书】使用Scikit-Learn、Keras和TensorFlow实践机器学习:构建智能系统的概念、工具和技术第三版

专知

15+阅读 · 2022年11月8日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

40+阅读 · 2020年8月31日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

18+阅读 · 2020年8月31日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

PaperWeekly

10+阅读 · 2019年11月9日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

173+阅读 · 2019年10月28日

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

产业智能官

15+阅读 · 2019年8月13日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

论智

12+阅读 · 2018年1月5日

语义Web知识库补全关键技术研究

国家自然科学基金

17+阅读 · 2017年12月31日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

基于导向随机狼群算法的多元时间序列变量选择研究

国家自然科学基金

3+阅读 · 2015年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

221+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

487+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Identity-aware Graph Neural Networks

Identity-aware Graph Neural Networks

Arxiv

14+阅读 · 2021年1月25日

A survey on deep hashing for image retrieval

A survey on deep hashing for image retrieval

Arxiv

15+阅读 · 2020年6月10日

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Arxiv

17+阅读 · 2019年11月6日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

Deep learning in agriculture: A survey

Arxiv

11+阅读 · 2018年7月31日

VIP会员

相关主题

相关VIP内容

PEFT A2Z：大型语言与视觉模型的参数高效微调综述

PEFT A2Z：大型语言与视觉模型的参数高效微调综述

专知会员服务

21+阅读 · 4月22日

【NTU博士论文】图结构数据的深度学习

【NTU博士论文】图结构数据的深度学习

专知会员服务

34+阅读 · 2024年9月18日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

53+阅读 · 2024年8月22日

RAG与RAU：自然语言处理中的检索增强语言模型综述

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

86+阅读 · 2024年5月3日

【KDD2023】协同过滤的高效联合超参数和架构搜索

【KDD2023】协同过滤的高效联合超参数和架构搜索

专知会员服务

23+阅读 · 2023年7月23日

【CVPR2021】基于噪声鲁棒深度学习的快速元更新策略

专知会员服务

20+阅读 · 2021年5月4日

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

专知会员服务

63+阅读 · 2021年4月21日

「NeurIPS 2020」基于局部子图的图元学习

专知会员服务

46+阅读 · 2020年10月22日

【ICLR 2020】基于组合的多关系图卷积网络 Composition-Based Multi-Relational Graph Convolutional Networks

【ICLR 2020】基于组合的多关系图卷积网络 Composition-Based Multi-Relational Graph Convolutional Networks

专知会员服务

108+阅读 · 2020年3月29日

【北京师范大学-KDD2020投稿论文】PM2.5-GNN-基于图神经网络的PM2.5预测

【北京师范大学-KDD2020投稿论文】PM2.5-GNN-基于图神经网络的PM2.5预测

专知会员服务

52+阅读 · 2020年3月3日

热门VIP内容

开通专知VIP会员享更多权益服务

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

【EMNLP2025教程】高效的大语言模型推理：算法、模型与系统，203页ppt

AI医疗行业研究报告：AI医疗前景广阔

【斯坦福博士论文】多模态基础模型：从科学理解到科学发现

相关资讯

【2022新书】使用Scikit-Learn、Keras和TensorFlow实践机器学习:构建智能系统的概念、工具和技术第三版

【2022新书】使用Scikit-Learn、Keras和TensorFlow实践机器学习:构建智能系统的概念、工具和技术第三版

专知

15+阅读 · 2022年11月8日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

40+阅读 · 2020年8月31日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

18+阅读 · 2020年8月31日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

PaperWeekly

10+阅读 · 2019年11月9日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

173+阅读 · 2019年10月28日

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

产业智能官

15+阅读 · 2019年8月13日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

论智

12+阅读 · 2018年1月5日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

17+阅读 · 2017年12月31日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

基于导向随机狼群算法的多元时间序列变量选择研究

国家自然科学基金

3+阅读 · 2015年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

相关论文

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

221+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

487+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Identity-aware Graph Neural Networks

Identity-aware Graph Neural Networks

Arxiv

14+阅读 · 2021年1月25日

A survey on deep hashing for image retrieval

A survey on deep hashing for image retrieval

Arxiv

15+阅读 · 2020年6月10日

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Arxiv

17+阅读 · 2019年11月6日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

Deep learning in agriculture: A survey

Arxiv

11+阅读 · 2018年7月31日

微信扫码咨询专知VIP会员