The success of contextual word representations and advances in neural information retrieval have made dense vector-based retrieval a standard approach for passage and document ranking. While effective and efficient, dual-encoders are brittle to variations in query distributions and noisy queries. Data augmentation can make models more robust but introduces overhead to training set generation and requires retraining and index regeneration. We present Contrastive Alignment POst Training (CAPOT), a highly efficient finetuning method that improves model robustness without requiring index regeneration, the training set optimization, or alteration. CAPOT enables robust retrieval by freezing the document encoder while the query encoder learns to align noisy queries with their unaltered root. We evaluate CAPOT noisy variants of MSMARCO, Natural Questions, and Trivia QA passage retrieval, finding CAPOT has a similar impact as data augmentation with none of its overhead.


翻译:随着上下文词表示法的成功和神经信息检索的进展,基于密集向量的检索已成为段落和文档排序的标准方法。虽然这种方法高效且有效,但它对查询分布和嘈杂查询的变化很脆弱。数据增强可以使模型更加健壮,但会对训练集生成产生额外开销,并需要重新训练和索引生成。我们提出了对比对齐后训练(CAPOT)这种高度有效的微调方法,它可以在不需要索引生成、训练集优化或更改的情况下提高模型的健壮性。CAPOT通过冻结文档编码器,使得查询编码器可以学习将嘈杂的查询与其未更改的根对齐,从而实现健壮检索。我们评估了CAPOT在MSMARCO、自然问题和琐事QA段落检索的嘈杂变体中的效果,并发现CAPOT与数据增强具有相似的影响,但完全没有数据增强的开销。

0
下载
关闭预览

相关内容

NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式
专知会员服务
12+阅读 · 2021年12月9日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
15+阅读 · 2021年11月14日
【KDD2020】最小方差采样用于图神经网络的快速训练
专知会员服务
28+阅读 · 2020年7月13日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员