Ranking relevance is a fundamental task in search engines, aiming to identify the items most relevant to a given user query. Traditional relevance models typically produce scalar scores or directly predict relevance labels, limiting both interpretability and the modeling of complex relevance signals. Inspired by recent advances in Chain-of-Thought (CoT) reasoning for complex tasks, we investigate whether explicit reasoning can enhance both interpretability and performance in relevance modeling. However, existing reasoning-based Generative Relevance Models (GRMs) primarily rely on supervised fine-tuning on large amounts of human-annotated or synthetic CoT data, which often leads to limited generalization. Moreover, domain-agnostic, free-form reasoning tends to be overly generic and insufficiently grounded, limiting its potential to handle the diverse and ambiguous cases prevalent in open-domain search. In this work, we formulate relevance modeling in Xiaohongshu search as a reasoning task and introduce a Reinforcement Learning (RL)-based training framework to enhance the grounded reasoning capabilities of GRMs. Specifically, we incorporate practical business-specific relevance criteria into the multi-step reasoning prompt design and propose Stepwise Advantage Masking (SAM), a lightweight process-supervision strategy which facilitates effective learning of these criteria through improved credit assignment. To enable industrial deployment, we further distill the large-scale RL-tuned model to a lightweight version suitable for real-world search systems. Extensive experiments on industrial datasets, along with online A/B tests, demonstrate the effectiveness of our approach.


翻译:排序相关性是搜索引擎中的一项基础任务,旨在识别与给定用户查询最相关的条目。传统的相关性模型通常生成标量分数或直接预测相关性标签,这既限制了可解释性,也制约了对复杂相关性信号的建模能力。受近期复杂任务中思维链推理进展的启发,我们探究了显式推理是否能够同时提升相关性建模的可解释性与性能。然而,现有的基于推理的生成式相关性模型主要依赖于对大量人工标注或合成思维链数据进行监督微调,这往往导致泛化能力有限。此外,领域无关的自由形式推理往往过于通用且缺乏充分的事实依据,限制了其在开放域搜索中处理普遍存在的多样性和模糊性案例的潜力。在本工作中,我们将小红书搜索中的相关性建模形式化为一项推理任务,并引入一种基于强化学习的训练框架,以增强生成式相关性模型的基于事实的推理能力。具体而言,我们将实际业务特定的相关性标准融入多步推理提示设计中,并提出了一种轻量级的过程监督策略——逐步优势掩蔽,该策略通过改进信用分配,促进对这些标准的有效学习。为实现工业部署,我们进一步将大规模强化学习调优模型蒸馏为适用于实际搜索系统的轻量级版本。在工业数据集上的大量实验以及在线A/B测试结果,均证明了我们方法的有效性。

0
下载
关闭预览

相关内容

【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员