Supervised Fine-Tuning (SFT) plays a pivotal role in adapting Large Language Models (LLMs) to specialized domains such as medical reasoning. However, existing SFT practices often rely on unfiltered datasets that contain redundant and low-quality samples, leading to substantial computational costs and suboptimal performance. Although existing methods attempt to alleviate this problem by selecting data based on sample difficulty, defined by knowledge and reasoning complexity, they overlook each sample's optimization utility reflected in its gradient. Interestingly, we find that gradient-based influence alone favors easy-to-optimize samples that cause large parameter shifts but lack deep reasoning chains, while difficulty alone selects noisy or overly complex cases that fail to guide stable optimization. Based on this observation, we propose a data selection strategy, Difficulty-Influence Quadrant (DIQ), which prioritizes samples in the high-difficulty-high-influence quadrant to balance complex clinical reasoning with substantial gradient influence, enabling efficient medical reasoning with minimal fine-tuning data. Furthermore, Human and LLM-as-a-judge evaluations show that DIQ-selected subsets demonstrate higher data quality and generate clinical reasoning that is more aligned with expert practices in differential diagnosis, safety check, and evidence citation, as DIQ emphasizes samples that foster expert-like reasoning patterns. Extensive experiments on medical reasoning benchmarks demonstrate that DIQ enables models fine-tuned on only 1% of selected data to match full-dataset performance, while using 10% consistently outperforms baseline methods, highlighting the superiority of principled data selection over brute-force scaling. The code and data are available at https://github.com/mihara-bot/DIQ.


翻译:监督微调在将大语言模型适配至医疗推理等专业领域过程中起着关键作用。然而,现有的监督微调实践通常依赖未经筛选的数据集,其中包含冗余和低质量的样本,导致巨大的计算成本与次优性能。尽管现有方法尝试通过基于样本难度(定义为知识与推理复杂度)的数据选择来缓解此问题,但它们忽略了每个样本在其梯度中反映的优化效用。有趣的是,我们发现仅基于梯度的样本影响力倾向于选择易于优化、能引起较大参数变化但缺乏深度推理链的样本,而仅基于难度则会选择噪声过多或过度复杂、无法引导稳定优化的案例。基于这一观察,我们提出一种数据选择策略——难度-影响力象限法,该方法优先选择高难度-高影响力象限中的样本,以平衡复杂的临床推理与显著的梯度影响力,从而实现使用最小微调数据的高效医疗推理。此外,人类与大语言模型作为评估者的评价表明,DIQ选择的子集展现出更高的数据质量,并生成更符合专家实践(在鉴别诊断、安全检查与证据引用方面)的临床推理,因为DIQ强调能培养类专家推理模式的样本。在医疗推理基准上的大量实验证明,DIQ使模型仅用1%精选数据微调即可达到全数据集性能,而使用10%数据时持续优于基线方法,凸显了基于原则的数据选择相对于暴力扩展的优越性。代码与数据可在 https://github.com/mihara-bot/DIQ 获取。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员