Large language models (LLMs) have shown great promise in the medical domain, achieving strong performance on several benchmarks. However, they continue to underperform in real-world medical scenarios, which often demand stronger context-awareness, i.e., the ability to recognize missing or critical details (e.g., user identity, medical history, risk factors) and provide safe, helpful, and contextually appropriate responses. To address this issue, we propose Multifaceted Self-Refinement (MuSeR), a data-driven approach that enhances LLMs' context-awareness along three key facets (decision-making, communication, and safety) through self-evaluation and refinement. Specifically, we first design a attribute-conditioned query generator that simulates diverse real-world user contexts by varying attributes such as role, geographic region, intent, and degree of information ambiguity. An LLM then responds to these queries, self-evaluates its answers along three key facets, and refines its responses to better align with the requirements of each facet. Finally, the queries and refined responses are used for supervised fine-tuning to reinforce the model's context-awareness ability. Evaluation results on the latest HealthBench dataset demonstrate that our method significantly improves LLM performance across multiple aspects, with particularly notable gains in the context-awareness axis. Furthermore, by incorporating knowledge distillation with the proposed method, the performance of a smaller backbone LLM (e.g., Qwen3-32B) surpasses its teacher model, achieving a new SOTA across all open-source LLMs on HealthBench (63.8%) and its hard subset (43.1%). Code and dataset will be released at https://muser-llm.github.io.


翻译:大型语言模型(LLMs)在医学领域展现出巨大潜力,在多项基准测试中取得了强劲性能。然而,它们在现实世界医疗场景中仍表现不佳,这些场景通常要求更强的情境感知能力,即识别缺失或关键细节(例如用户身份、病史、风险因素)并提供安全、有用且情境适宜的回答的能力。为解决这一问题,我们提出了多层面自我精炼(MuSeR),一种数据驱动的方法,通过自我评估和精炼,从三个关键层面(决策制定、沟通和安全性)增强LLMs的情境感知能力。具体而言,我们首先设计了一个属性条件查询生成器,通过变化角色、地理区域、意图和信息模糊度等属性来模拟多样化的现实世界用户情境。随后,一个LLM对这些查询作出回答,从三个关键层面对其答案进行自我评估,并精炼其回答以更好地符合每个层面的要求。最后,这些查询和精炼后的回答被用于监督微调,以强化模型的情境感知能力。在最新的HealthBench数据集上的评估结果表明,我们的方法显著提升了LLM在多个方面的性能,尤其是在情境感知维度上取得了尤为显著的增益。此外,通过将知识蒸馏与所提方法结合,一个较小的骨干LLM(例如Qwen3-32B)的性能超越了其教师模型,在HealthBench(63.8%)及其困难子集(43.1%)上实现了所有开源LLMs中的新SOTA。代码和数据集将在https://muser-llm.github.io发布。

0
下载
关闭预览

相关内容

用于三维医学影像理解的综合语言–图像预训练
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员