Large vision language models (VLMs) have achieved impressive performance on medical visual question answering benchmarks, yet their reliance on visual information remains unclear. We investigate whether frontier VLMs demonstrate genuine visual grounding when answering Italian medical questions by testing four state-of-the-art models: Claude Sonnet 4.5, GPT-4o, GPT-5-mini, and Gemini 2.0 flash exp. Using 60 questions from the EuropeMedQA Italian dataset that explicitly require image interpretation, we substitute correct medical images with blank placeholders to test whether models truly integrate visual and textual information. Our results reveal striking variability in visual dependency: GPT-4o shows the strongest visual grounding with a 27.9pp accuracy drop (83.2% [74.6%, 91.7%] to 55.3% [44.1%, 66.6%]), while GPT-5-mini, Gemini, and Claude maintain high accuracy with modest drops of 8.5pp, 2.4pp, and 5.6pp respectively. Analysis of model-generated reasoning reveals confident explanations for fabricated visual interpretations across all models, suggesting varying degrees of reliance on textual shortcuts versus genuine visual analysis. These findings highlight critical differences in model robustness and the need for rigorous evaluation before clinical deployment.


翻译:大型视觉语言模型(VLMs)在医学视觉问答基准测试中取得了令人印象深刻的性能,但其对视觉信息的依赖程度仍不明确。本研究通过测试四种前沿模型——Claude Sonnet 4.5、GPT-4o、GPT-5-mini和Gemini 2.0 flash exp——探究这些模型在回答意大利语医学问题时是否展现出真正的视觉基础。我们使用来自EuropeMedQA意大利数据集的60个明确需要图像解读的问题,将正确的医学图像替换为空白占位符,以测试模型是否真正整合了视觉与文本信息。结果显示视觉依赖性存在显著差异:GPT-4o表现出最强的视觉基础,准确率下降27.9个百分点(从83.2% [74.6%, 91.7%]降至55.3% [44.1%, 66.6%]),而GPT-5-mini、Gemini和Claude则保持较高准确率,分别仅下降8.5、2.4和5.6个百分点。对模型生成推理的分析表明,所有模型均能对虚构的视觉解读提供自信的解释,这暗示了模型在依赖文本捷径与真实视觉分析之间存在不同程度的权衡。这些发现凸显了模型鲁棒性的关键差异,并强调了临床部署前进行严格评估的必要性。

0
下载
关闭预览

相关内容

医学影像是指为了医疗或医学研究,对人体或人体某部分,以非侵入方式取得内部组织影像的技术与处理过程。它包含以下两个相对独立的研究方向:医学成像系统(medical imaging system)和医学图像处理(medical image processing)。前者是指图像行成的过程,包括对成像机理、成像设备、成像系统分析等问题的研究;后者是指对已经获得的图像作进一步的处理,其目的是或者是使原来不够清晰的图像复原,或者是为了突出图像中的某些特征信息,或者是对图像做模式分类等等。
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员