Reliable interpretation of multimodal data in dentistry is essential for automated oral healthcare, yet current multimodal large language models (MLLMs) struggle to capture fine-grained dental visual details and lack sufficient reasoning ability for precise diagnosis. To address these limitations, we present DentalGPT, a specialized dental MLLM developed through high-quality domain knowledge injection and reinforcement learning. Specifically, the largest annotated multimodal dataset for dentistry to date was constructed by aggregating over 120k dental images paired with detailed descriptions that highlight diagnostically relevant visual features, making it the multimodal dataset with the most extensive collection of dental images to date. Training on this dataset significantly enhances the MLLM's visual understanding of dental conditions, while the subsequent reinforcement learning stage further strengthens its capability for multimodal complex reasoning. Comprehensive evaluations on intraoral and panoramic benchmarks, along with dental subsets of medical VQA benchmarks, show that DentalGPT achieves superior performance in disease classification and dental VQA tasks, outperforming many state-of-the-art MLLMs despite having only 7B parameters. These results demonstrate that high-quality dental data combined with staged adaptation provides an effective pathway for building capable and domain-specialized dental MLLMs.


翻译:在牙科中可靠地解释多模态数据对于自动化口腔医疗保健至关重要,然而当前的多模态大语言模型(MLLMs)难以捕捉细粒度的牙科视觉细节,且缺乏足够的推理能力以进行精确诊断。为应对这些局限,我们提出了DentalGPT,一种通过高质量领域知识注入和强化学习开发的专用牙科MLLM。具体而言,通过整合超过12万张牙科图像及其强调诊断相关视觉特征的详细描述,构建了迄今为止最大的标注多模态牙科数据集,使其成为当前牙科图像收集最广泛的多模态数据集。在该数据集上的训练显著增强了MLLM对牙科状况的视觉理解,而随后的强化学习阶段进一步强化了其多模态复杂推理能力。在口内和全景基准测试以及医学VQA基准的牙科子集上的综合评估表明,DentalGPT在疾病分类和牙科VQA任务中实现了卓越性能,尽管仅有70亿参数,仍优于许多最先进的MLLMs。这些结果表明,高质量牙科数据结合分阶段适应为构建能力强且领域专用的牙科MLLMs提供了有效途径。

0
下载
关闭预览

相关内容

【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理
专知会员服务
45+阅读 · 2024年1月24日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员