本论文通过发挥语言的多重角色——作为监督信号、先验知识与交流媒介——来推进医学影像理解。我们提出了三项主要贡献:(1) 一个弱监督框架,利用临床报告中的语言指导图像区域与文本描述之间的细粒度对齐;(2) 一种自适应去偏方法,使用语言先验提升学习算法在噪声监督下的鲁棒性;(3) 一种新颖的校准诊断确定性语言表达的方法,以实现临床发现更可靠的沟通。这些方法共同构建了更准确、更稳健、更可靠的机器学习系统,最终优化临床工作流程并改善患者诊疗。

机器学习正在变革医疗健康领域[3],推动着诊断技术[4,5]、个性化医疗[6]以及治疗计划[7-9]的进步。自动化系统既提升了医疗服务提供者的工作效率,也改善了患者护理质量。例如,数字化记录员已开始帮助减轻临床文档撰写的负担[10]。电子健康记录和图像归档与通信系统的广泛采用[11,12],使得捕获和存储丰富多样的多模态临床数据成为可能,而这些数据对于开发机器学习解决方案至关重要。 在这些数据源中,医学影像(如X光片和CT扫描)与专家生成的报告相结合,提供了患者健康状况的全面视图。影像提供了解剖结构和病理过程的详细可视化信息,而伴随的报告则提供了专家解读、定量评估以及诊断置信度的表达。这种结合对于追踪疾病进展和指导临床决策至关重要。例如,胸部X光片常规用于急诊科以确认诸如肺水肿等诊断[13,14],而一份提示有肺炎相符表现的放射学报告,可以促使临床医生开始使用抗生素或安排进一步的影像学检查以确定根本原因。 本论文专注于开发能够解读医学影像并使用自然语言交流结果的机器学习模型。通过将医学影像中丰富的视觉信息与临床报告中细致、描述性的语言相结合,此类模型有望解锁一系列有价值的临床应用,包括基于特定关注区域的视觉相似病例检索、病变的准确检测与定位,以及向临床医生和其他利益相关者可靠地传达结果。尽管近期取得了进展,但重大挑战仍然存在。当前系统常常受限于标注数据的匮乏以及医学信息固有的复杂性,例如临床表现的长尾分布和语言的微妙语义。 医学视觉-语言理解的一个核心挑战是实现视觉特征与其语言描述之间的细粒度对齐,例如将X光片中的局部肺部阴影与"右下叶局灶性实变"这一短语联系起来。早期的图像-文本对齐方法[15-17]虽然证明了自然语言监督可以指导表示学习,但在具有临床价值的任务(如基于影像的病变检测)上仍存在困难。这一不足主要源于将特定图像区域映射到精确文本描述的详细标注数据稀缺,该过程既耗费人力又依赖专家输入,难以大规模实施。 除了标注稀缺之外,这些模型的有效性还受到临床数据固有复杂性的进一步挑战。临床数据集通常呈现长尾分布:常见病症有充分的代表性,而许多高风险或罕见发现则出现频率很低。这种不平衡往往直接反映在临床报告所使用的语言中,给模型的泛化能力和稳健性能带来了重大障碍[18]。 同样重要的是对诊断发现进行可靠沟通的需求。临床医生经常使用诸如"可能为肺炎"等微妙的语言来表达因医学影像不明确而产生的不确定性[19,20]。这些确定性表达在临床决策中发挥着直接作用,影响着从安排进一步检查到开始治疗等一系列行动。然而,当前的机器学习系统通常无法以一种与临床沟通一致的方式来表达诊断置信度,从而存在误解和次优护理的风险。这凸显了对定量工具的需求,以评估和改进这些系统在报告不确定性时所使用语言的可靠性。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
微信扫码咨询专知VIP会员