Deep learning models are prone to learning shortcut solutions to problems using spuriously correlated yet irrelevant features of their training data. In high-risk applications such as medical image analysis, this phenomenon may prevent models from using clinically meaningful features when making predictions, potentially leading to poor robustness and harm to patients. We demonstrate that different types of shortcuts (those that are diffuse and spread throughout the image, as well as those that are localized to specific areas) manifest distinctly across network layers and can, therefore, be more effectively targeted through mitigation strategies that target the intermediate layers. We propose a novel knowledge distillation framework that leverages a teacher network fine-tuned on a small subset of task-relevant data to mitigate shortcut learning in a student network trained on a large dataset corrupted with a bias feature. Through extensive experiments on CheXpert, ISIC 2017, and SimBA datasets using various architectures (ResNet-18, AlexNet, DenseNet-121, and 3D CNNs), we demonstrate consistent improvements over traditional Empirical Risk Minimization, augmentation-based bias-mitigation, and group-based bias-mitigation approaches. In many cases, we achieve comparable performance with a baseline model trained on bias-free data, even on out-of-distribution test data. Our results demonstrate the practical applicability of our approach to real-world medical imaging scenarios where bias annotations are limited and shortcut features are difficult to identify a priori.


翻译:深度学习模型倾向于利用训练数据中虚假相关但无关的特征来学习问题的捷径解。在医学图像分析等高风险应用中,这种现象可能导致模型在预测时忽略具有临床意义的特征,从而降低模型的鲁棒性并对患者造成潜在危害。我们证明,不同类型的捷径(扩散至整个图像的以及局部集中于特定区域的)在网络各层中表现出明显差异,因此可通过针对中间层的缓解策略更有效地应对。我们提出一种新颖的知识蒸馏框架,该框架利用在任务相关数据的小型子集上微调的教师网络,来缓解在受偏置特征污染的大规模数据集上训练的学生网络中的捷径学习。通过在CheXpert、ISIC 2017和SimBA数据集上使用多种架构(ResNet-18、AlexNet、DenseNet-121和3D CNN)进行大量实验,我们证明了该方法相较于传统经验风险最小化、基于数据增强的偏置缓解以及基于分组的偏置缓解方法具有一致的改进效果。在许多情况下,即使在分布外测试数据上,我们的方法也能达到与在无偏置数据上训练的基线模型相当的性能。我们的结果表明,该方法在实际医学影像场景中具有适用性,尤其是在偏置标注有限且捷径特征难以先验识别的条件下。

0
下载
关闭预览

相关内容

国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员