Medical image segmentation is a cornerstone of modern clinical diagnostics. While Vision Transformers that leverage shifted window-based self-attention have established new benchmarks in this field, they are often hampered by a critical limitation: their localized attention mechanism struggles to effectively fuse local details with global context. This deficiency is particularly detrimental to challenging tasks such as the segmentation of microtumors and miniature organs, where both fine-grained boundary definition and broad contextual understanding are paramount. To address this gap, we propose HBFormer, a novel Hybrid-Bridge Transformer architecture. The 'Hybrid' design of HBFormer synergizes a classic U-shaped encoder-decoder framework with a powerful Swin Transformer backbone for robust hierarchical feature extraction. The core innovation lies in its 'Bridge' mechanism, a sophisticated nexus for multi-scale feature integration. This bridge is architecturally embodied by our novel Multi-Scale Feature Fusion (MFF) decoder. Departing from conventional symmetric designs, the MFF decoder is engineered to fuse multi-scale features from the encoder with global contextual information. It achieves this through a synergistic combination of channel and spatial attention modules, which are constructed from a series of dilated and depth-wise convolutions. These components work in concert to create a powerful feature bridge that explicitly captures long-range dependencies and refines object boundaries with exceptional precision. Comprehensive experiments on challenging medical image segmentation datasets, including multi-organ, liver tumor, and bladder tumor benchmarks, demonstrate that HBFormer achieves state-of-the-art results, showcasing its outstanding capabilities in microtumor and miniature organ segmentation. Code and models are available at: https://github.com/lzeeorno/HBFormer.


翻译:医学图像分割是现代临床诊断的基石。尽管采用移位窗口自注意力机制的视觉Transformer已在该领域树立了新的性能基准,但其常受限于一个关键缺陷:局部化的注意力机制难以有效融合局部细节与全局上下文信息。这一不足在微肿瘤及微型器官分割等挑战性任务中尤为不利,此类任务对细粒度边界界定与宏观上下文理解均有极高要求。为弥补这一缺陷,我们提出HBFormer,一种新颖的混合桥接Transformer架构。HBFormer的“混合”设计将经典的U形编码器-解码器框架与强大的Swin Transformer主干网络协同结合,以实现鲁棒的分层特征提取。其核心创新在于“桥接”机制——一个用于多尺度特征融合的精密枢纽。该桥接机制在结构上体现为我们提出的新型多尺度特征融合(MFF)解码器。区别于传统的对称设计,MFF解码器通过通道注意力模块与空间注意力模块的协同组合,将编码器的多尺度特征与全局上下文信息进行融合。这些模块由一系列空洞卷积与深度可分离卷积构建而成,共同构成一个强大的特征桥接,能够显式捕获长程依赖关系并以极高精度优化目标边界。在包括多器官、肝脏肿瘤及膀胱肿瘤基准在内的多个挑战性医学图像分割数据集上的综合实验表明,HBFormer取得了最先进的性能,充分展现了其在微肿瘤与微型器官分割任务中的卓越能力。代码与模型已开源:https://github.com/lzeeorno/HBFormer。

0
下载
关闭预览

相关内容

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员