论文题目:Medical Image Segmentation via Cascaded Attention Decoding(通过级联注意力解码的医学图像分割)
论文作者:Md Mostafijur Rahman Radu Marculescu
论文引用
DOI:10.1109/WACV56688.2023.00616
论文链接:
https://openaccess.thecvf.com/content/WACV2023/papers/Rahman_Medical_Image_Segmentation_via_Cascaded_Attention_Decoding_WACV_2023_paper.pdf
https://ieeexplore.ieee.org/document/10030763
摘要
Transformers 在医学图像分割领域展现出巨大的潜力,因为它们能够通过自注意力机制捕捉长距离依赖关系。然而,它们缺乏学习像素之间局部(上下文)关系的能力。以前的工作尝试通过在 Transformer 的编码器或解码器模块中嵌入卷积层来克服这个问题,但有时会导致特征不一致。为了解决这个问题,我们提出了一种新颖的基于注意力的解码器,即级联注意力解码器(CASCADE),它利用了层次视觉 Transformer 的多尺度特征。CASCADE 包括:i)一个注意力门,它通过跳跃连接融合特征;ii)一个卷积注意力模块,通过抑制背景信息增强长距离和局部上下文。我们使用多阶段特征和损失聚合框架,因为它们具有更快的收敛速度和更好的性能。我们的实验表明,带有 CASCADE 的 Transformer 在DICE 和 mIoU 分数上显著优于最先进的基于 CNN 和 Transformer 的方法,分别提高了 5.07% 和 6.16%。CASCADE 为设计更好的基于注意力的解码器开辟了新的道路。
背景
卷积神经网络(CNN)已被广泛用于医学图像分割任务[24, 37, 15, 22, 23, 10]
UNet [24] 在医学图像分割中表现出显著的性能,因为它通过使用跳跃连接聚合多阶段特征来产生高分辨率的分割图。由于UNet复杂的编码器-解码器架构,一些UNet 的变体,如UNet++ [37]、UNet 3+ [15]、DC-UNet [22]在医学图像分割中展示了令人印象深刻的性能。尽管基于 CNN 的方法在性能上令人满意,但由于卷积操作的空间上下文,它们在学习像素之间的长距离依赖方面存在局限性 [2]。
为了克服这个限制,一些工作[23, 6, 10] 在他们的架构中引入了注意力模块,以增强特征图,从而更好地对医学图像进行像素级分类。尽管这些基于注意力的方法由于捕捉到显著特征而取得了改进的性能,但它们在捕捉不足的长距离依赖方面仍然存在问题。
最近在视觉 Transformer [9] 方面的进展克服了上述在捕捉长距离依赖方面的限制,特别是在医学图像分割[3, 2, 8, 30]中。Transformer 依赖于基于注意力的网络架构;它们最初是为自然语言处理(NLP)中的序列到序列预测 [28] 引入的。Transformer 使用自注意力来学习所有输入标记之间的相关性,这使它们能够捕捉长距离依赖。在 Transformer 在 NLP 中取得成功之后,视觉 Transformer [9] 将图像划分为不重叠的补丁,这些补丁连同位置嵌入一起输入到 Transformer 模块中。最近,为了降低计算成本,引入了层次化视觉 Transformer,如基于窗口注意力的 Swin Transformer [20] 和具有空间缩减注意力的金字塔视觉 Transformer(PVT)[31]。这些层次化视觉 Transformer 对医学图像分割任务 [2, 8, 30] 非常有效。然而,Transformer 中使用的自注意力限制了它们学习像素之间局部(上下文)关系的能力 [7, 16]。
最近,SegFormer [35]、UFormer [33] 和 PVTv2 [32] 尝试通过在 Transformer 中嵌入卷积层来克服这一限制。尽管这些架构可以部分学习