0
点赞
收藏
分享

微信扫一扫

【UniMatch】

UniMatch: Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation

摘要

在这项工作中,我们重新审视了由FixMatch在半监督分类中普及的弱到强一致性框架,其中弱扰动图像的预测作为其强扰动版本的监督。有趣的是,我们观察到这样一个简单的流程在转移到我们的分割场景时,已经能够达到与最近的先进工作相竞争的结果。然而,它的成功在很大程度上依赖于强数据增强的手动设计,这可能会限制并不足以探索更广泛的扰动空间。基于此,我们提出了一种辅助特征扰动流作为补充,从而扩展扰动空间。另一方面,为了充分探测原始图像级增强,我们提出了一种双流扰动技术,使得两个强视图可以同时受到共同弱视图的引导。因此,我们的整体统一双流扰动方法(UniMatch)在Pascal、Cityscapes和COCO基准上的所有评估协议中显著超越了现有的所有方法。它的优越性在遥感解译和医学图像分析中也得到了证明。我们希望我们复现的FixMatch及其结果能够激励更多的未来工作。

引言

语义分割旨在为图像提供像素级的预测,这可以被视为一种密集的分类任务,并且对现实世界的应用(例如自动驾驶)至关重要。然而,传统的全监督场景[43, 73, 77]对人工标注的精细图像需求极高,这极大地阻碍了其在某些领域的广泛应用,因为在这些领域中,标注大量图像的成本高昂甚至不可行。因此,半监督语义分割[56]被提出并引起了越来越多的关注。通常,它希望通过利用大量未标注的图像,辅以少量手动标注的图像,来减轻劳动密集型的过程。

紧随半监督学习(SSL)的研究路线,半监督语义分割的先进方法已经从基于GANs的对抗训练范式[21, 47, 56]演变为广泛采用的一致性正则化框架[13, 19, 28, 29, 49, 61, 81]和重生的自训练流程[23, 27, 68, 70]。在这项工作中,我们专注于由FixMatch[55]在半监督分类领域推广的弱到强一致性正则化框架,然后影响了许多其他相关任务[42, 45, 57, 62, 66, 67]。弱到强的方法通过其对应的弱扰动版本xw的预测来监督强扰动的未标记图像xs,如图2a所示。直观上,它的成功在于模型更有可能对xw产生高质量的预测,而xs对我们的模型学习更有效,因为强扰动引入了额外的信息并减轻了确认偏差[2]。我们惊讶地发现,只要结合适当的强扰动,FixMatch在我们的场景中确实仍然表现出强大的泛化能力,获得了优于最新方法(SOTA)的结果,如图1所示。因此,我们选择这个简单而有效的框架作为我们的基线。

通过对图像级强扰动的研究,我们发现它们在使FixMatch成为半监督语义分割中的强大竞争者方面起着不可或缺的作用。如表1所示,是否采用扰动的性能差距极大。受到这些线索的极大启发,我们希望继承FixMatch的强扰动精神,但也从两个不同的角度和方向进一步加强它们,即扩展更广泛的扰动空间,并充分利用原始扰动。以下两段分别详细介绍了这两个角度。
在这里插入图片描述
表1.图像级强扰动(SP)对Pascal数据集FixMatch的重要性。w/o any SP:直接使用xw的硬标签来监控其日志。w/CutMix:仅使用CutMix [71]作为扰动。w/whole SP:强扰动包含来自ST++ [68]的颜色变换以及CutMix。

图像级扰动,例如颜色抖动和CutMix[71],包含启发式偏差,这实际上将额外的先验信息引入FixMatch的自举范式中,以捕捉一致性正则化

举报
0 条评论