0
点赞
收藏
分享

微信扫一扫

CenterMask论文简读

CenterMask论文简读_计算机视觉
code: ​​​https://github.com/youngwanLEE/CenterMask​​


文章目录

  • ​​摘要​​
  • ​​引言​​
  • ​​CenterMask​​
  • ​​FCOS​​
  • ​​架构​​
  • ​​Adaptive RoI Assignment Function​​
  • ​​Spatial Attention-Guided Mask​​
  • ​​VoVNetV2 backbone​​

摘要

我们提出了一个简单而有效的anchor-free实例分割方法,称为CenterMask,在Mask R-CNN基础上使用了FCOS和SAG-Mask。插入FCOS对象检测器后,SAG-Mask分支可以使用空间注意力特征图来预测每个检测框上的分割蒙版,该图有助于将注意力集中在内容丰富的像素上并抑制噪声。我们还提出了一种改进的backbone网络VoVNetV2,它具有两种有效的策略:(1)残差连接能缓解较大VoVNet的优化问题;(2)处理原始SE的信道信息丢失问题的eSE。借助SAG-Mask和VoVNetV2,我们分别设计了分别针对大型和小型模型的CenterMask和CenterMask-Lite。使用相同的ResNet-101-FPN backbone,CenterMask可以达到38.3%,以更快的速度超越了所有以前的最新方法。CenterMask-Lite在Titan Xp上也以超过35 fps的速度大幅领先于最新技术。我们希望CenterMask和VoVNetV2可以分别作为用于各种视觉任务的实时实例分割和backbone网络的坚实基准。

引言

最近,实例分割已取得了超越对象检测的巨大进步。最具代表性的方法Mask R-CNN扩展到对象检测(例如Faster R-CNN),已成为COCO基准测试的主导,因为可以通过检测对象然后预测每个盒子上的像素来轻松解决实例分割问题。但是,即使有许多改进Mask R-CNN的工作,但考虑到实例分割速度的工作却很少。尽管由于YOLACT的并行结构和极其轻巧的组装过程,它是第一个实时的one-stage实例分割,但是与Mask R-CNN的准确性差距仍然很大。因此,我们旨在通过提高准确性和速度来弥合差距。

Mask R-CNN基于two-stage对象检测器(例如,Faster R-CNN),该对象首先生成框候选,然后预测框的位置和分类,而YOLACT建立在直接检测框的one-stage检测器(RetinaNet)上,没有候选步骤。然而,这些物体检测器严重依赖于预定义anchor,该预定义anchor对超参数(例如,输入大小、纵横比、比例等)和不同的数据集敏感。此外,由于它们密集地放置锚框以提高召回率,因此过多的anchor box会导致正/负样本的不平衡以及较高的计算/内存成本。为了解决anchor box的这些缺点,近来,许多工作倾向于通过使用角/中心点从anchor变成anchor-free,与基于anchor的检测器相比,这导致了更高的计算效率和更好的性能。

因此,我们设计了一个简单但有效的anchor-free,one-stage实例分割,称为CenterMask,在Mask R-CNN基础上使用了FCOS和SAG-Mask。插入FCOS对象检测器后,我们的空间注意力引导蒙版(SAG-Mask)分支将使用FCOS检测器中的预测框来预测每个关注区域(RoI)上的分割蒙版。SAG-Mask中的空间注意模块(SAM)帮助遮罩分支将注意力集中在有意义的像素上,并抑制无关紧要的像素。

在提取每个RoI上的特征以进行掩码预测时,应考虑RoI比例来分配每个RoI池化。Mask R-CNN提出了一个新的赋值函数,称为RoIAlign,它不考虑输入比例。因此,我们设计了一种具有比例尺的RoI分配函数,该函数考虑了输入比例,更加合适。我们还提出了一种基于VoVNet的更有效的骨干网VoVNetV2,由于其One-shot Aggregation(OSA),它比ResNet和DenseNet具有更好的性能和更快的速度。在下图底部)中,我们发现将OSA模块堆叠在VoVNet中会使性能下降(例如VoVNetV1-99)。我们将此现象视为ResNet的动机,因为梯度的反向传播受到干扰。因此,我们将残差连接添加到每个OSA模块中以简化优化,这使VoVNet更深,从而提高了性能。

在Squeeze-Excitation(SE)通道注意模块中,发现全连接的层会减小通道大小,从而减少计算负担并意外地导致通道信息丢失。因此,我们将SE模块重新设计为eSE,用一个保持信道尺寸的FC层替换了两个FC层,从而防止了信息丢失,进而提高了性能。通过残差连接和eSE模块,我们建议使用各种规模的VoVNetV2。从轻量级VoVNetV2-19、基本VoVNetV2-39/57和大型模型VoVNetV2-99,它们对应于MobileNet-V2、ResNet-50/101和HRNet-W18/32和ResNeXt-32x8d。

借助SAG-Mask和VoVNetV2,我们设计了CenterMask和CenterMask-Lite,分别针对大型和小型模型。大量实验证明了CenterMask、CenterMask-Lite和VoVNetV2的有效性。使用相同的ResNet-101骨干,CenterMask在COCO实例和检测任务上的性能优于以前所有的最新单个模型,但速度要快得多。带有VoVNetV2-39 bakcbone的CenterMask-Lite还实现了33.4%的mask AP / 38.0%的box AP,在Titan Xp上以超过35fps的速度分别以2.6/7.0 AP的增益实现了最新的实时实例分割YOLACT。

CenterMask

FCOS

与FCN一样,FCOS是按像素预测方式进行的anchor-free和proposal-free的对象检测。诸如Faster R-CNN、YOLO和RetinaNet之类的最先进的物体检测器都使用预定义anchor的概念,该anchor需要进行复杂的参数调整和与训练中的IoU相关的复杂计算。如果没有anchor,则FCOS会直接预测4D向量以及特征图级别上每个空间位置处的类标签。如之前架构图所示,4D向量嵌入从边界框的四个侧面到位置(例如,左,右,顶部和底部)的相对偏移。另外,FCOS引入了centerness分支以预测像素到其相应边界框中心的偏离,从而提高了检测性能。避免了anchor的复杂计算,FCOS降低了内存/计算成本,但性能也优于基于anchor的对象检测器。由于FCOS的效率和良好的性能,我们设计了基于FCOS对象检测器的CenterMask。

架构

下图显示了CenterMask的总体架构。CenterMask由三部分组成:(1)用于特征提取的主干,(2)FCOS检测head和(3)遮罩head。遮罩对象的过程包括以下步骤:从FCOS盒头检测对象,然后以像素为单位预测裁剪区域内部的分割遮罩。
CenterMask论文简读_目标检测_02

Adaptive RoI Assignment Function

在FCOS中预测了对象候选后,CenterMask使用与Mask R-CNN相同的预测框区域来预测分割蒙版。由于RoI是根据特征金字塔网络(FPN)中不同级别的特征图预测的,因此提取特征的RoI Align应相对于RoI比例以不同的特征图比例进行分配。具体而言,必须将大规模RoI分配给更高的特征级别,反之亦然。基于Mask R-CNN的two-stage检测器使用FPN中的公式1来确定要分配的特征图(Pk)。
CenterMask论文简读_计算机视觉_03

CenterMask论文简读_计算机视觉_04

Spatial Attention-Guided Mask

CenterMask论文简读_卷积_05

VoVNetV2 backbone

在本节中,我们提出了更有效的骨干网络VoVNetV2,以进一步提高CenterMask的性能。VoVNetV2是从VoVNet改进而来的,方法是在VoVNet中添加残差连接和提出的eSE注意力模块。VoVNet是一种计算和节能的backbone网络,由于One-Shot Aggregation(OSA)模块,可以有效地呈现多样化的特征表示。

如(a)所示,OSA模块由连续的卷积层组成,并立即聚合后续的特征图,可以有效捕获各种感受野,并且在准确性和速度方面均优于DenseNet和ResNet。

CenterMask论文简读_目标检测_06
残差连接:即使具有有效且多样化的特征表示,VoVNet在优化方面仍存在局限性。随着OSA模块在VoVNet中堆叠(例如更深),我们观察到更深模型的准确性已饱和或降级。具体来说示了VoVNetV1-99的准确性低于VoVNetV1-57的准确性。基于ResNet的动机,我们推测由于转换函数(例如卷积)的增加,堆叠OSA模块会使梯度的反向传播逐渐变得困难。因此,如(b)所示,我们还将恒等映射添加到OSA模块。正确地,输入路径连接到OSA模块的末端,该OSA模块能够像ResNet这样在每个阶段以端到端的方式反向传播每个OSA模块的梯度。恒等映射提高了VoVNet的性能,也使VoVNet可以扩展其深度,例如VoVNet-99。

Effective Squeeze-Excitation (eSE):为了进一步提高VoVNet的性能,我们还提出了一个通道注意力模块,即Effective Squeeze-Excitation (eSE),可以更有效地改善原始SE。SE是CNN架构中采用的一种代表性的通道注意力方法,用于对特征图通道之间的相互依赖性进行显式建模,以增强其表示能力。SE模块通过全局平均值池化压缩空间相关性,以学习特定于通道的描述符,然后使用两个全连接(FC)层以及Sigmoid型函数来重新缩放输入特征图,以仅突出显示有用的通道。

但是,假设SE模块具有局限性:由于尺寸减小而导致信道信息丢失。一般为了避免高模型复杂性负担,SE模块的两个FC层需要减小通道尺寸。具体来说,虽然第一个FC层使用缩小率r将输入特征通道C缩小到C/r,但第二FC层将缩小的通道扩展到原始通道大小C。结果,这种通道降维会导致通道信息丢失。

因此,我们提出的eSE仅使用具有C通道的一个FC层,而不使用不降低通道尺寸的两个FC,从而保留通道信息,从而提高性能,如题过程如©。(两层FC变一层而已)


举报

相关推荐

0 条评论