【第11篇】微软发布的Dynamic Head，创造COCO新记录：60.6AP-CFANZ编程社区

微软发布的Dynamic Head，创造COCO新记录：60.6AP

【第11篇】微软发布的Dynamic Head，创造COCO新记录：60.6AP_目标检测

论文地址：https://arxiv.org/pdf/2106.08322.pdf

摘要

在目标检测中结合定位和分类的复杂性导致了方法的蓬勃发展。以前的工作试图提高各种物体检测头的性能，但未能呈现出统一的观点。在本文中，我们提出了一种新颖的动态头部框架，以将目标检测头部与注意力统一起来。通过在尺度感知的特征级别之间、空间感知的空间位置之间以及任务感知的输出通道内相干地组合多个自注意力机制，所提出的方法显着提高了对象检测头的表示能力，而无需任何计算开销。进一步的实验证明了所提出的动态头在 COCO 基准上的有效性和效率。使用标准的 ResNeXt-101-DCN 主干，我们大大提高了流行对象检测器的性能，并在 54.0 AP 上实现了新的最新技术。此外，借助最新的变压器主干和额外数据，我们可以将当前最佳 COCO 结果推至 60.6 AP 的新记录。代码将在 https://github.com/microsoft/DynamicHead 上发布。

1 简介

物体检测是回答计算机视觉应用中“什么物体位于何处”的问题。在深度学习时代，几乎所有现代物体检测器 [11, 23, 12,35, 28, 31, 33] 共享相同的范式– 特征提取的主干和定位和分类任务的负责人。如何提高物体检测头的性能已经成为现有物体检测工作中的关键问题。

开发一个好的物体检测头的挑战可以概括为三类。首先，头部应该是尺度感知的，因为具有截然不同尺度的多个对象通常共存于一个图像中。其次，头部应该具有空间意识，因为在不同的视点下，物体通常以截然不同的形状、旋转和位置出现。第三，头部需要具有任务意识，因为对象可以有各种表示（例如，边界框 [12]、中心 [28] 和角点 [33]），它们拥有完全不同的目标和约束。我们发现最近的研究 [12, 35,28, 31, 33] 只专注于以各种方式解决上述问题之一。如何开发一个可以同时解决所有这些问题的统一头仍然是一个悬而未决的问题。

在本文中，我们提出了一种新的检测头，称为动态头，以统一尺度感知、空间感知和任务感知。如果我们将主干的输出（即检测头的输入）视为维度为 level × space × channel 的 3 维张量，我们会发现这种统一的 head 可以被视为注意力学习问题。一个直观的解决方案是在这个张量上建立一个完整的自注意力机制。然而，优化问题太难解决，计算成本也无法承受。

相反，我们可以在特征的每个特定维度上分别部署注意力机制，即水平、空间和通道。 scale-aware attention module只部署在level这个维度上。它学习各种语义级别的相对重要性，以根据其规模为单个对象在适当的级别上增强特征。空间感知注意力模块部署在空间维度（即高度 × 宽度）上。它在空间位置上学习连贯的判别式表示。任务感知注意力模块部署在通道上。它根据来自对象的不同卷积核响应，引导不同的特征通道分别支持不同的任务（例如，分类、框回归和中心/关键点学习）。

通过这种方式，我们明确地为检测头实现了统一的注意力机制。尽管这些注意力机制分别应用于特征张量的不同维度，但它们的性能可以相互补充。在 MS-COCO 基准上的大量实验证明了我们方法的有效性。它为学习更好的表示提供了巨大的潜力，可用于改进各种目标检测模型，AP 增益为 1:2% ~ 3:2%。使用标准的 ResNeXt-101-DCN 主干，所提出的方法在 COCO 上实现了最先进的 54:0% AP。此外，与 EffcientDet [27] 和 SpineNet [8] 相比，动态头部使用 1=20 的训练时间，但具有更好的性能。此外，借助最新的 Transformer 主干和来自自训练的额外数据，我们可以将当前最佳 COCO 结果推至 60.6 AP 的新记录（详见附录）。

2 相关工作

最近的研究侧重于从各种角度改进目标检测器：尺度感知、空间感知和任务感知。

**规模意识。**许多研究已经意识到尺度感知在物体检测中的重要性，因为具有巨大不同尺度的物体通常共存于自然图像中。早期的工作已经证明了利用图像金字塔方法 [6, 24, 25] 进行多尺度训练的重要性。代替图像金字塔，特征金字塔 [15] 被提出通过连接一个下采样卷积特征的金字塔来提高效率，并已成为现代目标检测器的标准组件。然而，不同层次的特征通常是从网络的不同深度提取的，这会导致明显的语义差距。为了解决这种差异，[18] 提出通过特征金字塔自下而上的路径增强来增强较低层的特征。后来，[20] 通过引入平衡采样和平衡特征金字塔对其进行了改进。最近，[31] 提出了一种基于修改的 3-D 卷积同时提取尺度和空间特征的金字塔卷积。在这项工作中，我们在检测头中提出了一个尺度感知的注意力，这使得各种特征级别的重要性适应输入。

**空间意识。**以前的工作试图提高对象检测中的空间意识，以实现更好的语义学习。众所周知，卷积神经网络在学习图像中存在的空间变换方面受到限制 [41]。一些工作通过增加模型能力（大小）[13, 32] 或涉及昂贵的数据增强 [14] 来缓解这个问题，导致推理和训练中的计算成本极高。后来，提出了新的卷积算子来改进空间变换的学习。 [34] 建议使用扩张卷积从指数扩展的感受野中聚合上下文信息。 [7] 提出了一个可变形卷积来对具有额外自学偏移量的空间位置进行采样。 [37]通过引入学习的特征幅度重新制定了偏移量，并进一步提高了其能力。

在这项工作中，我们在检测头中提出了空间感知注意力，它不仅将注意力应用于每个空间位置，而且还自适应地将多个特征级别聚合在一起以学习更具辨别力的表示。

**任务意识。**对象检测起源于两阶段范式 [39, 6]，它首先生成对象提议，然后将提议分类为不同的类和背景。 [23] 通过引入区域提议网络 (RPN) 将两个阶段表述为单个卷积网络，将现代双阶段框架形式化。后来，一级物体检测器[22]因其高效率而流行起来。 [16] 通过引入特定于任务的分支来进一步改进架构，以超越两级检测器的精度，同时保持先前一级检测器的速度。

最近，更多的工作发现对象的各种表示可以潜在地提高性能。 [12]首先证明结合边界框和对象的分割掩码可以进一步提高性能。 [28] 建议使用中心表示以每像素预测方式解决对象检测。 [35]通过根据对象的统计特征自动选择正负样本，进一步提高了基于中心的方法的性能。后来，[33] 将目标检测作为代表性的关键点来简化学习。 [9] 通过将每个对象检测为三元组，而不是一对关键点来减少错误预测，进一步提高了性能。最近，[21] 提出从每个边界的极值点提取边界特征以增强点特征并存档最先进的性能。

在这项工作中，我们在检测头中提出了一个任务感知注意力，它允许将注意力部署在通道上，这可以自适应地支持各种任务，无论是单级/两级检测器，还是框/中心/关键点基于探测器。

更重要的是，在我们的头部设计中，所有上述属性都集成到一个统一的注意力机制中。据我们所知，它是第一个通用检测头框架，它朝着理解注意力在目标检测头成功中扮演的角色迈出了一步。

3 我们的方法

3.1 动机

为了在统一的物体检测头中同时启用尺度感知、空间感知和任务感知，我们需要大致了解之前对物体检测头的改进。

给定来自特征金字塔中 L 个不同级别的特征 F in = { F i } i = 1 L \mathcal{F}_{\text {in }}=\left\{F_{i}\right\}_{i=1}^{L} Fin ={Fi}i=1L的串联，我们可以使用上采样或下采样将连续级别特征调整为中值级别特征的尺度。重新缩放的特征金字塔可以表示为一个 4 维张量 F ∈ R L × H × W × C \mathcal{F} \in \mathcal{R}^{L \times H \times W \times C} F∈RL×H×W×C，其中 L 表示金字塔中的层数，H、W 和 C 表示高度、宽度和数量分别具有中值水平特征的通道数。我们进一步定义 S = H × W S = H × W S=H×W 以将张量重塑为 3 维张量 F ∈ R L × S × C \mathcal{F} \in \mathcal{R}^{L \times S \times C} F∈RL×S×C。基于这种表示，我们将探索每个张量维度的作用。

• 物体尺度的差异与不同层次的特征有关。在 F \mathcal{F} F 的不同级别上改进表示学习可以有益于对象检测的尺度感知。

• 来自不同对象形状的各种几何变换与不同空间位置的特征相关。改进 F \mathcal{F} F的不同空间位置的表示学习可以有利于对象检测的空间感知。

• 不同的对象表示和任务可以与各种渠道的特征相关。改进跨 F \mathcal{F} F 的不同通道的表示学习可以有利于目标检测的任务意识。

在本文中，我们发现上述所有方向都可以统一在一个有效的注意力学习问题中。我们的工作是第一次尝试将所有三个维度上的多重注意力结合起来，以制定一个统一的头，以最大限度地提高他们的改进。

3.2 动态头：与注意力统一

给定特征张量 F ∈ R L × S × C \mathcal{F} \in \mathcal{R}^{L \times S \times C} F∈RL×S×C，应用自注意力的一般公式是：

W ( F ) = π ( F ) ⋅ F (1) W(\mathcal{F})=\pi(\mathcal{F}) \cdot \mathcal{F} \tag{1} W(F)=π(F)⋅F(1)

其中$ π(·)$ 是一个注意力函数。这个注意力函数的一个简单的解决方案是由全连接层实现的。但是，由于张量的高维度，直接在所有维度上学习注意力函数的计算成本很高，而且实际上负担不起。

相反，我们将注意力函数转换为三个连续的注意力，每个注意力只关注一个视角：

W ( F ) = π C ( π S ( π L ( F ) ⋅ F ) ⋅ F ) ⋅ F (2) W(\mathcal{F})=\pi_{C}\left(\pi_{S}\left(\pi_{L}(\mathcal{F}) \cdot \mathcal{F}\right) \cdot \mathcal{F}\right) \cdot \mathcal{F} \tag{2} W(F)=πC(πS(πL(F)⋅F)⋅F)⋅F(2)

其中 π L ( ⋅ ) 、 π S ( ⋅ ) 和 π C ( ⋅ ) π_{L}(·)、π_{S}(·) 和 π_{C}(·) πL(⋅)、πS(⋅)和πC(⋅) 是三个不同的注意力函数，分别应用于维度 L、S 和 C。

**尺度感知注意力 π L π_{L} πL。**我们首先引入了一种基于语义重要性的尺度感知注意力来动态融合不同尺度的特征。

π L ( F ) ⋅ F = σ ( f ( 1 S C ∑ S , C F ) ) ⋅ F \pi_{L}(\mathcal{F}) \cdot \mathcal{F}=\sigma\left(f\left(\frac{1}{S C} \sum_{S, C} \mathcal{F}\right)\right) \cdot \mathcal{F} πL(F)⋅F=σ⎝⎛f⎝⎛SC1S,C∑F⎠⎞⎠⎞⋅F

其中 f(·) 是一个由 1 × 1 卷积层近似的线性函数，而 σ ( x ) = max ⁡ ( 0 , min ⁡ ( 1 , x + 1 2 ) ) \sigma(x)=\max \left(0, \min \left(1, \frac{x+1}{2}\right)\right) σ(x)=max(0,min(1,2x+1)) 是一个硬 sigmoid 函数。

空间感知注意力 π S π_{S} πS。 我们应用另一个基于融合特征的空间感知注意模块，以关注在空间位置和特征级别之间一致共存的判别区域。考虑到 S 中的高维，我们将该模块分解为两个步骤：首先通过使用可变形卷积 [7] 使注意力学习稀疏，然后在相同空间位置跨级别聚合特征：

π S ( F ) ⋅ F = 1 L ∑ l = 1 L ∑ k = 1 K w l , k ⋅ F ( l ; p k + Δ p k ; c ) ⋅ Δ m k \pi_{S}(\mathcal{F}) \cdot \mathcal{F}=\frac{1}{L} \sum_{l=1}^{L} \sum_{k=1}^{K} w_{l, k} \cdot \mathcal{F}\left(l ; p_{k}+\Delta p_{k} ; c\right) \cdot \Delta m_{k} πS(F)⋅F=L1l=1∑Lk=1∑Kwl,k⋅F(l;pk+Δpk;c)⋅Δmk

其中 K 是稀疏采样位置的数量，$p_{k} + ∆p_{k} 是通过自学习空间偏移 ∆ p k 偏移的位置以聚焦于判别区域，是通过自学习空间偏移 ∆pk 偏移的位置以聚焦于判别区域，是通过自学习空间偏移∆pk偏移的位置以聚焦于判别区域，∆m_{k}$ 是位置 p k p_{k} pk 处的自学习重要性标量。两者都是从 F 的中值水平的输入特征中学习的

任务感知注意力 π C π_{C} πC。为了实现联合学习并概括对象的不同表示，我们在最后部署了任务感知注意力。它动态切换功能的 ON 和 OFF 通道以支持不同的任务：

π C ( F ) ⋅ F = max ⁡ ( α 1 ( F ) ⋅ F c + β 1 ( F ) , α 2 ( F ) ⋅ F c + β 2 ( F ) ) \pi_{C}(\mathcal{F}) \cdot \mathcal{F}=\max \left(\alpha^{1}(\mathcal{F}) \cdot \mathcal{F}_{c}+\beta^{1}(\mathcal{F}), \alpha^{2}(\mathcal{F}) \cdot \mathcal{F}_{c}+\beta^{2}(\mathcal{F})\right) πC(F)⋅F=max(α1(F)⋅Fc+β1(F),α2(F)⋅Fc+β2(F))

其中 F c \mathcal{F}_{c} Fc 是第 c 个通道的特征切片， [ α 1 , α 2 , β 1 , β 2 ] T = θ ( ⋅ ) \left[\alpha^{1}, \alpha^{2}, \beta^{1}, \beta^{2}\right]^{T}=\theta(\cdot) [α1,α2,β1,β2]T=θ(⋅)是一个学习控制激活阈值的超函数。 θ(·) 的实现类似于 [3]，首先在 L × S 维度上进行全局平均池化以降低维数，然后使用两个全连接层和一个归一化层，最后应用一个移位的 sigmoid 函数来归一化输出到 [-1,1]。

最后，由于上述三种注意力机制是顺序应用的，我们可以多次嵌套方程 2 以有效地将多个 π L π_{L} πL、 π S π_{S} πS 和 π C π_{C} πC 块堆叠在一起。我们的动态磁头（即用于简化的 DyHead）块的详细配置如图 2（a）所示。【第11篇】微软发布的Dynamic Head，创造COCO新记录：60.6AP_自动驾驶_02

总而言之，我们提出的动态头部目标检测的整个范式如图 1 所示。任何类型的骨干网络都可以用来提取特征金字塔，然后将其进一步调整到相同的比例，形成一个 3 维张量 F ∈ R L × S × C \mathcal{F} \in \mathcal{R}^{L \times S \times C} F∈RL×S×C，然后用作动态磁头的输入。接下来，包括尺度感知、空间感知和任务感知注意力在内的几个 DyHead 块按顺序堆叠。动态头部的输出可以用于不同的任务和物体检测的表示，例如分类、中心/框回归等。

【第11篇】微软发布的Dynamic Head，创造COCO新记录：60.6AP_原力计划_03

在图 1 的底部，我们显示了每种注意力的输出。正如我们所见，由于与 ImageNet 预训练的域差异，来自主干的初始特征图是嘈杂的。通过我们的scaleaware attention module后，特征图对前景物体的尺度差异变得更加敏感；在进一步通过我们的空间感知注意力模块后，特征图变得更加稀疏并专注于前景对象的判别空间位置。最后，在通过我们的任务感知注意力模块后，特征图根据不同下游任务的要求重新形成不同的激活。这些可视化很好地证明了每个注意力模块的有效性。

3.3 推广到现有的检测器

在本节中，我们将演示如何将所提出的动态头集成到现有检测器中以有效提高其性能。一级探测器。

一级检测器通过从特征图中密集采样位置来预测对象位置，从而简化了检测器设计。典型的单级检测器（例如，RetinaNet [16]）由用于提取密集特征的骨干网络和用于分别处理不同任务的多个特定于任务的子网络分支组成。如之前的工作 [3] 所示，对象分类子网络的行为与边界框回归子网络非常不同。与这种传统方法存在争议的是，我们只将一个统一的分支而不是多个分支附加到主干上。由于我们多种注意力机制的优势，它可以同时处理多个任务。这样可以进一步简化架构，提高效率。最近，一级检测器的无锚变体变得流行，例如，FCOS [28]、ATSS [35] 和 RepPoint [33] 将对象重新制定为中心和关键点以提高性能。与 RetinaNet 相比，这些方法需要将中心度预测或关键点预测附加到分类分支或回归分支，这使得特定任务分支的构建变得非常重要。相比之下，部署我们的动态头部更加灵活，因为它只将各种类型的预测附加到头部的末端，如图 2 (b) 所示。

两级探测器。 两阶段检测器利用区域提议和 ROI 池化 [23] 层从骨干网络的特征金字塔中提取中间表示。为了配合这个特性，我们首先在 ROI 池化层之前将我们的尺度感知注意力和空间感知注意力应用于特征金字塔，然后使用我们的任务感知注意力来替换原始的全连接层，如图 2 © 所示。

3.4 与其他注意力机制的关系

**可变形。**可变形卷积 [7, 37] 通过引入稀疏采样显着改善了传统卷积层的变换学习。它已广泛用于对象检测主干以增强特征表示。尽管它很少用于目标检测头，但我们可以将其视为仅对我们表示中的 S 子维度进行建模。我们发现主干中使用的可变形模块可以与提议的动态头部互补。事实上，通过 ResNext-101-64x4d 骨干的可变形变体，我们的动态头部实现了新的最先进的对象检测结果。

Non-Local。 Non-Local Networks [30] 是利用注意力模块提高目标检测性能的先驱工作。然而，它使用点积的简单公式，通过融合来自不同空间位置的其他像素的特征来增强像素特征。这种行为可以被视为在我们的表示中仅对 L×S 子维度进行建模。

**Transformer。**最近，有一种趋势是将 Transformer 模块 [29] 从自然语言处理引入计算机视觉任务。初步工作 [2, 38, 5] 已经证明在改进对象检测方面取得了有希望的结果。 Transformer 提供了一个简单的解决方案，通过应用多头全连接层来学习交叉注意对应和融合不同模态的特征。这种行为可以被视为在我们的表示中仅对 S × C 子维度进行建模。上述三种注意力仅对特征张量中的子维度进行部分建模。作为一个统一的设计，我们的动态头部将不同维度的注意力集中到一个连贯且高效的实现中。以下实验表明，这种专用设计可以帮助现有的物体检测器获得显着的收益。此外，与现有解决方案中的隐式工作原理相比，我们的注意力机制明确解决了对象检测的挑战。

4 实验

我们按照常用设置在 MS-COCO 数据集 [17] 上评估我们的方法。 MS-COCO 包含 80 个类别，大约 16 万张从网络上收集的图像。数据集分为 train2017、val2017 和 test2017 子集，分别具有 118K、5K、41K 图像。标准平均精度 (AP) 指标用于报告不同 IoU 阈值和对象尺度下的结果。在我们所有的实验中，我们只在 train2017 图像上训练，没有使用任何额外的数据。对于消融研究的实验，我们评估了 val2017 子集的性能。在与最先进的方法进行比较时，我们在 test-dev 子集上报告从测试服务器返回的官方结果。

4.1 实施细则

我们基于 Mask R-CNN 基准测试 [12] 的流行实现，将我们的动态头部块实现为插件。如果没有特别提到，我们的动态头部是用 ATSS 框架训练的 [35]。所有模型都使用 8 个 V100 GPU 的一个计算节点进行训练，每个 GPU 具有 32GB 内存。

训练。 我们在所有消融研究中使用 ResNet-50 作为模型主干，并使用标准 1x 配置对其进行训练。其他模型使用 [12] 中介绍的标准 2x 训练配置进行训练。我们使用初始学习率为 0:02，权重衰减为 1e−4，动量为 0:9。在 67% 和 89% 的训练时期，学习率降低了 0:1。使用随机水平翻转的标准增强。为了与之前使用多尺度输入训练的方法进行比较，我们还对选择性模型进行了多尺度训练。

推理。 为了与使用测试时间增强报告的最新方法进行比较，我们还通过多尺度测试评估了我们的最佳模型。没有使用其他技巧，例如模型 EMA、马赛克、混合、标签平滑、软 NMS 或自适应多尺度测试 [25]。

4.2 消融研究

我们进行了一系列消融研究，以证明我们动态头部的有效性和效率。

【第11篇】微软发布的Dynamic Head，创造COCO新记录：60.6AP_目标检测_04

注意模块的有效性。 我们首先通过逐渐将它们添加到基线来对动态头部块中不同组件的有效性进行受控研究。如表1所示，“L.”、“S.”、“C.” 分别代表我们的尺度感知注意力模块、空间感知注意力模块和任务感知模块。我们可以观察到，将每个组件单独添加到基线实现将其性能提高 0.9AP 、2.4 AP 和 1.3 AP 。由于其在三个模块中的主导维度，预计空间感知注意力模块将获得最大的收益。当我们添加两个“L”时。和“S”到基线，它以 2.9 AP 不断提高性能。最后，我们的全动态头部块显着提高了基线 3.6AP 。这个实验表明不同的组件作为一个连贯的模块工作。

【第11篇】微软发布的Dynamic Head，创造COCO新记录：60.6AP_人工智能_05

注意学习的有效性。然后，我们在动态头部模块中展示了注意力学习的有效性。图 3 显示了我们的尺度感知注意力模块中不同级别特征的学习比例比率（通过将更高分辨率的学习权重除以较低分辨率的学习权重计算）的趋势。使用 COCO val2017 子集的所有图像计算直方图。很明显，我们的尺度感知注意力模块倾向于将更高分辨率的特征图（图中“5 级”紫色直方图）向低分辨率调节，将低分辨率特征图（图中“1 级”蓝色直方图）向低分辨率调节更高的分辨率以平滑来自不同特征级别的尺度差异。这证明了尺度感知注意力学习的有效性。

【第11篇】微软发布的Dynamic Head，创造COCO新记录：60.6AP_深度学习_06

图 4 可视化了应用不同数量（即 2、4、6）的注意力模块块之前和之后的特征图输出。在应用我们的注意力模块之前，从主干中提取的特征图非常嘈杂，无法聚焦于前景对象。随着特征图通过更多的注意力模块（如图所示从块 2 到块 6），很明显可以看到特征图覆盖了更多的前景对象并更准确地聚焦于它们的判别空间位置。这种可视化很好地证明了空间感知注意力学习的有效性。

头部深度的效率。 我们通过控制深度（块数）来评估动态头部的效率。如表 2 所示，我们改变了使用的 DyHead 块（例如 1、2、4、8、10 个块）的数量，并将它们的性能和计算成本 (GFLOP) 与基线进行了比较。我们的动态头部可以通过堆叠更多块直到 8 块而受益于深度的增加。值得注意的是，我们使用 2 个块的方法已经以更低的计算成本优于基线。同时，即使有 6 个块，与主干的计算成本相比，计算成本的增量可以忽略不计，同时大大提高了准确性。它证明了我们方法的效率。

【第11篇】微软发布的Dynamic Head，创造COCO新记录：60.6AP_自动驾驶_07

现有目标检测器的泛化。我们通过将动态头部插入流行的对象检测器来评估动态头部的泛化能力，例如 FasterRCNN [23]、RetinaNet [16]、ATSS [35]、FCOS [28] 和 RepPoints [33]。这些方法代表了各种各样的对象检测框架（例如，两阶段与单阶段，基于锚点与无锚点，基于框与基于点）。如表 3 所示，我们的动态头部显着提升了所有流行的目标检测器 1.2 ∼ 3.2 AP。它展示了我们方法的通用性。

4.3 与最先进技术的比较

我们将动态头部的性能与几个标准主干和最先进的对象检测器进行了比较。

【第11篇】微软发布的Dynamic Head，创造COCO新记录：60.6AP_深度学习_08

与不同的骨干合作。 我们首先演示动态头与不同主干的兼容性。如表 4 所示，我们通过将动态头部与 ResNet-50、ResNet-101 和 ResNeXt-101 主干集成来评估目标检测器的性能，并与具有类似配置的最新方法（包括 Mask R-CNN [12]）进行比较， Cascade-RCNN [1]、FCOS [28]、ATSS [35] 和 BorderDet [21]。我们的方法始终以很大的优势优于以前的方法。与具有相同设置的最佳检测器 BorderDet [21] 相比，我们的方法在使用 ResNet-101 骨干网的情况下以 1:1 AP 和使用 ResNeXt-64x4d-101 骨干网的 1:2 AP 优于它，其中改进是显着的应对 COCO 基准中的挑战。

【第11篇】微软发布的Dynamic Head，创造COCO新记录：60.6AP_原力计划_09

**与最先进的探测器相比。**我们将我们的方法与最先进的检测器 [35, 31, 21, 4, 2,27, 8] 进行比较，包括一些并发工作 [38, 5]。如表 5 所示，我们将这些现有工作总结为两类：一类使用多尺度训练，另一类同时使用多尺度训练和多尺度测试。与仅进行多尺度训练的方法相比，我们的方法在 52.3 的 AP 上达到了新的最先进水平，并且只需要 2 倍的训练计划。与 EffcientDet [27] 和 SpineNet [8] 相比，我们的方法具有竞争力且学习效率更高，训练时间显着减少 1=20。与利用 Transformer 模块作为注意力的最新工作 [2, 38, 5] 相比，我们的动态头部优于这些方法，AP 增益超过 2.0，同时使用的训练时间比他们的少。它表明我们的动态头部可以将来自不同角度的多种注意力模式连贯地组合成一个统一的头部，从而提高效率和效果。我们进一步将我们的方法与最先进的结果 [35,21,4,38,5] 和使用多尺度训练和多尺度测试的测试时间增强 (TTA) 进行比较。我们的动态头部有助于在 54.0 AP 上实现最新的最新结果，其性能明显优于并发最佳方法 1.3 AP。

5 结论

在本文中，我们提出了一种新颖的目标检测头，它在单个框架中统一了尺度感知、空间感知和任务感知注意力。它提出了一种关注对象检测头的新观点。作为插件块，动态头可以灵活地集成到任何现有的对象检测器框架中，以提高其性能。此外，学习效率很高。我们的研究表明，在目标检测头中设计和学习注意力是一个有趣的方向，值得更多关注。这项工作只需要一步，并且可以在以下方面进一步改进：如何使全注意力模型易于学习和高效计算，以及如何系统地将更多注意力模式考虑到头部设计中以获得更好的性能。

附录

我们在提交后不断改进我们的性能。最近，将 Transformer 用作视觉主干并展示出有前景的性能是一个热门趋势。当使用最新的 Transformer 主干 [19]、额外的数据和增加的输入大小训练我们的动态头部时，我们可以在 COCO 基准上进一步改进当前的 SOTA。

【第11篇】微软发布的Dynamic Head，创造COCO新记录：60.6AP_自动驾驶_10

与 Transformer Backbones 合作。 我们将动态头部与最新的transformer-based 主干网络合作，例如 [19]。如表 6 所示，我们的动态头部与 [1] 具有竞争力，后者需要额外的掩码地面实况来帮助提高性能。同时，与我们框架中使用的基线方法 [35] 相比，我们将其性能进一步提高了 2:5 AP。这很好地证明了我们的动态头部是对基于变压器的主干的补充，以进一步提高其在下游对象检测任务上的性能。

与更大的输入和额外的数据合作。 我们发现我们的动态头部可以进一步受益于更大的输入大小和使用自训练方法生成的额外数据[40]。我们将最大图像边从 1333 增加到 2000，并使用最小图像边从 480 到 1200 变化的多尺度训练。类似于第 4.1 节中描述的训练方案，我们避免使用更多技巧来确保可重复性。如表 7 所示，与最新作品 [10, 36] 相比，我们的动态头部取得了显着的进步，并且在不使用额外掩码地面实况的情况下与 [19] 的性能相匹配。同时，我们的动态头部需要少于 1=3 的这些作品的训练时间。这证明了我们卓越的效率和有效性。此外，我们按照 [40] 在 ImageNet dataest 上生成伪标签并将其用作额外数据。我们的动态头部可以在很大程度上受益于大规模数据，并进一步将 COCO 最先进的结果提高到 60:6 AP 的历史新高。

19] 的性能相匹配。同时，我们的动态头部需要少于 1=3 的这些作品的训练时间。这证明了我们卓越的效率和有效性。此外，我们按照 [40] 在 ImageNet dataest 上生成伪标签并将其用作额外数据。我们的动态头部可以在很大程度上受益于大规模数据，并进一步将 COCO 最先进的结果提高到 60:6 AP 的历史新高。