Feature Pyramid Networks for Object Detection-CFANZ编程社区

Feature pyramids（多尺度特征金字塔）在传统的计算机视觉算法中经常被用到，而在深度学习中，都尽量避免使用多尺度相关的算法，因为一旦涉及多尺度，计算量将成倍增加。

在这篇论文中，作者认为在卷积网络中的每一层，就对应一个尺度的特征，然而在目前的网络中，只是用到了最后一层尺度的特征，于是作者提出了Feature Pyramid Network（FPN）. FPN结构在进行物体检测时，不光用到了最后卷积层的feature map，同时也将之前层的feature map结合起来。该结构是结合了Faster RCNN。

--------------------------------------------------------------------------------------------------------------

CVPR2017 论文链接：https://arxiv.org/abs/1612.03144

Github:https://github.com/unsky/FPN-caffe

网络可视化：http://ethereon.github.io/netscope/#/editor

---------------------------------------------------------------------------------------------------------------

概述：

解析：

下图Fig1展示了4种利用特征的形式：
（a）图像金字塔，即将图像做成不同的scale，然后不同scale的图像生成对应的不同scale的特征。这种方法的缺点在于增加了时间成本。有些算法会在测试时候采用图像金字塔。
（b）像SPP net，Fast RCNN，Faster RCNN是采用这种方式，即仅采用网络最后一层的特征。
（c）像SSD（Single Shot Detector）采用这种多尺度特征融合的方式，没有上采样过程，即从网络不同层抽取不同尺度的特征做预测，这种方式不会增加额外的计算量。作者认为SSD算法中没有用到足够低层的特征（在SSD中，最低层的特征是VGG网络的conv4_3），而在作者看来足够低层的特征对于检测小物体是很有帮助的。
（d）本文作者是采用这种方式，顶层特征通过上采样和低层特征做融合，而且每层都是独立预测的。

Feature Pyramid Networks for Object Detection_语义信息

如下图Fig2。上面一个带有skip connection的网络结构在预测的时候是在finest level（自顶向下的最后一层）进行的，简单讲就是经过多次上采样并融合特征到最后一步，拿最后一步生成的特征做预测。而下面一个网络结构和上面的类似，区别在于预测是在每一层中独立进行的。

这篇论文给出了两个关键的词语bottom-up和top-down

bottom-up：就是底层信息向高层传播，在深度学习中，网络结构是以层级结构进行排布的，图像从输入到输出，信息是由底层到高层传播的，所谓底层信息就是图像的轮廓，纹理等底层的形状信息；所谓高层信息就是图像的类别，物体的关键部位等高层的语义信息，故bottom-up就是网络的前向传播过程。 top-down:就是高层信息往底层传播，这里的信息是每层的fearure map而非梯度。

因为图像需要检测比较小的物体，直接说就是细粒度的问题，这篇论文（Beyond Skip Connections: Top-Down Modulation for Object Detection）给了个说法：高层信息往往语义层面的，是粗糙的，对物体的形状描述是不细腻的；而底层信息是对图像的形状描述是精致的，于是在进行微小物体检测时，最好的方法，是将高层的语义信息和底层的形状信息结合起来。

Feature Pyramid Networks for Object Detection_自底向上_02

Feature Pyramid Networks for Object Detection_卷积_03

自底向上其实就是网络的前向过程。在前向过程中，feature map的大小在经过某些层后会改变，而在经过其他一些层的时候不会改变，作者将不改变feature map大小的层归为一个stage，因此每次抽取的特征都是每个stage的最后一个层输出，这样就能构成特征金字塔。
自顶向下的过程采用上采样（upsampling）进行，而横向连接则是将上采样的结果和自底向上生成的相同大小的feature map进行融合（merge）。在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积，目的是消除上采样的混叠效应（aliasing effect）。并假设生成的feature map结果是P2，P3，P4，P5，和原来自底向上的卷积结果C2，C3，C4，C5一一对应。

这里作者采用Conv2，CONV3，CONV4和CONV5的输出。因此类似Conv2就可以看做一个stage。

正负样本的界定和Faster RCNN差不多：如果某个anchor和一个给定的ground truth有最高的IOU或者和任意一个Ground truth的IOU都大于0.7，则是正样本。如果一个anchor和任意一个ground truth的IOU都小于0.3，则为负样本。

加入FPN的RPN网络的有效性，如下表Table1。网络这些结果都是基于ResNet-50。评价标准采用AR，AR表示Average Recall，AR右上角的100表示每张图像有100个anchor，AR的右下角s，m，l表示COCO数据集中object的大小分别是小，中，大。feature列的大括号{}表示每层独立预测。

Feature Pyramid Networks for Object Detection_卷积_04

从（a）（b）（c）的对比可以看出FRN的作用确实很明显。另外（a）和（b）的对比可以看出高层特征并非比低一层的特征有效。
（d）表示只有横向连接，而没有自顶向下的过程，也就是仅仅对自底向上（bottom-up）的每一层结果做一个1*1的横向连接和3*3的卷积得到最终的结果，有点像Fig1的（b）。从feature列可以看出预测还是分层独立的。作者推测（d）的结果并不好的原因在于在自底向上的不同层之间的semantic gaps比较大。
（e）表示有自顶向下的过程，但是没有横向连接，即向下过程没有融合原来的特征。这样效果也不好的原因在于目标的location特征在经过多次降采样和上采样过程后变得更加不准确。
（f）采用finest level层做预测（参考Fig2的上面那个结构），即经过多次特征上采样和融合到最后一步生成的特征用于预测，主要是证明金字塔分层独立预测的表达能力。显然finest level的效果不如FPN好，原因在于PRN网络是一个窗口大小固定的滑动窗口检测器，因此在金字塔的不同层滑动可以增加其对尺度变化的鲁棒性。另外（f）有更多的anchor，说明增加anchor的数量并不能有效提高准确率。

另一方面将FPN用于Fast R-CNN的检测部分。除了（a）以外，分类层和卷积层之前添加了2个1024维的全连接层。
实验结果如表Table2，这里是测试Fast R-CNN的检测效果，所以proposal是固定的（采用Table1（c）的做法）。与Table1的比较类似，（a）（b）（c）的对比证明在基于区域的目标卷积问题中，特征金字塔比单尺度特征更有效。（c）（f）的差距很小，作者认为原因是ROI pooling对于region的尺度并不敏感。因此并不能一概认为（f）这种特征融合的方式不好，博主个人认为要针对具体问题来看待，像上面在RPN网络中，可能（f）这种方式不大好，但是在Fast RCNN中就没那么明显。

Feature Pyramid Networks for Object Detection_卷积_05