文章目录

仔细研究用于动作识别的时空卷积
Abstract
1. Introduction
2. Related Work
3. Convolutional residual blocks for video
参考文献

仔细研究用于动作识别的时空卷积

Abstract

本文讨论了几种用于视频分析的时空卷积形式，并研究了它们对动作识别的影响。本文的动机源于观察到应用于视频的单个帧的 2D CNN 在动作识别方面仍然表现出色。在这项工作中，在残差学习的框架内凭经验证明了 3D CNN 相对于 2D CNN 的准确性优势。此外，本文表明将 3D 卷积滤波器分解为单独的空间和时间分量可以显著提高准确性。本文的实证研究获得了一种新的时空卷积块“R(2+1)D”的设计，它产生的 CNNs 的结果可与 Sports-1M、Kinetics、UCF101 和 HMDB51 上的结果相当或更好。

1. Introduction

自引入AlexNet以来，深度学习通过富有洞察力的设计创新（例如更小的空间滤波器、多尺度卷积、残差学习和稠密连接。相反，可能有人认为视频领域尚未见证其“AlexNet 时刻”。虽然深度网络（I3D）目前确实在动作识别方面取得了最好的结果，但相对于最佳手工方法（iDT）的改进幅度并不像图像识别的情况那样令人印象深刻。此外，在视频的各个帧上运行的基于图像的 2D CNN (ResNet-152) 在具有挑战性的 Sports-1M 基准测试中实现了非常接近最新技术的性能。这个结果既令人惊讶又令人沮丧，因为 2D CNN 无法对时间信息和运动模式进行建模，而人们认为这是视频分析的关键方面。基于这样的结果，人们可能会假设时间推理对于准确的动作识别不是必不可少的，因为序列的静态帧中已经包含了强大的动作类别信息。

在本文工作中挑战了这一观点，并通过 3D CNN（即在时空视频量上执行 3D 卷积的网络）重新审视了时间推理在动作识别中的作用。虽然 3D CNN 在动作识别的设置中得到了广泛的探索，但在残差学习的框架内重新考虑它们，这已被证明是静止图像领域的强大工具。作者证明，当在 Sports1M和 Kinetics等大规模、具有挑战性的动作识别基准上进行训练和评估时，3D ResNets 在相同深度上的表现明显优于 2D ResNets。

受这些结果的启发，引入了两种新形式的时空卷积，它们可以被视为 2D（空间卷积）和全 3D 极端之间的中间产物。第一个形式被命名为混合卷积（MC），它只在网络的早期层使用 3D 卷积，在顶层使用 2D 卷积。这种设计背后的基本原理是，运动建模是一种低/中级操作，可以通过网络早期层中的 3D 卷积以及对这些中级运动特征的空间推理（通过顶部的 2D 卷积实现层）获得准确的动作识别。作者表明，与容量相当的 2D ResNet 相比，MC ResNet 的剪辑级准确度提高了大约 3-4%，并且它们的性能与具有 3 倍参数的 3D ResNet 相当。第二个时空变体是“(2+1)D”卷积块，它将 3D 卷积显式分解为两个独立且连续的操作，即 2D 空间卷积和 1D 时间卷积。从这样的分解中得到什么？第一个优点是这两个操作之间的额外非线性整流。与对相同数量的参数使用全 3D 卷积的网络相比，这有效地使非线性数量增加了一倍，从而使模型能够表示更复杂的函数。第二个潜在的好处是分解有助于优化，在实践中产生较低的训练损失和较低的测试损失。换句话说，作者发现，与外观和动态共同交织在一起的全 3D 过滤器相比，(2+1)D 块（具有分解的空间和时间分量）更容易优化。实验表明，在所有层中均匀采用 (2+1)D 块的 ResNets 在 Kinetics 和 Sports-1M 上都实现了最先进的性能。

2. Related Work

视频理解是计算机视觉的核心问题之一，已经研究了几十年。视频理解方面的许多研究贡献都集中在开发用于视频分析的时空特征。一些提出的视频表示包括时空兴趣点 (STIP)、SIFT-3D、HOG3D、运动边界直方图、Cuboids和ActionBank。这些表示是手工设计的，并使用不同的特征编码方案，例如基于直方图或金字塔的那些。在这些手工制作的表示中，改进的密集轨迹（iDT）被广泛认为是最先进的，这要归功于其在视频分类方面的强大成果。

深度学习在静态图像识别方面的突破源于AlexNet 模型的引入之后，人们一直在积极研究视频深度网络的设计。这一类型的许多尝试利用在图像上训练的 CNN 从单个帧中提取特征，然后使用池化、高维特征编码或循环神经网络将这些特征时间整合到一个固定大小的描述符中。Karpathy等人[16] 对如何在 CNN 中融合时间信息进行了深入研究，并提出了一种“慢融合”模型，该模型及时扩展了所有卷积层的连通性，并通过除了空间卷积之外的时间卷积计算激活。然而，他们发现在单个帧上运行的网络与处理整个视频时空体积的网络相当。可以说，使用时间卷积来识别视频中的人类动作的 3D CNN 最早是由 Baccouche 等人提出的[1] 和 Ji 等人[15]。但是，3D 卷积也被并行研究用于使用受限玻尔兹曼机和堆叠ISA 进行无监督时空特征学习。最近，在大规模数据集上训练时，3D CNN 被证明可以产生强大的动作识别结果。 3D CNN 的特征也被证明可以很好地推广到其他任务，包括动作检测、视频字幕和手势检测。

基于 CNN 的视频建模的另一种有影响力的方法是由 Simonyan 和 Zisserman [29] 引入的双流框架表示，他们提出将从光流中提取的深层特征与从颜色 RGB 输入计算的更传统的深层 CNN 激活融合。Feichtenhofer等人使用 ResNet 架构和流之间的附加连接增强了这些双流网络。其他双流方法包括时间段网络、动作转换和卷积融合。值得注意的是，Carreira 和 Zisserman 最近推出了一种结合了双流处理和 3D 卷积的模型 (I3D)。 I3D 目前在大规模 Kinetics 数据集上拥有最好的动作识别结果。

本文的工作在深入了解不同类型的时空卷积对动作识别性能的影响的实证分析的背景下，重新审视了许多上述方法（特别是 3D CNN、双流网络和 ResNet）。在这项研究中包括帧上的 2D 卷积、剪辑上的 2D 卷积、3D 卷积、交错（混合）3D-2D 卷积，以及将 3D 卷积分解为 2D 空间卷积和1D时间卷积，将其命名为(2+1)D卷积。作者表明，当在 ResNet 架构中使用时，(2+1)D 卷积会在 4 个不同的动作识别基准上产生最先进的结果。本文的架构称为 R(2+1)D，与分解时空卷积网络 [33] ( $F_{S T} C N$ ) 相关，将时空卷积分解为空间和时间卷积。然而， $F_{S T} C N$ 专注于网络分解，例如 $F_{S T} C N$ 由较低层的几个空间层和其顶部的两个平行时间层实现。另一方面，R(2+1)D侧重于层分解，即将每个时空卷积分解为一个空间卷积和一个时间卷积的块。结果，R(2+1)D 在整个网络的空间和时间卷积之间交替。 R(2+1)D 也与 Pseudo-3D 网络 (P3D) [25] 密切相关，它包括三个不同的残差块，它们使 2D ResNets 的瓶颈块适应视频。这些块实现了不同形式的时空卷积：空间后跟时间，空间和时间并行，空间后跟时间，分别从空间卷积到块的输出的跳跃连接。 P3D模型是由这三个块通过网络的深度依次交错形成的。相比之下，R(2+1)D模型在所有层中均匀地使用单一类型的时空残差块，并且不包括瓶颈。通过仔细选择每个块中的时空分解的维度，可以获得一个尺寸紧凑的模型，并且可以实现最先进的动作识别精度。例如，在使用 RGB 作为输入的 Sports-1M 上，尽管 P3D 使用 152 层，但在 Clip@1 精度（57.0% 对 47.9%）方面，R(2+1)D 的性能比 P3D 高 9.1% ResNet，而本文的模型只有 34 层。

3. Convolutional residual blocks for video

本节将在残差学习的框架内讨论几种时空卷积变体。让 $\mathbf{x}$ 表示大小为 $\times L \times H \times W$ 的输入剪辑，其中 $L$ 是剪辑中的帧数， $H$ 和 $W$ 是帧的高度和宽度，3 指的是 RGB 通道。设 $\mathbf{z}_{i}$ 为残差网络中第 $i$ 个卷积块计算的张量。在这项工作中，只考虑“普通”残差块（即没有瓶颈），每个块由两个卷积层组成，每层后都有一个 ReLU 激活函数。然后第 $i$ 个残差块的输出由下式给出
$\mathbf{z}_{i}=\mathbf{z}_{i-1}+\mathcal{F}\left(\mathbf{z}_{i-1} ; \theta_{i}\right)$
其中 $\mathcal{F}\left(; \theta_{i}\right)$ 实现了由权重 $\theta_{i}$ 参数化的两个卷积的组合以及 ReLU 函数的应用。在这项工作中，考虑网络，其中卷积残差块的序列最终形成顶层，在整个时空体积上执行全局平均池化，以及负责最终分类预测的全连接层。

3.1. R2D: 2D convolutions over the entire clip

用于视频的2D CNN忽略视频中的时间顺序，并将 $L$ 帧类似于通道。因此，可以将这些模型视为将输入 4D 张量 $\mathbf{x}$ 重塑为大小为 $3L \times H \times W$ 的 3D 张量。第 $i$ 个残差块的输出 $\mathbf{z}_{i}$ 也是一个 3D 张量。它的大小为 $N_{i} \times H_{i} \times W_{i}$ ，其中 $N_{i}$ 表示第 $i$ 个块中应用的卷积滤波器的数量， $H_{i}, W_{i}$ 是空间维度，由于池化或跨步，可能小于原始输入帧。每个滤波器都是 3D 的，大小为 $N_{i-1} \times d \times d$ ，其中 $d$ 表示空间宽度和高度。请注意，尽管滤波器是 3 维的，但它仅在 2D 中在前面的张量 $\mathbf{Z}_{i-1}$ 的空间维度上进行卷积。每个滤波器产生一个单通道输出。因此，R2D 中的第一个卷积层将视频的整个时间信息折叠在单通道特征图中，从而防止在后续层中发生任何时间推理。这种类型的 CNN 架构如图 1(a) 所示。请注意，由于特征图没有时间意义，不对这个网络执行时间跨步。

3.2. f-R2D: 2D convolutions over frames

另一种 2D CNN 方法涉及通过一系列 2D 卷积残差块独立处理 $L$ 帧。相同的过滤器适用于所有 $L$ 帧。在这种情况下，卷积层中没有进行时间建模，顶部的全局时空池化层只是简单地融合了从 $L$ 帧中独立提取的信息。将此架构变体称为 f-R2D（基于帧的 R2D）。

3.3. R3D: 3D convolutions

3D CNNs保存时间信息并通过网络层传播。在这种情况下，张量 $\mathbf{z}_{i}$ 是 4D，大小为 $N_{i} \times L \times H_{i} \times W_{i}$ ，其中 $N_{i}$ 是第 $i$ 个块中使用的滤波器的数量。每个过滤器都是 4 维的，大小为 $N_{i-1} \times t \times d \times d$ ，其中 $t$ 表示过滤器的时间范围（在这项工作中，使用 $t = 3$ ）。滤波器在 3D 中进行卷积，即在时间和空间维度上进行卷积。这种类型的 CNN 架构如图 1(d) 所示。

3.4. MCx and rMCx: mixed 3D-2D convolutions

一种假设是运动建模（即 3D 卷积）可能在早期层中特别有用，而在更高级别的语义抽象（晚期层）中，运动或时间建模不是必需的。因此，一个合理的架构可以从 3D 卷积开始，然后在顶层使用 2D 卷积。由于在这项工作中认为 3D ResNet (R3D) 具有 5 组卷积（参见表 1），因此第一个变体是将第 5 组中的所有 3D 卷积替换为 2D 卷积。用 MC5（混合卷积）表示这个变体。还设计了第二个变体，在第 4 组和第 5 组中使用 2D 卷积，并将此模型命名为 MC4（意味着从第 4 组和更深的层开始，所有卷积都是 2D 的）。按照这种模式，还创建了 MC3 和 MC2 变体。省略了考虑 MC1，因为它等效于应用于剪辑输入的 2D ResNet (fR2D)。这种类型的 CNN 架构如图 1(b) 所示。另一种假设是时间建模在深层可能更有益，通过 2D 卷积早期捕获外观信息。为了解释这种可能性，还尝试了“反向”混合卷积。按照 MC 模型的命名约定，将这些模型表示为 rMC2、rMC3、rMC4 和 rMC5。因此，rMC3 将包括块 1 和 2 中的 2D 卷积，以及组 3 和更深组中的 3D 卷积。这种类型的 CNN 架构如图 1© 所示。

3.5. R(2+1)D: (2+1)D convolutions

另一种可能的理论是，完整的 3D 卷积可以更方便地通过 2D 卷积和 1D 卷积来近似，将空间和时间建模分解为两个独立的步骤。因此，设计了一个名为 R(2+1)D 的网络架构，将大小为 $N_{i-1} \times t \times d \times d$ 的$N_{i} $3 D 卷积滤波器替换为由$ M_{i} 2 \mathrm{D} $卷积滤波器组成的 (2 + 1) D 块尺寸$ N_{i-1} \times 1 \times d \times d $和$ N_{i} $尺寸$ M_{i} \times t \times 1 \times 1 $的时间卷积滤波器。超参数$ M_{i} $确定信号在空间和时间卷积之间投影的中间子空间的维数。选择$ M_{i}=\left\lfloor\frac{t d^{2} N_{i-1} N_{i}}{d^{2} N_{i-1}+t N_{i}}\right\rfloor $使得 (2 + 1) D 块中的参数数量大约等于实现全 3 D 卷积的参数数量。注意到这种时空分解可以应用于任何 3 D 卷积层。对于输入张量$ \mathbf{z}_{i-1}$ 包含单个通道（即 $N_{i-1}=1$ ）的简化设置，图 2 给出了这种分解的说明。如果 3D 卷积具有空间或时间跨度（实现下采样），则跨度相应地分解为其空间或时间维度。这种架构如图 1(e) 所示。

与全 3D 卷积相比，(2+1)D 分解具有两个优点。首先，尽管没有改变参数的数量，但由于每个块中 2D 和 1D 卷积之间的额外 ReLU，它使网络中的非线性数量增加了一倍。增加非线性的数量会增加可以表示的函数的复杂性，正如在 VGG 网络中也指出的那样，它通过应用多个较小的过滤器来近似大过滤器的效果，并且它们之间有额外的非线性。第二个好处是，将 3D 卷积强制为单独的空间和时间分量使优化更容易。与相同容量的 3D 卷积网络相比，这表现为较低的训练误差。这在图 3 中进行了说明，该图显示了具有 18（左）和 34（右）层的 R3D 和 R(2+1)D 的训练和测试错误。可以看出，对于相同的层数（和参数），与 R3D 相比，R(2+1)D 不仅测试误差更低，而且训练误差也更低。这表明当对时空过滤器进行分解时，优化变得更容易。对于具有 34 层的网络，训练损失的差距特别大，这表明随着深度的增大，优化的便利性也会增加。

注意到，本文的分解与 Pseudo-3D 块 (P3D)密切相关，P3D 是为了使 R2D 的瓶颈块适应视频分类而提出的。引入了三种不同的伪 3D 块：P3D-A、P3D-B 和 P3D-C。这些块实现了不同的卷积顺序：空间后跟时间，空间和时间并行，空间后跟时间，分别从空间卷积到块的输出的跳跃连接。(2+1)D卷积与P3D-A块最密切相关，但它包含瓶颈。此外，最终的 P3D 架构是通过在整个网络中按顺序交错这三个块组成的，但使用 2D 卷积的第一层除外。相反，本文提出了一种同构架构，其中在所有块中使用相同的 (2+1) 分解。另一个区别是，P3D-A 的设计目的不是为了将参数数量与 3D 卷积相匹配。尽管 R(2+1)D 在其架构上非常简单且同质，但实验表明它在 Sports-1M 上的性能明显优于 R3D、R2D 和 P3D（参见表 4）。

参考文献

[1] M. Baccouche, F. Mamalet, C. Wolf, C. Garcia, and A. Baskurt. Sequential Deep Learning for Human Action Recognition, pages 29–39. Springer Berlin Heidelberg, Berlin, Heidelberg, 2011. 2

[15] S. Ji, W. Xu, M. Yang, and K. Y u. 3d convolutional neural networks for human action recognition. IEEE TPAMI, 35(1):221–231, 2013. 1, 2, 3

[16] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014. 1, 2, 5, 7

[25] Z. Qiu, T. Yao, , and T. Mei. Learning spatio-temporal representation with pseudo-3d residual networks. In ICCV, 2017. 1, 2, 4, 7, 8

[29] K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. In NIPS, 2014. 2, 3, 7, 8

[33] L. Sun, K. Jia, D.-Y . Yeung, and B. E. Shi. Human action recognition using factorized spatio-temporal convolutional networks. In ICCV, 2015. 2, 8

CVPR-2018）仔细研究用于动作识别的时空卷积