Motion Magnification
一、论文信息
- 题目:Learning-based Video Motion Magnifification
- 作者团队:
- 会议:ECCV2018
二、主要贡献
- 使用深度学习端到端地进行运动放大,不需要手工设计特征,从数据里自主学到滤波器。
- 在无现有数据集训练的情况下,利用COCO和VOC生成数据来训练。
- 与传统方法的temporal filter相兼容,且在运动系数适中的情况下,效果比单独使用全局学习的效果还好。
三、网络结构
我们的网络由3个主要部分组成:编码器、操纵器、解码器。网络的输入是放大系数为a的两个视频帧(Xa,Xb),输出的是放大的帧Y。
- Stage1 编码器:
设计Encoder 进行形状特征和纹理特征的提取,类比拉普拉斯金字塔提取的多尺度边缘形状特征。给定前后帧(Xa,Xb),通过深度卷积网络可以得到它们各自的形状特征和纹理特征这里的纹理特征不进行运动放大,主要用于后续约束Intensity放大导致的噪声。
- Stage2 操纵器:
把前后帧的形状特征送进 Manipulator,操纵器通过获取两个给定帧的形状表示之间的差异,并直接乘以放大系数来工作。
Gm()由一个3x3卷积后跟ReLU表示。a为放大系数。
-
Stage3 解码器:
编码器和解码器是完全卷积的,使他们能在任何分辨率下工作,他们使用残差块来生成高质量的输出,为了减少内存占用和感受野的大小,我们在编码器的开头将激活向下采样,在解码器的结尾其向上采样,我们使用步长卷积进行下采样,并使用最近邻上采样,我们通过实验发现,编码器中的三个3x3残差块和解码器中的九个残差块通常会产生好的效果。
四、实验