【人脸表情识别】基于视频的人脸表情识别数据集与基本方法-CFANZ编程社区

前面几篇专栏中，我们介绍了有关基于图片的人脸表情识别的相关内容。尽管该领域目前已取得了想当大的成就，但在实际使用中，仅仅依赖于图片并不一定能准确反映人的情绪状态。在一些场景中，需要结合人表情的变化才能真正理解人的情绪，因此基于视频的人脸表情识别研究也显得尤为必要。接下来专栏的两篇文章，将为大家介绍当前基于视频的人脸表情识别的研究现状和最新进展。

作者&编辑 | Menpinland

1 基本概念

在许多的研究中，研究者通常会把人脸表情识别区分为静态的人脸表情识别（static facial emotion recognition）和动态的人脸表情识别（dynamic facial emotion recognition）。前者希望通过单张图片辨别人的表情从而达到识别人情绪的目的，而后者希望感知视频/图片序列中人们变化的表情来理解人的情绪。

在一般情况下，人们通过单张图片即可知道图片中人的表情，理解图片中的人那一瞬间甚至一段时间的情绪。然而，仅依赖单张图片并非在任何场景都能正确地反映人的表情所表达的情绪。图1左边一列为一个影视片段中的三帧，右边一列为相对应帧人脸检测出来的结果。我们可以观察到，如果仅看单张的人脸表情，这三帧所反映的情绪完全不一样，通过这三帧单独识别出来的表情结果也就很难判断出这段时间中被识别者真正情绪是什么。再比如当人在哭的时候，大部分场景我们认为这个人表情反映的是悲伤的情绪，但也存在“喜极而泣”的可能。因此，想要更加准确地理解人的表情，就必须通过蕴含时序关系的信息，结合上下文的语境去理解。（ps：视频中除了有图像信息外，往往还包含丰富的语音甚至是文字信息，因此也有许多研究是利用多模态的方法来识别视频中人的情绪，本专栏更多围绕基于视觉的方法展开讨论。）

【人脸表情识别】基于视频的人脸表情识别数据集与基本方法_人工智能

图1｜影视片段。左边一列为原始序列；右边一列为相对应的人脸序列[1]

2 常用数据集

跟介绍基于图片的人脸表情识别一样，在了解基于视频的人脸表情识别的具体方法之前，先了解该领域常用的一些数据集。

1.MMI Facial Expression Database [2,3]

地址：https://www.mmifacedb.eu/

数据采集方式：32位参与者在实验室条件下摆拍指定表情获得

表情标签：开心、悲伤、惊讶、害怕、厌恶、生气、中立；AU；时序状态（表情开始帧-->峰值帧-->结束帧，onset-->apex-->offset）

---数据集大小：2900个视频以及740张图片，分辨率 720*576像素

【人脸表情识别】基于视频的人脸表情识别数据集与基本方法_计算机视觉_02

图2｜MMI中部分样本示例

2.Extended Cohn-Kanade Dataset (CK+) [4]

地址：http://www.pitt.edu/~emotion/ck-spread.htm

数据采集方式：123位参与者在实验室条件下摆拍指定表情获得

表情标签：开心、悲伤、惊讶、害怕、厌恶、生气、中立、轻蔑；AU

数据集大小：593个视频序列，分辨率640*490或者640*480，基于图片的人脸表情识别中常常取最后几帧作为样本

【人脸表情识别】基于视频的人脸表情识别数据集与基本方法_计算机视觉_03

图3｜CK+中部分样本示例

3.Oulu-CASIA [5]

地址：https://www.oulu.fi/cmvs/node/41316

数据采集方式：80位参与者在实验室三种光线条件下通过两种不同拍摄方式（近红外和可见光）获得

表情标签：开心、悲伤、惊讶、害怕、厌恶、生气

数据集大小：共2880个视频序列，分辨率320*240，最后几帧为峰值帧

【人脸表情识别】基于视频的人脸表情识别数据集与基本方法_机器学习_04

图4｜Oulu-CASIA中部分样本示例

4.The Acted Facial Expressions in the Wild database (AFEW) [6]

地址：https://cs.anu.edu.au/few/AFEW.html

数据采集方式：截取电影中一些片段

表情标签：开心、悲伤、惊讶、害怕、厌恶、生气，中立

数据集大小：用于Emotion Recognition In The Wild Challenge (EmotiW) 中音视频竞赛的一个数据集，这个项目从2013至2019每年都在进行，数据集也从最初的1400+个序列增加到后面的1800+个序列

【人脸表情识别】基于视频的人脸表情识别数据集与基本方法_机器学习_05

图5｜AFEW数据集构建流程

5.Context-Aware Emotion Recognition database (CAER) [1]

地址：https://caer-dataset.github.io/

数据采集方式：截取79部电视剧中一些片段

表情标签：开心、悲伤、惊讶、害怕、厌恶、生气，中立

数据集大小：总共13201个视频序列，每个序列长度约为90帧

【人脸表情识别】基于视频的人脸表情识别数据集与基本方法_机器学习_06

图6｜CAER中各类别样本示例

6.Dynamic Facial Expression in the Wild (DFEW) [7]

地址：https://dfew-dataset.github.io/

数据采集方式：截取1500+部电影中一些片段

表情标签：开心、悲伤、惊讶、害怕、厌恶、生气，中立

数据集大小：总共16372个视频序列

【人脸表情识别】基于视频的人脸表情识别数据集与基本方法_深度学习_07

图7｜DFEW中各类别样本示例

3 经典方法

对于模式识别问题，通常可以分为三大步骤：预处理、特征提取、利用分类器分类。基于视频的人脸表情识别的预处理本质上跟基于图片的人脸表情识别一致，利用基于图片的预处理方法对视频中的每一帧使用即可。对于数据增强，其实github上也有专门用于视频数据增强的代码（https://github.com/okankop/vidaug）。不过需要注意的是，并非所有针对视频的数据增强算法都可以直接使用。如果一些操作会遮蔽人脸表情（例如模糊），那么增强出来的数据不仅不能增强算法的鲁棒性，甚至还会“误导”算法。除了之前专栏文章提到的预处理方法外，对于视频任务，将不同长度的视频转化为长度大小的样本进行算法训练也是处理视频问题中很重要的一步预处理操作，样本帧数选取太大则加大训练难度，选取太少识别效果很可能不佳。最暴力的方法就是设置一个固定值，通过不断实验对比得到最佳样本帧数选择。其他的一些帧数选取方法可参考基于视频的相关任务中的文章，这里不再详细描述。

早期提取视频中人脸表情特征的方法可分成两大类：

(1) 利用传统计算机视觉的方法提取手工设计（hand-craft）的特征，例如LBP-TOP[8]、HOG-TOP[9]等；

(2) 先用卷积神经网络提取单张图片的特征，然后把一个序列中所有帧的特征进行算术操作（平均、取最大、取最小等）[10]或把进行帧平均/扩展操作（参考图8）[11]得到视频特征，再通过SVM或神经网络（只含全连接层）进行分类。第一种方法鲁棒性差，第二种方法难以准确反映帧之间的时序关系，在3DCNN、RNN出现后，前面两种方法在基于视频的人脸表情识别领域也基本被淘汰。有关目前主流的基于深度学习的方法介绍，将会在专栏下一篇文章进行分享。

【人脸表情识别】基于视频的人脸表情识别数据集与基本方法_人工智能_08

图8｜通过帧平均（左）或帧扩展（右）得到等长的视频特征

4 参考文献

[1] Lee J, Kim S, Kim S, et al. Context-aware emotion recognition networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 10143-10152.

[2] Valstar M, Pantic M. Induced disgust, happiness and surprise: an addition to the mmi facial expression database[C]//Proc. 3rd Intern. Workshop on EMOTION (satellite of LREC): Corpora for Research on Emotion and Affect. 2010: 65.

[3] Pantic M, Valstar M, Rademaker R, et al. Web-based database for facial expression analysis[C]//2005 IEEE international conference on multimedia and Expo. IEEE, 2005: 5 pp.

[4] Lucey P, Cohn J F, Kanade T, et al. The extended cohn-kanade dataset (ck+): A complete dataset for action unit and emotion-specified expression[C]//2010 ieee computer society conference on computer vision and pattern recognition-workshops. IEEE, 2010: 94-101.

[5] Zhao G, Huang X, Taini M, et al. Facial expression recognition from near-infrared videos[J]. Image and Vision Computing, 2011, 29(9): 607-619.

[6] Dhall A, Goecke R, Lucey S, et al. Collecting large, richly annotated facial-expression databases from movies[J]. IEEE Annals of the History of Computing, 2012, 19(03): 34-41.

[7] Jiang X, Zong Y, Zheng W, et al. DFEW: A Large-Scale Database for Recognizing Dynamic Facial Expressions in the Wild[C]//Proceedings of the 28th ACM International Conference on Multimedia. 2020: 2881-2889.

[8] Zhao G, Pietikainen M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J]. IEEE transactions on pattern analysis and machine intelligence, 2007, 29(6): 915-928.

[9] Li X, Hong X, Moilanen A, et al. Towards reading hidden emotions: A comparative study of spontaneous micro-expression spotting and recognition methods[J]. IEEE transactions on affective computing, 2017, 9(4): 563-577.

[10] Bargal S A, Barsoum E, Ferrer C C, et al. Emotion recognition in the wild from videos using images[C]//Proceedings of the 18th ACM International Conference on Multimodal Interaction. 2016: 433-436.

[11] Kahou S E, Pal C, Bouthillier X, et al. Combining modality specific deep neural networks for emotion recognition in video[C]//Proceedings of the 15th ACM on International conference on multimodal interaction. 2013: 543-550.

总结

本文首先介绍了基于视频的人脸表情识别的相关概念，然后了解了目前基于视频的人脸表情识别领域最常用的几个数据集以及经典的实现方法。后面的1篇专栏将会围绕近几年基于视频的人脸表情识别论文介绍主流的基于深度学习的方法实现。

有三AI秋季划-人脸图像组

【人脸表情识别】基于视频的人脸表情识别数据集与基本方法_计算机视觉_09