【人脸表情识别】不得不读的重要论文推荐(2019-2020篇)
上一篇专栏文章我们介绍了2015-2018年基于图片的人脸表情识别代表性方法。本文将延续上一篇的内容,继续盘点2019-2020基于图片的人脸表情识别的代表性工作。
作者&编辑 | Menpinland
1. 对姿态和身份鲁棒的人脸表情识别方法
之前的研究表明人的头部姿态以及身份都会影响人脸表情识别的效果,头部姿态的改变会让算法难以用统一的模式去识别相同的表情,而相同的身份容易让算法误认为同一个人属于同一类(相同身份有许多人脸特征相同),因此许多研究者针对这两类问题提出了相应的解决方案。但很少有工作能较好地同时解决姿态跟身份带来的问题,所以Wang等人[1]基于对抗学习的思想提出了对姿态和身份较为鲁棒的人脸表情识别方法(如图1所示)。该方法输入相同表情但姿态跟身份不一样的两张人脸,通过对抗学习的方式去除掉姿态跟身份的变化,仅保留表情的特征信息再进行识别,从而达到对姿态和身份都较为鲁棒的目的。
推荐指数:✦✦✦✦✧
图1|[1]中提出方法示意图
[1] Wang C, Wang S, Liang G. Identity-and Pose-Robust Facial Expression Recognition through Adversarial Feature Learning[C]//Proceedings of the 27th ACM International Conference on Multimedia. 2019: 238-246.
2. 含手工特征的自适应加权损失函数
在其他一些分类问题上,前人的研究发现手工设计的特征跟深度学习获得的特征有相似之处且互补,选用合适的策略将手工特征嵌入到深度学习中可有效提升分类的效果。Xie等人[2]发现在人脸表情识别领域,并没有太多的工作深入研究如何将手工特征跟深度特征相融合,因此构建自适应的加权损失函数融合手工特征以及深度特征。
推荐指数:✦✦✦✧✧
图2|[2]中提出的方法示意图
[2] Xie W, Shen L, Duan J. Adaptive Weighting of Handcrafted Feature Losses for Facial Expression Recognition[J]. IEEE Transactions on Cybernetics, 2019.
3. 图结构表示和双向循环神经网络
Zhong等人[3]的工作最大的创新之处在于采用图结构进行人脸表情表示,随后再用双向循环神经网络以及全连接层进行特征提取和分类。不过无论从理论解释上还是实验结果上,这种方法暂时还没有特别明显的优势。
推荐指数:✦✦✧✧✧
图3|[3]中提出方法示意图
[3] Zhong L, Bai C, Li J, et al. A Graph-Structured Representation with BRNN for Static-based Facial Expression Recognition[C]//2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019). IEEE, 2019: 1-5.
4. 联合人脸表情的生成与识别
针对当前人脸表情识别数据较少的问题,Yan等人[4]提出联合人脸表情生成与识别的方法(方法框架如图4所示)。简单来说,就是通过生成对抗网络合成虚拟的表情图片,这些虚拟的图片能够辅助识别的网络提升表情识别的效果,而识别的网络能够引导GAN生成更逼真的虚拟表情图片。
推荐指数:✦✦✦✧✧
图4|[4]提出的方法架构
[4] Yan Y, Huang Y, Chen S, et al. Joint Deep Learning of Facial Expression Synthesis and Recognition[J]. IEEE Transactions on Multimedia, 2019.
5. 空间注意力+多路连接的人脸表情识别
Xie等人[5]主要围绕最常用的人脸表情识别方法——卷积神经网络进行更有针对性的改进,在多个数据集上取得了较好的识别效果。方法主要分成两大模块(如图5):(1)attention-based Salient Expressional Region Descriptor (SERD) ,这个模块先从在大型人脸数据集上进行过预训练的模型微调得到特征图,再加入空间注意力机制,突出表现出表情的区域;(2)Multi-Path Variation-Suppressing Network (MPVS-Net),这个模块简单来说就是将一个人脸表情特征同多个随机相同表情的人脸特征进行比对,降低不同属性的影响(性别,人种等),训练出来后,得到具有明显区分性的特征向量再进行全连接和分类。在2020年情感计算顶级期刊《IEEETransactions on Affective Computing》中,Fan等人[6]同样引入了注意力机制,以及通过双阶段训练的方法降低不同属性对表情识别的影响(方法结构如图6)。
推荐指数:✦✦✦✦✧
图5|[5]提出的模型结构
图6|[6]提出方法示意图
[5] Xie S, Hu H, Wu Y. Deep multi-path convolutional neural network joint with salient region attention for facial expression recognition[J]. Pattern Recognition, 2019, 92: 177-191.
[6] Fan Y, Li V, Lam J C K. Facial Expression Recognition with Deeply-Supervised Attention Network[J]. IEEE Transactions on Affective Computing, 2020.
6. 利用对抗学习提升带遮挡表情识别效果
跟姿态变换、光照问题一样,遮挡问题也是人脸表情识别所需面临的一项挑战。Pan[7]等人基于对抗学习的思想,提出了一个有效提升含遮挡的人脸表情识别网络(方法框架如图7所示)。在训练阶段,网络利用Resnet对遮挡和非遮挡人脸分别进行训练得到y1和y2两组特征,随后通过设计的五个损失函数对网络进行优化。五个损失函数分别为:(1)针对y1的交叉熵损失函数;(2)y1与y2相似度损失函数;(3)针对y1和y2交叉熵函数的LIR(Loss Inequality Regularization)损失函数;(4)利用遮挡与非遮挡特征联合训练的生成对抗损失函数;(5)利用遮挡特征实现去除遮挡的损失函数。最终五个损失函数按照一定权重进行相加,权重通过网格搜索的方法进行选择。同时考虑到含遮挡的人脸表情图片较少,作者通过人工合成的方式构建含遮挡的人脸表情数据。2020 ACM MM上另外一篇文章[8]也是设计多个损失函数的组合引导网络提升含遮挡人脸表情的识别效果(网络结构如图8所示)。
推荐指数:✦✦✦✦✧
图7|[7]提出的方法框架示意图
图8|[8]提出的网络结构
[7] Pan B, Wang S, Xia B. Occluded facial expression recognition enhanced through privileged information[C]//Proceedings of the 27th ACM International Conference on Multimedia. 2019: 566-573.
[8] Xia B, Wang S. Occluded Facial Expression Recognition with Step-Wise Assistance from Unpaired Non-Occluded Images[C]//Proceedings of the 28th ACM International Conference on Multimedia. 2020: 2927-2935.
7. 高效网络集成
AAAI 2020的一篇文章,总体来说,Siqueira等人[9]工作的核心思路就是网路集成,根据数据集类型的不同(实验室条件下和自然状态下的不同)设计不同的网络结构,创新性的话并无太大亮点。不过,文章提供了一定的理论支撑,以及提供了基于所提方法的非常完整的表情识别框架,识别效率高,所以还是值得推荐。
推荐指数:✦✦✦✦✧
代码:https://github.com/siqueira-hc/Efficient-Facial-Feature-Learning-with-Wide-Ensemble-based-Convolutional-Neural-Networks
图9|[9]中针对不同类型数据集提供不同的集成方案
[9] Siqueira H, Magg S, Wermter S. Efficient facial feature learning with wide ensemble-based convolutional neural networks[J]. arXiv preprint arXiv:2001.06338, 2020.
8. 抑制不确定性表情
当前大型人脸表情数据集存在着几个不确定因素:人脸表情模棱两可,图片质量较低以及标注者会带有主观偏见,这些问题的存在也容易让模型训练过程中陷入“误区”。针对上述问题,Wang等人[10]提出了“自愈网络”(Self-Cure Network,SCN)用于在训练过程中动态的调整标签从而提升识别的效果。整个网络包含三大主要部分(如图10所示):(1)样本经过一个主干卷积神经网络生成特征,特征经过一层全连接层和sigmoid函数,得到一个表达样本标签一致性的参数(该参数越接近1,即代表这个样本跟标签越是对应一致的);(2)得到样本标签一致性的参数后,经过一个正则化网络不断学习后,网络会自动归类“好”样本与“坏”样本,并更加突出两者间的差异;(3)对于“坏样本”,如果其预测所有表情概率的最大值减去其标注表情的概率大于一个阈值,则修改为最大概率的类别。同年另外一篇CVPR文章[11]也是针对人脸表情识别中的标注问题提出了基于图表示方法。
推荐指数:✦✦✦✦✦
代码:https://github.com/kaiwang960112/Self-Cure-Network
图10|[10]中提出的方法示意图
[10] Wang K, Peng X, Yang J, et al. Suppressing uncertainties for large-scale facial expression recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 6897-6906.
[11] Chen S, Wang J, Chen Y, et al. Label Distribution Learning on Auxiliary Label Space Graphs for Facial Expression Recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 13984-13993.
基于图片的人脸表情识别的工作,尤其是近两年的优秀的工作,其实远不止本文提到的那些。一些笔者不太熟悉的领域,如基于弱监督[12],半监督[13]的人脸表情识别、基于动态类别增长的人脸表情识别[14]、基于域自适应(迁移学习)的跨数据集人脸表情识别[15]等,在本文就不再对这些方法做过多的描述,有兴趣的小伙伴可自行查看。
[12] Zhang F, Zhang T, Mao Q, et al. Geometry Guided Pose-Invariant Facial Expression Recognition[J]. IEEE Transactions on Image Processing, 2020, 29: 4445-4460.
[13] Florea C., Badea M., Florea L., Racoviteanu A., Vertan C. (2020) Margin-Mix: Semi-Supervised Learning for Face Expression Recognition. In: Vedaldi A., Bischof H., Brox T., Frahm JM. (eds) Computer Vision – ECCV 2020. ECCV 2020. Lecture Notes in Computer Science, vol 12368. Springer, Cham.
[14] Zhu J, Luo B, Zhao S, et al. IExpressNet: Facial Expression Recognition with Incremental Classes[C]//Proceedings of the 28th ACM International Conference on Multimedia. 2020: 2899-2908.
[15] Zhou L, Fan X, Ma Y, et al. Uncertainty-aware Cross-dataset Facial Expression Recognition via Regularized Conditional Alignment[C]//Proceedings of the 28th ACM International Conference on Multimedia. 2020: 2964-2972.
总结
从近两年的代表性工作我们也可以看到,除了用非常新颖方法去提升识别效果外。对于基于图片的人脸表情识别方法,越来越多研究回归到这个领域所存在的问题(姿态变化、身份影响以及标注不一等)并提出针对性的解决方案。但当前仍然没有方法能解决所有基于图片的人脸表情识别所存在的问题,所以对于之后该领域的工作依然值得期待。下一篇专栏我们将把目光转向基于视频的人脸表情识别,敬请期待~
有三AI秋季划-人脸图像组
人脸图像小组需要掌握与人脸相关的内容,学习的东西包括8大方向:人脸检测,人脸关键点检测,人脸识别,人脸属性分析,人脸美颜,人脸编辑与风格化,三维人脸重建。。了解详细请阅读以下文章:
转载文章请后台联系
侵权必究