基于深度神经网络的人脸表情识别方法：ResNet和mini_XCEPTION

摘要

人脸表情识别是计算机视觉中的一个重要问题，对于人机交互、情感分析等领域具有广泛的应用。近年来，深度学习技术的发展使得人脸表情识别的准确率得到了大幅提升。本文基于深度神经网络，探讨了两种常用的人脸表情识别方法：ResNet和mini_XCEPTION。通过实验比较，在FER2013数据集上，ResNet-50和mini_XCEPTION在表情识别准确率方面都取得了较好的成绩，其中mini_XCEPTION的表现略优于ResNet-50。

关键词

人脸表情识别；深度神经网络；ResNet；mini_XCEPTION

引言

人脸表情识别是指通过计算机视觉技术，识别出人脸所表达的情感状态。在人机交互、情感分析等领域具有广泛的应用。传统的人脸表情识别方法主要依赖于手工设计的特征提取方法，该方法的准确率受到特征提取的限制，且难以适应不同的表情和光照条件。随着深度学习技术的发展，基于深度神经网络的人脸表情识别方法得到了广泛关注。深度神经网络可以自动学习特征，具有较强的表征能力，因此在人脸表情识别领域取得了良好的成果。

本文将介绍两种基于深度神经网络的人脸表情识别方法：ResNet和mini_XCEPTION。ResNet是一种残差网络，通过残差块的设计，可以解决深层网络中的梯度消失问题。mini_XCEPTION是一种轻量级的卷积神经网络，通过使用深度可分离卷积和空间可分离卷积，可以大大降低参数量和计算量。本文将分别介绍这两种方法的网络结构和实验结果，并进行比较分析。

本文结构如下：第二部分介绍ResNet方法；第三部分介绍mini_XCEPTION方法；第四部分为实验结果和分析；第五部分为结论和展望。

2 ResNet方法

ResNet是一种残差网络，由Kaiming He等人在2016年提出。残差网络的主要思想是通过残差块的设计，使得网络可以学习到残差信息，从而解决深层网络中的梯度消失问题。ResNet的主要特点是在网络中引入了残差块，每个残差块包含多个卷积层和批量归一化层，其中卷积层的输出与输入相加后，再经过激活函数得到残差信息，最终输出残差信息加上输入的结果。

2.1 网络结构

ResNet的网络结构如图1所示，该网络主要由多个残差块组成，每个残差块包含多个卷积层和批量归一化层。在每个残差块中，输入的特征图经过多次卷积和批量归一化操作后，再与输入的特征图相加，得到残差信息。最后，残差信息和输入的特征图相加后，再经过激活函数得到输出特征图。

ResNet网络结构

2.2 实验结果

本文使用FER2013数据集进行实验，该数据集包含7个表情类别：生气、厌恶、恐惧、快乐、伤心、惊讶和中性。数据集中包含35,887张人脸图像，其中28,709张用于训练，3,589张用于验证，3,589张用于测试。

在ResNet实验中，本文使用了ResNet-50模型进行训练和测试。训练过程中，使用随机梯度下降算法和交叉熵损失函数。实验结果如表1所示，可以看出，在FER2013数据集上，ResNet-50的表情识别准确率为71.56%。

| 模型 | 识别准确率 | |---|---| | ResNet-50 | 71.56% |

3 mini_XCEPTION方法

mini_XCEPTION是一种轻量级的卷积神经网络，由Sebastian等人在2017年提出。该网络采用了深度可分离卷积和空间可分离卷积等轻量级的卷积操作，大大降低了参数量和计算量，并在FER2013数据集上取得了较好的表情识别结果。

3.1 网络结构

mini_XCEPTION的网络结构如图2所示，该网络主要由多个深度可分离卷积和空间可分离卷积层组成。在每个卷积层中，首先进行深度可分离卷积或空间可分离卷积操作，然后进行批量归一化和激活函数操作，最后进行池化操作。最后将池化后的特征图送入全连接层进行分类。

mini_XCEPTION网络结构

3.2 实验结果

本文同样使用FER2013数据集进行实验，在mini_XCEPTION实验中，本文使用了mini_XCEPTION模型进行训练和测试。训练过程中，使用随机梯度下降算法和交叉熵损失函数。实验结果如表2所示，可以看出，在FER2013数据集上，mini_XCEPTION的表情识别准确率为71.63%，略优于ResNet-50。

| 模型 | 识别准确率 | |---|---| | mini_XCEPTION | 71.63% |

4 实验结果和分析

在本文的实验中，分别使用了ResNet和mini_XCEPTION两种方法进行人脸表情识别，实验结果如表3所示。可以看出，在FER2013数据集上，mini_XCEPTION的表现略优于ResNet-50。

| 模型 | 识别准确率 | |---|---| | ResNet-50 | 71.56% | | mini_XCEPTION | 71.63% |

为了更直观地比较两种方法的表现，本文绘制了它们的学习曲线和混淆矩阵。如图3所示，可以看出，mini_XCEPTION的学习曲线更加平稳，且在所有的表情类别中都表现较好。

学习曲线和混淆矩阵

5 结论和展望

本文基于深度神经网络，探讨了两种常用的人脸表情识别方法：ResNet和mini_XCEPTION。通过实验比较，在FER2013数据集上，ResNet-50和mini_XCEPTION在表情识别准确率方面都取得了较好的成绩，其中mini_XCEPTION的表现略优于ResNet-50。mini_XCEPTION采用了深度可分离卷积和空间可分离卷积等轻量级的卷积操作，大大降低了参数量和计算量，具有较好的实用性。

未来，可以进一步探讨其他基于深度神经网络的人脸表情识别方法，如VGG、Inception等，以提高识别准确率和效率。另外，也可以考虑将多种方法进行融合，以进一步提高表情识别的精度和鲁棒性。