利用连接注意机制学习多尺度特征用于语音情感识别

摘要

语音情感识别 (SER) 已经成为人机交互领域的一个重要课题。特征表示在 SER 中起着重要的作用，但在特征表示方面仍有许多挑战，如无法预测哪些特征对 SER 最有效以及情感表达的文化差异。以前的研究大多使用单一类型的特征进行识别任务或进行早期的特征融合。然而，单一类型的特征不能很好地反映语音信号的情感。同时，不同的特征包含不同的信息，直接融合不能整合不同特征的优势。为了克服这些挑战，本文提出了一种基于连接注意机制的多尺度 SER 的并行网络 (AMSNet)。AMSNet 将细粒度的框架级人工特征与粗粒度的语料级深度特征进行融合。同时，它根据语音信号的时间和空间特征，采用了不同的语音情感特征提取模块，从而丰富了特征，提高了特征描述的效果。该网络包括一个基于时间结构的帧级表示学习模块 (FRLM) 和一个基于全局结构的语篇级表示学习模块 (URLM)。此外，改进的基于注意力的长短期记忆 (LSTM) 被引入到 FRLM 中，以关注对最终情绪识别结果贡献更大的帧。在 URLM 中，引入了带有挤压和激发块 (SCNN) 的卷积神经网络来提取深层特征。此外，连接注意机制被提出用于特征融合，该机制对不同的特征应用不同的权重。我们在 IEMOCAP 和 EmoDB 数据集上进行了广泛的实验，结果证明了 AMSNet 的有效性和性能优势。我们的代码将在以下网站上公开提供：https://codeocean.com/capsule/8636967/tree/v1.

简介

人类的情绪状态是人类交流中的一个重要因素，而语音在情绪表达中起着重要作用 (Dolan, 2002)。语音情感识别 (SER) 旨在通过提取和建模语音特征，如短时能量、零点交叉率、音高、形变、持续时间、亲和力、频谱特征、梅尔频谱系数 (MFCC) 特征等，对情感状态进行识别和分类 (Jiang and Cai, 2004, Sahu, 2019)。语音表达的情感差异与时间结构、振幅结构、基频结构、形位结构的分布有关。语音的声学特征，包括语调特征、频谱特征等，可以更直观地反映这些特征之间的差异。近年来，SER 被应用于许多领域，如人机交互 (Cowie 等人, 2001)、情感学习检测、心理健康分析、客户服务检测等。

SER 需要研究的第一个问题是哪些特征对情感识别有效。尽管相当多的特征已经被确定为与情感识别高度相关，但这个问题并没有被深入研究。第二个问题是如何根据提取的特征来识别情绪。

传统的 SER 方法主要使用机器学习，如支持向量机 (Lin & Wei, 2005)、天真贝叶斯模型 (Wang, An, Li, Zhang, & Li, 2015) 和最近邻 (Lanjewar, Mathurkar, & Patel, 2015) 与手工制作的特征。同时，各种情感特征集，如 INTERSPEECH 2013 (Schuller 等人, 2013)、 AVEC-2016 (Valstar 等人, 2016) 和 GeMAPs (Eyben 等人, 2015) 也被使用。然而，这种手工制作的特征的性能是有限的，而且特征集大小的增加也会增加训练的复杂性。

最近，随着深度学习的快速发展 (Liu, Fang et al., 2022, Liu, Zheng et al., 2022)，一些技术被应用于 SER，并取得了显著的性能提升 (Fayek et al., 2017, Kwon et al., 2021, Xie et al., 2019)。同时，众多研究人员也在上述问题的研究中做出了努力。神经网络的应用使得解决特征选择的问题成为可能。Han, Yu, and Tashev (2014) 提出的方法具有代表性。它使用一个深度神经网络模型，从音调周期、谐波-噪声比和 MFCCs 等输入特征中学习深度特征。Satt, Rozenberg and Hoory (2017) 提出了一个基于卷积神经网络 (CNN) 的新型框架，它使用 Mel-scale 频谱图作为输入。与手工制作的特征相比，频谱图是一种原始的表示，没有太多的具体特征表示。神经网络可以从原始表征中自动提取特征，从而减少特征工程的开销。随后的工作 (Hou 等人, 2020, Meng 等人, 2019, Wu 等人, 2021) 直接将卷积层和池化层应用于频谱图并取得了良好的效果，这证明了使用频谱图作为输入特征的优势。

CNN 模型或长短时记忆 (LSTM) 模型常用于基于自动学习特征的 SER 任务中。Mao, Dong, Huang, and Zhan (2014) 提出了一个两阶段的 CNN，以获得更有用的情感特征表示，但它仍然不能解决语音信号的动态特征问题。Chen, He, Yang, and Zhang (2018) 通过计算 log-Mels 的 deltas 和 delta-deltas 来减少非语言因素对识别结果的影响，并提出了一个基于三维注意力的卷积递归神经网络来更好地捕捉特征的时频关系。为了学习不同特征的更多情感细节，Jiang, Fu, Tao, Lei, and Zhao (2019) 提出了一个平行网络模型，其中 CNN 被用于 Log-Mel 谱图，LSTM 被用于帧级特征。很明显，在 SER 任务中，深度特征和手工制作的特征有各自的优势。虽然通过深度模型自动学习特征可以捕获语音信号的重要情感信息，但上述工作未能显示出融合手工特征和自动学习特征的性能改进 (见图 1)。

近年来，一些研究人员专注于手工艺特征和自动学习特征的融合，以发挥两种特征的优势。Guo, Wang, Dang, Liu, and Guan (2019) 和 Kumaran, Radha Rammohan, Nagarajan, and Prathik (2021) 介绍了这种融合方法。与使用一种类型的特征相比，使用两种类型的特征的方法提高了 SER 的性能。然而，一些现有的研究忽略了不同类型特征的融合，如语调特征和频谱特征。Guo, Wang, 已经证明了特征的丰富性对实验结果有极其积极的影响。声学特征和语调特征从不同的方面描述语音信号，是互补的。两个特征的融合可以从语音中获得更丰富的情感信息。语气特征是在时域中提取的。离散傅里叶变换用于将时域转化为频域，并生成语音信号的频域表示，因此，深度神经网络用于处理语音频谱，进行高维特征提取。两者的融合可以丰富特征的描述。这进一步说明，具有两种不同特征的模型对于同一任务具有不同的性能。以前的很多工作都是将不同的网络串联起来进行情感识别。设计适合段级特征的模型比较容易。然而，由于模型之间的继承关系，序列化的模型结构可能会丢失一些情感信息。最后的问题是设计适当的输入以满足不同模型的需要。为了最大限度地发挥手工特征和深度特征在 SER 任务中的贡献，本文采用了不同的模型，并采用了注意力机制进行模型融合。具体来说，分别训练两类特征可以产生不同的高度抽象的特征表示，这样可以更好地整合两类特征的优势。由于手工特征和深度特征对最终识别结果的贡献是不同的，使用注意力机制可以突出特征的重要性。通过权重值来调整两种特征的重要程度，相对更重要的特征被赋予更高的权重，从而使该特征对整个识别效果有更大的贡献，从而显著提高模型性能。

这项工作的主要贡献总结如下：

i. 提出了一种独立的训练方法，以克服传统特征融合在特征层面上的局限性。以多个特征作为输入进行平行连接模式，同时学习不同功能特征的完整情感细节。深度特征可以更好地表达频率和时间之间的关系，而手工特征可以全面描述语音信号的基本信息。因此，可以采用不同的网络结构进行特征提取，结合信号的空间和时间特征的优势。 ii. 提出了网络融合的连接关注机制，为不同类型的特征分配不同的权重值。通过使用基于权重的关注机制，可以整合各种特征的优势，提高模型的情感识别能力。

iii. 该方法在两个开放的数据集上进行了评估，即 EmoDB 和交互式情绪动态捕捉数据库 (IEMOCAP)。它在这两个数据集上获得了 69.22% 和 88.34% 的加权准确率，显示了所提方法的有效性。

本文的其余部分组织如下。第 2 节对相关工作进行了简要回顾。第 3 节描述了所提出的基于注意力机制的融合手工特征和深度特征的方法。第 4 节介绍了数据集、特征提取、实验细节以及对实验结果的分析。第 5 节是本文的结论。

部分片段

语音情感识别

SER 主要包括三个模块：语音信号预处理、特征提取和情感分类。预处理阶段是下面的特征提取的前提条件。经过处理，原始语音信号可以转化为更有利于特殊转换提取的数字量，从而提高 SER 的鲁棒性。例如，信号的瞬时能量是由 Malik, Malik, Mehmood, and Makhdoom (2021) 计算的，其中

AMSNet 概述

在本节中，将分两部分介绍 AMSNet 的细节。为了自动学习语音信号的最佳时空表征并提供细化的情感分析，本研究构建了两个模块来提取不同层次的情感表征，即 FRLM 和 URLM。CNN 和 LSTM 模型分别在捕捉详细的空间和时间信息方面显示出优越性。因此，改进的 CNN 和 LSTM 模型被引入到 URLM 和 FRLM 中。

FRLM 由以下部分组成

数据集

IEMOCAP 是一个真实的多模式、多发言人的情感数据库。该语料库由十个演员录制，包括五个对话，每个对话由一个男性和一个女性说。它包含大约 12 小时的音频数据，包括视频、语音、动作捕捉、文本转录。本研究只使用音频数据，包括 10039 个语料。在实验中，只使用了带有以下情绪标签的语词：愤怒、快乐、悲伤和中性。为了平衡样本

总结

为了减少单一特征的固有缺陷的影响，本文提出了 AMSNet。具体来说，一方面，融合了帧级特征和语篇级特征，增加了不同特征之间的互补性，结合了信号的空间和时间特征的优势。另一方面，我们提出了一种基于连接注意机制的融合方法。由于不同的特征对最终的识别结果有不同的贡献。总结一下内容：，本文在 IEMOCAP 和 EmoDB 数据集上进行了广泛的实验，结果证明了 AMSNet 的有效性和性能优势。通过自动学习语音信号的最佳时空表征并提供细化的情感分析，AMSNet 能够更好地捕捉语音信号的情感信息。通过连接注意机制对不同类型的特征进行融合，AMSNet 能够整合不同特征的优势，提高情感识别的准确性。本文的工作对于提高语音情感识别的性能具有重要的意义，可以在人机交互、情感学习检测、心理健康分析等领域得到广泛应用。