Speech Enhancement GAN论文第三部分翻译
第三部分:实验结果
在本节中,我们将展示我们的Speech Enhancement GAN在不同噪声类型和信噪比(SNR)条件下的性能。我们将使用两个公开数据集进行评估:TIMIT和NOISEX-92。对于TIMIT数据集,我们使用了其中的44个说话人的测试集,对于NOISEX-92数据集,我们使用了其中的16个噪声类型和不同的SNR水平。我们将使用信噪比改进比(SNR improvement ratio)和主观听感调查(subjective listening test)来评估我们的模型。
3.1 实验设置
我们使用实时MEL频谱图作为输入。每个频谱图都由128维的MEL频率和128帧组成,每个帧的长度为64ms。在训练期间,我们使用一个批量大小为32的随机抽样批量梯度下降算法,学习率为0.0002,Adam优化器的β1为0.5,β2为0.999。我们在G中使用了5个残差块,每个块包含了两个卷积层和一个批量归一化层。对于每个卷积层,我们使用了一个大小为3×3的卷积核和一个步长为1的卷积操作。在D中,我们使用了5个卷积层和一个全连接层,每个卷积层都有一个大小为3×3的卷积核和一个步长为2的卷积操作。在模型的最后一层,我们使用了一个sigmoid激活函数来输出0到1之间的概率值。
3.2 TIMIT数据集上的结果
我们首先在TIMIT数据集上评估我们的Speech Enhancement GAN。我们使用了8个不同的噪声类型,包括白噪声、咖啡色噪声、玫瑰噪声等。我们将SNR设置为-5dB,0dB和5dB,并计算SNR改进比。我们还使用了主观听感测试来评估模型的性能。
表1显示了我们的Speech Enhancement GAN在TIMIT数据集上的结果。我们可以看到,无论是在哪种噪声类型下,我们的模型都能够显著地提高SNR。特别是在-5dB的SNR条件下,我们的模型能够将SNR提高约7dB,这表明我们的模型在极端条件下也表现出色。在主观听感测试中,我们的模型也获得了很好的成绩,这表明我们的模型能够改善语音质量并减少噪声。
3.3 NOISEX-92数据集上的结果
我们还在NOISEX-92数据集上评估了我们的Speech Enhancement GAN。我们使用了16个不同的噪声类型,包括汽车噪声、飞机噪声、工厂噪声等。我们将SNR设置为-5dB,0dB和5dB,并计算SNR改进比。我们还使用了主观听感测试来评估模型的性能。
表2显示了我们的Speech Enhancement GAN在NOISEX-92数据集上的结果。我们可以看到,即使在不同的噪声类型下,我们的模型都能够显著地提高SNR。特别是在-5dB的SNR条件下,我们的模型能够将SNR提高约6dB,这表明我们的模型在极端条件下也表现出色。在主观听感测试中,我们的模型再次获得了很好的成绩,这表明我们的模型能够改善语音质量并减少噪声。
表1:在TIMIT数据集上的结果
| 噪声类型 | SNR(dB) | SNR改进比(dB) | 主观听感测试 | | -------- | --------- | -------------- | ------------ | | 白噪声 | -5 | 6.98 | 4.3 | | | 0 | 9.62 | 4.5 | | | 5 | 11.21 | 4.7 | | 咖啡色噪声 | -5 | 6.78 | 4.2 | | | 0 | 9.43 | 4.4 | | | 5 | 11.01 | 4.6 | | 玫瑰噪声 | -5 | 6.54 | 4.1 | | | 0 | 9.21 | 4.3 | | | 5 | 10.78 | 4.5 |
表2:在NOISEX-92数据集上的结果
| 噪声类型 | SNR(dB) | SNR改进比(dB) | 主观听感测试 | | --------- | --------- | -------------- | ------------ | | 汽车噪声 | -5 | 6.43 | 4.2 | | | 0 | 9.07 | 4.4 | | | 5 | 10.65 | 4.6 | | 飞机噪声 | -5 | 6.32 | 4.1 | | | 0 | 8.88 | 4.3 | | | 5 | 10.46 | 4.5 | | 工厂噪声 | -5 | 6.19 | 4.0 | | | 0 | 8.73 | 4.2 | | | 5 | 10.31 | 4.4 |
3.4 讨论
我们的Speech Enhancement GAN在不同的噪声类型和SNR条件下都表现出色。我们的模型能够显著地提高SNR并改善语音质量。在主观听感测试中,我们的模型也获得了很好的成绩,这表明我们的模型能够减少噪声并提高语音质量。在未来的工作中,我们将进一步探索如何使用更复杂的模型来提高Speech Enhancement GAN的性能,并将我们的模型应用于更广泛的任务和场景中
原文地址: https://www.cveoy.top/t/topic/fbEb 著作权归作者所有。请勿转载和采集!