增强问题被定义为我们有一个输入噪声信号˜x,我们想要清理它以获得增强的信号ˆx。我们建议使用语音增强GAN(SEGAN)来实现这一点。在我们的情况下,G网络执行增强。它的输入是嘈杂的语音信号˜x和潜在表示z,其输出是增强版本ˆx = G(˜x)。我们设计G是完全卷积的,因此没有任何密集层。这强制网络专注于输入信号和整个分层过程中的时间接近的相关性。此外,它减少了训练参数的数量,从而缩短了训练时间。

G网络的结构类似于自编码器(图2)。在编码阶段,输入信号通过一些步长卷积层和参数修正线性单元(PReLUs)[23]进行投影和压缩,每N步滤波器得到一个卷积结果。我们选择步长卷积,因为它们被证明比其他池化方法更稳定,用于GAN训练[22]。直到我们获得一个被称为思维向量c的紧凑表示,该向量与潜在向量z连接。在解码阶段,通过分数步幅转置卷积(有时称为反卷积)再次进行编码过程,然后是PReLUs。

G网络还具有跳过连接,将每个编码层连接到其同源解码层,并绕过中间模型中的压缩(图2)。这是因为模型的输入和输出共享相同的基础结构,即自然语音的结构。因此,如果我们强制所有信息通过压缩瓶颈流动,则可能会丢失许多低级细节以正确重构语音波形。跳过连接直接将波形的细粒度信息传递到解码阶段(例如,相位,对准)。此外,它们提供更好的训练行为,因为梯度可以通过整个结构更深地流动[24]。

G的一个重要特征是其端到端结构,因此它处理以16 kHz采样的原始语音,摆脱了提取声学特征的任何中间转换(与许多常见的管道相反)。在这种类型的模型中,我们必须小心通常的回归损失,如平均绝对误差或均方误差,如原始语音生成模型WaveNet [25]中所述。这些损失基于我们的输出分布的形状进行了强烈的假设,因此强加了重要的建模限制(如不允许多模态分布并使预测偏向所有可能预测的平均值)。我们克服这些限制的解决方案是使用生成对抗设置。这样,D负责向G传递真实和假的信息,以便G可以将其输出波形轻微地修正为逼真分布,摆脱嘈杂的信号,因为这些信号被标记为假。在这个意义上,D可以理解为学习某种形式的G的输出看起来真实的损失。

在初步实验中,我们发现方便添加G的损失的第二个组件,以最小化其生成和清洁示例之间的距离。为了测量这样的距离,我们选择了L1范数,因为它已被证明在图像处理领域中是有效的[20,26]。这样,我们让对抗组件添加更多细粒度和逼真的结果。L1范数的大小由新的超参数λ控制。因此,我们选择L2GAN的损失(Eq. 4)作为G的损失

The enhancement problem is defined so that we have an inputnoisy signal ˜x and we want to clean it to obtain the enhancedsignal ˆx We propose to do so with a speech enhancement GANFigure 2 Encoder-dec

原文地址: https://www.cveoy.top/t/topic/fbEC 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录