The enhancement problem is defined so that we have an inputnoisy signal ˜x and we want to clean it to obtain the enhancedsignal ˆx We propose to do so with a speech enhancement GANFigure 2 Encoder-dec

增强问题被定义为我们有一个输入噪声信号˜x，我们想要清理它以获得增强的信号ˆx。我们建议使用语音增强GAN（SEGAN）来实现这一点。在我们的情况下，G网络执行增强。它的输入是嘈杂的语音信号˜x和潜在表示z，其输出是增强版本ˆx = G（˜x）。我们设计G是完全卷积的，因此没有任何密集层。这强制网络专注于输入信号和整个分层过程中的时间接近的相关性。此外，它减少了训练参数的数量，从而缩短了训练时间。

G网络的结构类似于自编码器（图2）。在编码阶段，输入信号通过一些步长卷积层和参数修正线性单元（PReLUs）[23]进行投影和压缩，每N步滤波器得到一个卷积结果。我们选择步长卷积，因为它们被证明比其他池化方法更稳定，用于GAN训练[22]。直到我们获得一个被称为思维向量c的紧凑表示，该向量与潜在向量z连接。在解码阶段，通过分数步幅转置卷积（有时称为反卷积）再次进行编码过程，然后是PReLUs。

G网络还具有跳过连接，将每个编码层连接到其同源解码层，并绕过中间模型中的压缩（图2）。这是因为模型的输入和输出共享相同的基础结构，即自然语音的结构。因此，如果我们强制所有信息通过压缩瓶颈流动，则可能会丢失许多低级细节以正确重构语音波形。跳过连接直接将波形的细粒度信息传递到解码阶段（例如，相位，对准）。此外，它们提供更好的训练行为，因为梯度可以通过整个结构更深地流动[24]。

G的一个重要特征是其端到端结构，因此它处理以16 kHz采样的原始语音，摆脱了提取声学特征的任何中间转换（与许多常见的管道相反）。在这种类型的模型中，我们必须小心通常的回归损失，如平均绝对误差或均方误差，如原始语音生成模型WaveNet [25]中所述。这些损失基于我们的输出分布的形状进行了强烈的假设，因此强加了重要的建模限制（如不允许多模态分布并使预测偏向所有可能预测的平均值）。我们克服这些限制的解决方案是使用生成对抗设置。这样，D负责向G传递真实和假的信息，以便G可以将其输出波形轻微地修正为逼真分布，摆脱嘈杂的信号，因为这些信号被标记为假。在这个意义上，D可以理解为学习某种形式的G的输出看起来真实的损失。

在初步实验中，我们发现方便添加G的损失的第二个组件，以最小化其生成和清洁示例之间的距离。为了测量这样的距离，我们选择了L1范数，因为它已被证明在图像处理领域中是有效的[20，26]。这样，我们让对抗组件添加更多细粒度和逼真的结果。L1范数的大小由新的超参数λ控制。因此，我们选择L2GAN的损失（Eq. 4）作为G的损失

The enhancement problem is defined so that we have an inputnoisy signal ˜x and we want to clean it to obtain the enhancedsignal ˆx We propose to do so with a speech enhancement GANFigure 2 Encoder-dec