实时语音降噪：使用 PyAudio 和 Librosa 进行音频处理

本代码展示了如何使用 PyAudio 和 Librosa 库进行实时语音降噪处理。代码中使用了一个预先训练好的模型，用于处理语音信号并生成降噪后的语音。

代码结构

导入必要的库

import argparse
import os

import librosa
import soundfile
import numpy as np
import pyaudio
import torch
import torch.nn as nn
from scipy.io import wavfile
from torch.autograd import Variable
from tqdm import tqdm

from data_preprocess import slice_signal, window_size, sample_rate
from model import Generator
from utils import emphasis

定义常量

CHUNK_SIZE = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = sample_rate

p = pyaudio.PyAudio()

# 加载模型
generator = Generator()
generator.load_state_dict(torch.load('epochs/generator-9(1).pkl', map_location='cpu'))
if torch.cuda.is_available():
    generator.cuda()

# 生成噪声向量
z = nn.init.normal_(torch.Tensor(1, 1024, 8))
z = Variable(z)
if torch.cuda.is_available():
    z = z.cuda()

定义回调函数

def callback(in_data, frame_count, time_info, status):
    noisy_slice = np.frombuffer(in_data, dtype=np.int16)
    noisy_slice = slice_signal(noisy_slice, window_size, 1, sample_rate)[0]
    noisy_slice = torch.from_numpy(emphasis(noisy_slice[np.newaxis, np.newaxis, :])).type(torch.FloatTensor)
    if torch.cuda.is_available():
        noisy_slice = noisy_slice.cuda()
    noisy_slice = Variable(noisy_slice)
    generated_speech = generator(noisy_slice, z).data.cpu().numpy()
    generated_speech = emphasis(generated_speech, emph_coeff=0.95, pre=False)
    generated_speech = generated_speech.reshape(-1)
    return (generated_speech.astype(np.int16), pyaudio.paContinue)

创建音频流并开始实时处理

stream = p.open(format=FORMAT,
                channels=CHANNELS,
                rate=RATE,
                input=True,
                output=True,
                frames_per_buffer=CHUNK_SIZE,
                stream_callback=callback)

stream.start_stream()

while stream.is_active():
    try:
        continue
    except KeyboardInterrupt:
        break

stream.stop_stream()
stream.close()

p.terminate()

注意

代码中使用了 librosa.load() 函数加载音频文件，确保文件路径正确，并且文件格式支持。
代码中使用 nn.init.normal_() 函数代替了 nn.init.normal() 函数，因为后者已经被弃用。
代码中使用 emphasis() 函数对音频信号进行预加重处理，可以提高语音识别的效果。
可以根据实际情况调整代码中的一些参数，例如 CHUNK_SIZE 和 window_size。

代码运行过程

代码首先会导入必要的库和定义一些常量。
然后会加载预先训练好的模型，并生成一个噪声向量。
代码会定义一个回调函数，用于处理实时音频数据。
最后会创建音频流并开始实时处理音频数据，直到用户按下 Ctrl+C 键停止程序。

代码运行结果

代码运行后，会将实时采集到的语音信号进行降噪处理，并播放降噪后的音频。可以根据实际情况调整参数和模型，以获得更好的降噪效果。

更多信息

PyAudio 文档：https://people.csail.mit.edu/hubert/pyaudio/
Librosa 文档：https://librosa.org/doc/latest/index.html