Librosa 音频分析：语音信号时域、频域和谱图可视化

本代码使用 Librosa 库对语音信号进行分析，并使用 Matplotlib 库绘制时域波形、频域谱线和谱图。

导入库

import librosa
import matplotlib
import numpy as np
import matplotlib.pyplot as plt
from scipy.fft import fft
import librosa.display

plt.figure(dpi=600)  # 将显示的所有图分辨率调高
matplotlib.rc('font', family='SimHei')  # 显示中文
matplotlib.rcParams['axes.unicode_minus'] = False  # 显示符号

函数定义

displayWaveform

def displayWaveform(sample1, sample2):  # 显示语音时域波形
    '''
    display waveform of a given speech sample
    :param sample_name: speech sample name
    :param fs: sample frequency
    :return:
    '''
    samples1, sr1 = librosa.load(sample1, sr=16000)
    samples2, sr2 = librosa.load(sample2, sr=16000)
    # samples = samples[6000:16000]

    print(len(samples1), sr1)
    print(len(samples2), sr2)
    time1 = np.arange(0, len(samples1)) * (1.0 / sr1)
    time2 = np.arange(0, len(samples2)) * (1.0 / sr2)

    plt.figure(figsize=(18, 8))
    plt.subplot(211)
    plt.plot(time1, samples1)
    plt.title('语音信号1时域波形')
    plt.xlabel('时长（秒）')
    plt.ylabel('振幅')

    plt.subplot(212)
    plt.plot(time2, samples2)
    plt.title('语音信号2时域波形')
    plt.xlabel('时长（秒）')
    plt.ylabel('振幅')
    plt.subplots_adjust(hspace=0.5)  # 调整子图间距
    # plt.savefig("your dir\语音信号时域波形图", dpi=600)
    plt.show()

    return time1, time2

displaySpectrum

def displaySpectrum(sample1, sample2, time1):  # 显示语音频域谱线
    x1, sr1 = librosa.load(sample1, sr=16000)
    x2, sr2 = librosa.load(sample2, sr=16000)
    print(len(x1), len(x2))
    ft1 = fft(x1)
    ft2 = fft(x2)
    magnitude1 = np.absolute(ft1)[:len(x1) // 2 + 1]
    magnitude2 = np.absolute(ft2)[:len(x2) // 2 + 1]
    frequency1 = np.linspace(0, sr1, len(magnitude1))  # (0, 16000, 121632)
    frequency2 = np.linspace(0, sr2, len(magnitude2))  # (0, 16000, 121632)

    print(len(magnitude1), type(magnitude1), np.max(magnitude1), np.min(magnitude1))
    print(len(frequency1), type(frequency1), np.max(frequency1), np.min(frequency1))
    print(len(magnitude2), type(magnitude2), np.max(magnitude2), np.min(magnitude2))
    print(len(frequency2), type(frequency2), np.max(frequency2), np.min(frequency2))

    # plot spectrum，限定[:40000]
    plt.figure(figsize=(18, 8))
    plt.subplot(211)
    plt.plot(time1[:len(magnitude1)], magnitude1)  # magnitude spectrum
    plt.title('语音信号1频域谱线')
    plt.xlabel('时长（秒）')
    plt.ylabel('幅度')
    plt.subplot(212)
    plt.plot(time1[:len(magnitude2)], magnitude2)  # magnitude spectrum
    # plt.ylim(0, 1000)
    plt.title('语音信号2频域谱线')
    plt.xlabel('时长（秒）')
    plt.ylabel('幅度')
    plt.subplots_adjust(hspace=0.5)  # 调整子图间距
    # plt.savefig("your dir\语音信号频谱图", dpi=600)
    plt.show()

displaySpectrogram

def displaySpectrogram(sample1, sample2, time1):
    x1, sr1 = librosa.load(sample1, sr=16000)
    x2, sr2 = librosa.load(sample2, sr=16000)

    # compute power spectrogram with stft(short-time fourier transform):
    # 基于stft，计算power spectrogram
    spectrogram1 = librosa.amplitude_to_db(librosa.stft(x1))
    spectrogram2 = librosa.amplitude_to_db(librosa.stft(x2))

    # show
    plt.figure(figsize=(18, 8))
    plt.subplot(211)
    librosa.display.specshow(spectrogram1, y_axis='log')
    plt.colorbar(format='%+2.0f dB')
    plt.title('语音信号1对数谱图')
    plt.xlabel('时长（秒）')
    plt.ylabel('频率（赫兹）')
    plt.subplot(212)
    librosa.display.specshow(spectrogram2, y_axis='log', x_axis='time', sr=sr2)
    plt.colorbar(format='%+2.0f dB')
    plt.title('语音信号2对数谱图')
    plt.xlabel('时长（秒）')
    plt.ylabel('频率（赫兹）')
    plt.subplots_adjust(hspace=0.5)  # 调整子图间距
    plt.xlim(0, np.max(time1))  # 设置横坐标范围
    plt.show()

代码执行

if __name__ == '__main__':
    sample1 = r'p376_295.wav'
    sample2 = r'enhanced_p376_295.wav'
    time1, time2 = displayWaveform(sample1, sample2)
    displaySpectrum(sample1, sample2, time1)
    displaySpectrogram(sample1, sample2, time1)

错误分析及解决

错误： ValueError: x and y must have same first dimension, but have shapes (43840,) and (32768,)

原因： 在 displaySpectrum 函数中，对于语音信号2的频域谱线，使用了错误的长度进行绘制。

解决方法： 修改 displaySpectrum 函数中绘制谱线的代码，使用 time1[:len(magnitude2)] 作为 x 轴数据，确保 x 轴和 y 轴数据长度一致。

plt.plot(time1[:len(magnitude2)], magnitude2)  # magnitude spectrum

总结

本代码使用 Librosa 和 Matplotlib 库对语音信号进行分析，展示了时域波形、频域谱线和谱图，并解释了常见的错误和解决方法。您可以根据自己的需求修改代码，进行更深入的音频分析。