Python 语音分类：使用双向 LSTM 从 WAV 文件中训练模型

import\u0020os\nimport\u0020numpy\u0020as\u0020np\nimport\u0020tensorflow\u0020as\u0020tf\nfrom\u0020tensorflow.keras.layers\u0020import\u0020LSTM, Bidirectional, Dense\nfrom\u0020tensorflow.keras.models\u0020import\u0020Sequential\n\n#\u0020读取wav文件\ndef\u0020read_wav_file(file_path):\n\u0020\u0020with\u0020open(file_path, 'rb')\u0020as\u0020f:\n\u0020\u0020\u0020\u0020wav_data\u0020=\u0020np.frombuffer(f.read(), dtype=np.float32)\n\u0020\u0020return\u0020wav_data\n\n#\u0020获取所有wav文件的路径\ndef\u0020get_wav_paths(directory):\n\u0020\u0020wav_paths\u0020=\u0020[]\n\u0020\u0020for\u0020root, dirs, files\u0020in\u0020os.walk(directory):\n\u0020\u0020\u0020\u0020for\u0020file\u0020in\u0020files:\n\u0020\u0020\u0020\u0020\u0020\u0020if\u0020file.endswith(".wav"):\n\u0020\u0020\u0020\u0020\u0020\u0020\u0020\u0020wav_paths.append(os.path.join(root, file))\n\u0020\u0020return\u0020wav_paths\n\n#\u0020读取所有wav文件的数据\ndef\u0020read_wav_files(directory):\n\u0020\u0020wav_paths\u0020=\u0020get_wav_paths(directory)\n\u0020\u0020wav_data\u0020=\u0020[]\n\u0020\u0020for\u0020path\u0020in\u0020wav_paths:\n\u0020\u0020\u0020\u0020data\u0020=\u0020read_wav_file(path)\n\u0020\u0020\u0020\u0020wav_data.append(data)\n\u0020\u0020return\u0020wav_data\n\n#\u0020提取特征\ndef\u0020extract_features(wav_data):\n\u0020\u0020#\u0020TODO:\u0020你可以使用你喜欢的特征提取方法，比如MFCC等\n\u0020\u0020features\u0020=\u0020wav_data\n\u0020\u0020return\u0020features\n\n#\u0020加载数据和标签\ndef\u0020load_data(directory, labels):\n\u0020\u0020wav_data\u0020=\u0020read_wav_files(directory)\n\u0020\u0020features\u0020=\u0020[]\n\u0020\u0020for\u0020data\u0020in\u0020wav_data:\n\u0020\u0020\u0020\u0020features.append(extract_features(data))\n\u0020\u0020features\u0020=\u0020np.array(features)\n\u0020\u0020labels\u0020=\u0020np.array(labels)\n\u0020\u0020return\u0020features, labels\n\n#\u0020构建双向LSTM模型\ndef\u0020build_model(input_shape, num_classes):\n\u0020\u0020model\u0020=\u0020Sequential()\n\u0020\u0020model.add(Bidirectional(LSTM(128, return_sequences=True), input_shape=input_shape))\n\u0020\u0020model.add(Bidirectional(LSTM(128)))\n\u0020\u0020model.add(Dense(64, activation='relu'))\n\u0020\u0020model.add(Dense(num_classes, activation='softmax'))\n\u0020\u0020return\u0020model\n\n#\u0020训练模型\ndef\u0020train_model(features, labels, num_classes):\n\u0020\u0020input_shape\u0020=\u0020features.shape[1:]\n\u0020\u0020model\u0020=\u0020build_model(input_shape, num_classes)\n\u0020\u0020model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])\n\u0020\u0020model.fit(features, labels, batch_size=32, epochs=10, validation_split=0.2)\n\u0020\u0020return\u0020model\n\n#\u0020测试模型\ndef\u0020test_model(model, features, labels):\n\u0020\u0020predictions\u0020=\u0020model.predict(features)\n\u0020\u0020predicted_labels\u0020=\u0020np.argmax(predictions, axis=1)\n\u0020\u0020accuracy\u0020=\u0020np.mean(predicted_labels\u0020==\u0020labels)\n\u0020\u0020return\u0020accuracy\n\n#\u0020主函数\ndef\u0020main():\n\u0020\u0020#\u0020设置数据目录和标签\n\u0020\u0020data_directory\u0020=\u0020"path/to/wav/files"\n\u0020\u0020labels\u0020=\u0020[0, 1, 0, 1, 0, 1] #\u0020假设有6个wav文件，对应的分类标签为0和1\n\n\u0020\u0020#\u0020加载数据和标签\n\u0020\u0020features, labels\u0020=\u0020load_data(data_directory, labels)\n\n\u0020\u0020#\u0020划分训练集和测试集\n\u0020\u0020train_ratio\u0020=\u00200.8 #\u0020使用80%的数据作为训练集\n\u0020\u0020num_samples\u0020=\u0020len(features)\n\u0020\u0020train_size\u0020=\u0020int(num_samples\u0020*\u0020train_ratio)\n\u0020\u0020train_features, train_labels\u0020=\u0020features[:train_size], labels[:train_size]\n\u0020\u0020test_features, test_labels\u0020=\u0020features[train_size:], labels[train_size:]\n\n\u0020\u0020#\u0020训练模型\n\u0020\u0020num_classes\u0020=\u00202 #\u0020两个分类\n\u0020\u0020model\u0020=\u0020train_model(train_features, train_labels, num_classes)\n\n\u0020\u0020#\u0020测试模型\n\u0020\u0020accuracy\u0020=\u0020test_model(model, test_features, test_labels)\n\u0020\u0020print("Accuracy:", accuracy)\n\nif\u0020__name__\u0020==\u0020'main':\n\u0020\u0020main()