Python MNIST 数据集预处理和保存教程
首先需要导入必要的库,包括 numpy 和 mnist 库:
import numpy as np
from mnist import MNIST
接着,使用 MNIST 库中的 load_training 和 load_testing 方法分别加载训练集和测试集:
mndata = MNIST('D:\dataset\MNIST')
train_images, train_labels = mndata.load_training()
test_images, test_labels = mndata.load_testing()
接下来,我们需要将图像数据转换成 numpy 数组,并将标签转换成 one-hot 编码的形式:
train_images = np.array(train_images)
train_labels = np.eye(10)[train_labels]
test_images = np.array(test_images)
test_labels = np.eye(10)[test_labels]
其中,np.eye(10) 表示生成一个 10 行 10 列的单位矩阵,train_labels 和 test_labels 中的每个标签值将被转换成一个 10 维的向量,对应位置为 1 表示该图像所表示的数字。
最后,我们可以使用 numpy 中的 save 函数将处理好的数据保存到本地:
np.save('train_images.npy', train_images)
np.save('train_labels.npy', train_labels)
np.save('test_images.npy', test_images)
np.save('test_labels.npy', test_labels)
以上代码将处理好的训练集图像、训练集标签、测试集图像、测试集标签保存为 npy 格式的文件,保存在当前工作目录下。
原文地址: https://www.cveoy.top/t/topic/nnqG 著作权归作者所有。请勿转载和采集!