深度学习数据集划分:训练集、测试集、验证集代码示例
这是一个将数据集分为训练集、测试集和验证集的常见代码示例:
import numpy as np
from sklearn.model_selection import train_test_split
# 假设你有一个数据集 X 和标签 y
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
y = np.array([0, 1, 0, 1])
# 首先将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 再将训练集进一步划分为训练集和验证集
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=42)
# 你现在有了三个数据集:X_train, y_train(训练集),X_val, y_val(验证集),X_test, y_test(测试集)
# 可以根据需要将这些数据集用于深度学习模型的训练、验证和测试。
在上述代码中,数据集 X 和标签 y 被分为训练集(X_train, y_train)、验证集(X_val, y_val)和测试集(X_test, y_test)。train_test_split() 函数从 sklearn.model_selection 模块中导入,并且通过设置 test_size 参数来控制训练集和测试集的比例。在上述示例中,训练集和测试集比例为 0.8:0.2,然后再使用相同的方法将训练集进一步划分为训练集和验证集,比例为 0.75:0.25。
请注意,上述代码示例中的随机种子(random_state)设置为 42,这是为了保持结果的可复现性。你可以根据需要调整这些参数。
原文地址: https://www.cveoy.top/t/topic/o8zi 著作权归作者所有。请勿转载和采集!