import random

读取数据集

dataset = [] with open('dataset.txt', 'r') as file: for line in file: data = [float(x) for x in line.strip().split(',')] dataset.append(data)

按类别分组

classes = {} for data in dataset: label = int(data[-1]) if label not in classes: classes[label] = [] classes[label].append(data)

随机分割数据集

train_set = [] valid_set = [] test_set = [] for label, data_list in classes.items(): random.shuffle(data_list) train_set.extend(data_list[:1000]) valid_set.extend(data_list[1000:1100]) test_set.extend(data_list[1100:1200])

保存训练集

with open('train_set.txt', 'w') as file: for data in train_set: file.write(','.join(str(x) for x in data) + '\n')

保存验证集

with open('valid_set.txt', 'w') as file: for data in valid_set: file.write(','.join(str(x) for x in data) + '\n')

保存测试集

with open('test_set.txt', 'w') as file: for data in test_set: file.write(','.join(str(x) for x in data) + '\n')

7718323310103103100252142194002100321234771832331010310310025219080201021008649800872802731100701830903103002512390802010010101007在一txt文件夹中有如上格式的数据集每条样本前23位为特征值最后1位为类别标签标签共有8个类别在这个数据集中给每个类别分别随机取1000条作