在jupyter notebook中使用ner_data样本集基于今天课堂内容划分数据样本集并使用map方法完成数据映射的程序代码
下面是在Jupyter Notebook中使用ner_data样本集,基于课堂内容,划分数据样本集并使用map方法完成数据映射的程序代码:
import pandas as pd
# 读取数据样本集
data = pd.read_csv('ner_data.csv')
# 划分数据集
train_data = data.sample(frac=0.8, random_state=1) # 80%的数据作为训练集
test_data = data.drop(train_data.index) # 剩余的数据作为测试集
# 数据映射函数
def map_data(row):
# 将标签转换为对应的数字
if row['Tag'] == 'O':
return 0
elif row['Tag'] == 'B-PER' or row['Tag'] == 'I-PER':
return 1
elif row['Tag'] == 'B-LOC' or row['Tag'] == 'I-LOC':
return 2
elif row['Tag'] == 'B-ORG' or row['Tag'] == 'I-ORG':
return 3
else:
return -1 # 未知标签
# 在训练集上应用数据映射
train_data['Tag'] = train_data.apply(map_data, axis=1)
# 在测试集上应用数据映射
test_data['Tag'] = test_data.apply(map_data, axis=1)
在上述代码中,首先使用pd.read_csv()函数读取ner_data.csv文件中的数据样本集。然后使用sample()函数将数据集划分为80%的训练集和20%的测试集。接下来定义了一个map_data()函数,用于将标签Tag映射为对应的数字。最后,使用apply()方法在训练集和测试集上应用数据映射函数,将标签Tag映射为数字
原文地址: http://www.cveoy.top/t/topic/iZub 著作权归作者所有。请勿转载和采集!