根据报错信息,问题出在数据集加载时的预处理过程中。预处理器要求输入的文本数据必须包含texttext_target字段,但是在加载数据集时没有正确指定这些字段。

解决方法是在加载数据集时,为train_dataseteval_dataset指定正确的texttext_target字段。例如,如果数据集中的文本字段为text,可以将代码修改为:

train_dataset = MsDataset.load('fangbei/llama-zghz', subset_name='default', split='train', text_field='text')
eval_dataset = MsDataset.load('fangbei/llama-zghz', subset_name='default', split='validation', text_field='text')

如果数据集中的文本字段为text_target,则修改为:

train_dataset = MsDataset.load('fangbei/llama-zghz', subset_name='default', split='train', text_field='text_target')
eval_dataset = MsDataset.load('fangbei/llama-zghz', subset_name='default', split='validation', text_field='text_target')

根据实际情况选择正确的字段名,确保在加载数据集时指定了正确的字段名即可解决报错问题

from modelscopetrainers import build_trainerfrom modelscopemsdatasets import MsDatasetfrom modelscopeutilsconstant import DownloadMode# 加载数据集model_id = damonlp_structbert_sentence-similarity_chinese-t

原文地址: http://www.cveoy.top/t/topic/iOcW 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录