from modelscopetrainers import build_trainerfrom modelscopemsdatasets import MsDatasetfrom modelscopeutilsconstant import DownloadMode# 加载数据集model_id = damonlp_structbert_sentence-similarity_chinese-t
根据报错信息,问题出在数据集加载时的预处理过程中。预处理器要求输入的文本数据必须包含text或text_target字段,但是在加载数据集时没有正确指定这些字段。
解决方法是在加载数据集时,为train_dataset和eval_dataset指定正确的text或text_target字段。例如,如果数据集中的文本字段为text,可以将代码修改为:
train_dataset = MsDataset.load('fangbei/llama-zghz', subset_name='default', split='train', text_field='text')
eval_dataset = MsDataset.load('fangbei/llama-zghz', subset_name='default', split='validation', text_field='text')
如果数据集中的文本字段为text_target,则修改为:
train_dataset = MsDataset.load('fangbei/llama-zghz', subset_name='default', split='train', text_field='text_target')
eval_dataset = MsDataset.load('fangbei/llama-zghz', subset_name='default', split='validation', text_field='text_target')
根据实际情况选择正确的字段名,确保在加载数据集时指定了正确的字段名即可解决报错问题
原文地址: http://www.cveoy.top/t/topic/iOcW 著作权归作者所有。请勿转载和采集!