Pandas DataFrame 中使用 apply 函数进行中文分词时出现 TypeError: expected string or bytes-like object 错误
在使用 Pandas DataFrame 的 apply 函数对文本数据进行中文分词时,可能会遇到“TypeError: expected string or bytes-like object”错误。这个错误提示意味着输入的参数不是字符串或类似字节的对象。
根据代码,错误发生在chinese_word_cut函数中的re.findall函数的调用处。可能是data.content中包含了非字符串或字节的对象。
要解决这个问题,可以在调用chinese_word_cut函数之前,检查data.content的数据类型,并确保它是字符串或字节类型的对象。可以使用type()函数来检查数据类型,并使用str()函数将非字符串类型的对象转换为字符串。
以下是修改后的代码:
#生成分词后的字段
data['content_cutted'] = data.content.apply(lambda x: chinese_word_cut(str(x)))
data.head()
在这个修改后的代码中,使用了lambda表达式来将data.content中的每个元素转换为字符串类型,然后再传递给chinese_word_cut函数进行处理。这样就可以避免TypeError错误。
原文地址: https://www.cveoy.top/t/topic/evEN 著作权归作者所有。请勿转载和采集!