数据狂df含有品种来源列文本类型提取该列的所有非汉字字符添加到新列新列名称为亲本若含有多个非汉字字符以顿号隔开
假设数据狂df的品种来源列为"source",可以使用正则表达式和apply函数实现该功能:
import re
# 定义正则表达式,匹配所有非汉字字符
pattern = re.compile(r'[^\u4e00-\u9fa5]')
# 定义函数,提取非汉字字符并用顿号连接
def extract_chars(s):
chars = pattern.findall(s)
return '、'.join(chars)
# 添加新列
df['亲本'] = df['source'].apply(extract_chars)
其中,正则表达式[^\u4e00-\u9fa5]表示匹配除汉字外的所有字符;apply函数将extract_chars函数应用于每一行的source列,将提取的非汉字字符添加到新列亲本中,以顿号连接。
原文地址: https://www.cveoy.top/t/topic/b4Fm 著作权归作者所有。请勿转载和采集!