假设数据框 df 的品种来源列为 'source',可以使用正则表达式和 apply 函数实现该功能:

import re

# 定义正则表达式,匹配所有非汉字字符
pattern = re.compile(r'[^一-龥]')

# 定义函数,提取非汉字字符并用顿号连接
def extract_chars(s):
    chars = pattern.findall(s)
    return '、'.join(chars)

# 添加新列
df['亲本'] = df['source'].apply(extract_chars)

其中,正则表达式 [^一-龥] 表示匹配除汉字外的所有字符;apply 函数将 extract_chars 函数应用于每一行的 source 列,将提取的非汉字字符添加到新列 亲本 中,以顿号连接。

Python Pandas 数据处理:提取文本列中非汉字字符并添加到新列

原文地址: https://www.cveoy.top/t/topic/nn2O 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录