数据框dat含有特征特性为字符串、品种名称、品种来源、产量表现列现利用pandas增加新列种植类型提取特征特性里的‘春’、‘夏’、‘秋’字符返回给种植类型不存在返回NA同时存在多个均返回
可以使用str.contains()方法和正则表达式来提取特征特性中的‘春’、‘夏’、‘秋’字符,然后将结果赋值给新列“种植类型”。如果没有匹配到,则返回“NA”。
代码如下:
import pandas as pd
# 创建示例数据
dat = pd.DataFrame({'特性特征': ['春季、耐旱', '夏季、抗病', '秋季、抗虫', '旱季、抗病', '抗旱', '抗虫'],
'品种名称': ['品种1', '品种2', '品种3', '品种4', '品种5', '品种6'],
'品种来源': ['来源1', '来源2', '来源3', '来源4', '来源5', '来源6'],
'产量表现': [100, 120, 150, 80, 90, 110]})
# 提取特征特性中的“春”、“夏”、“秋”字符
dat['种植类型'] = dat['特性特征'].str.extract('(春|夏|秋)', expand=False)
# 没有匹配到的数据返回“NA”
dat['种植类型'].fillna('NA', inplace=True)
print(dat)
输出结果如下:
特性特征 品种名称 品种来源 产量表现 种植类型
0 春季、耐旱 品种1 来源1 100 春
1 夏季、抗病 品种2 来源2 120 夏
2 秋季、抗虫 品种3 来源3 150 秋
3 旱季、抗病 品种4 来源4 80 NA
4 抗旱 品种5 来源5 90 NA
5 抗虫 品种6 来源6 110 NA
可以看到,新列“种植类型”中提取出了特征特性中包含的“春”、“夏”、“秋”字符,没有匹配到的数据则返回“NA”
原文地址: https://www.cveoy.top/t/topic/dWkg 著作权归作者所有。请勿转载和采集!