Python 正则表达式提取数据列表中的现任就职岗位
使用 Python 正则表达式提取数据列表中的现任就职岗位
假设你有一个数据列表,其中包含了每个人的姓名、职位信息和工作经历,你想从中提取出每个人的现任就职岗位。可以使用正则表达式来提取数据中的现任就职岗位,具体代码如下:
import re
data = ['郝珠江独立董事 1997-2001深圳市法制局局长(工作满30年提前退休) 2002至今北京地平线律师事务所深圳分所专职律师 2001至今鹏华基金管理有限公司独立董事 2004.12至今深圳发展银行独立董事。',
'米高奥汉仑 (Michael O’Hanlon) 独立董事 1980-2005日本雷曼兄弟董事总经理 2000-2002青空银行董事 2000-2005韩国第一银行董事 2004.12.至今深圳发展银行独立董事。',
'袁成第独立董事 1996-2002深圳仲裁委员会副主任 2002离休 1996至今深圳仲裁委员会专家咨询委员会主任 2001至今深圳发展银行第五、六届董事会独立董事。']
positions = []
for d in data:
match = re.search(r'\d{4}至今(.+?)\s', d)
if match:
positions.append(match.group(1))
else:
positions.append('')
print(positions)
# 输出结果:
# ['北京地平线律师事务所深圳分所专职律师', '深圳发展银行独立董事。', '深圳发展银行第五、六届董事会独立董事。']
上述代码首先使用正则表达式匹配以“至今”开头并以空格结尾的字符串,即现任就职岗位。如果匹配成功,则将该字符串加入positions列表中;否则将空字符串加入列表中。最终输出结果就是positions列表。
代码解释:
import re:导入 Python 正则表达式库。data:定义一个包含数据的列表。positions = []:创建一个空列表,用于存储提取的职位信息。for d in data:循环遍历data列表中的每个元素。match = re.search(r'\d{4}至今(.+?)\s', d):使用re.search()函数匹配每个元素中的\d{4}至今(.+?)\s模式,该模式匹配以 4 位数字和“至今”开头,以空格结尾的字符串,并使用(.+?)捕获匹配的职位信息。if match:如果匹配成功,则match将包含匹配信息。positions.append(match.group(1)):将匹配的职位信息(即match.group(1))添加到positions列表中。else:如果匹配失败,则将空字符串添加到positions列表中。print(positions):打印最终提取的职位信息列表。
总结:
使用 Python 正则表达式可以方便地提取数据列表中的现任就职岗位信息。正则表达式是一种强大的工具,可以用于各种数据处理任务。
原文地址: https://www.cveoy.top/t/topic/nRUL 著作权归作者所有。请勿转载和采集!