使用 Python 正则表达式提取数据列表中的现任就职岗位

假设你有一个数据列表,其中包含了每个人的姓名、职位信息和工作经历,你想从中提取出每个人的现任就职岗位。可以使用正则表达式来提取数据中的现任就职岗位,具体代码如下:

import re

data = ['郝珠江独立董事 1997-2001深圳市法制局局长(工作满30年提前退休) 2002至今北京地平线律师事务所深圳分所专职律师 2001至今鹏华基金管理有限公司独立董事 2004.12至今深圳发展银行独立董事。',
        '米高奥汉仑 (Michael O’Hanlon) 独立董事 1980-2005日本雷曼兄弟董事总经理 2000-2002青空银行董事 2000-2005韩国第一银行董事 2004.12.至今深圳发展银行独立董事。',
        '袁成第独立董事 1996-2002深圳仲裁委员会副主任 2002离休 1996至今深圳仲裁委员会专家咨询委员会主任 2001至今深圳发展银行第五、六届董事会独立董事。']

positions = []

for d in data:
    match = re.search(r'\d{4}至今(.+?)\s', d)
    if match:
        positions.append(match.group(1))
    else:
        positions.append('')

print(positions)

# 输出结果:
# ['北京地平线律师事务所深圳分所专职律师', '深圳发展银行独立董事。', '深圳发展银行第五、六届董事会独立董事。']

上述代码首先使用正则表达式匹配以“至今”开头并以空格结尾的字符串,即现任就职岗位。如果匹配成功,则将该字符串加入positions列表中;否则将空字符串加入列表中。最终输出结果就是positions列表。

代码解释:

  • import re:导入 Python 正则表达式库。
  • data:定义一个包含数据的列表。
  • positions = []:创建一个空列表,用于存储提取的职位信息。
  • for d in data:循环遍历 data 列表中的每个元素。
  • match = re.search(r'\d{4}至今(.+?)\s', d):使用 re.search() 函数匹配每个元素中的 \d{4}至今(.+?)\s 模式,该模式匹配以 4 位数字和“至今”开头,以空格结尾的字符串,并使用 (.+?) 捕获匹配的职位信息。
  • if match:如果匹配成功,则 match 将包含匹配信息。
  • positions.append(match.group(1)):将匹配的职位信息(即 match.group(1))添加到 positions 列表中。
  • else:如果匹配失败,则将空字符串添加到 positions 列表中。
  • print(positions):打印最终提取的职位信息列表。

总结:

使用 Python 正则表达式可以方便地提取数据列表中的现任就职岗位信息。正则表达式是一种强大的工具,可以用于各种数据处理任务。

Python 正则表达式提取数据列表中的现任就职岗位

原文地址: https://www.cveoy.top/t/topic/nRUL 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录