Python 正则表达式提取数据列表中的现任就职岗位

使用 Python 正则表达式提取数据列表中的现任就职岗位

假设你有一个数据列表，其中包含了每个人的姓名、职位信息和工作经历，你想从中提取出每个人的现任就职岗位。可以使用正则表达式来提取数据中的现任就职岗位，具体代码如下：

import re

data = ['郝珠江独立董事 1997-2001深圳市法制局局长(工作满30年提前退休) 2002至今北京地平线律师事务所深圳分所专职律师 2001至今鹏华基金管理有限公司独立董事 2004.12至今深圳发展银行独立董事。',
        '米高奥汉仑 (Michael O’Hanlon) 独立董事 1980-2005日本雷曼兄弟董事总经理 2000-2002青空银行董事 2000-2005韩国第一银行董事 2004.12.至今深圳发展银行独立董事。',
        '袁成第独立董事 1996-2002深圳仲裁委员会副主任 2002离休 1996至今深圳仲裁委员会专家咨询委员会主任 2001至今深圳发展银行第五、六届董事会独立董事。']

positions = []

for d in data:
    match = re.search(r'\d{4}至今(.+?)\s', d)
    if match:
        positions.append(match.group(1))
    else:
        positions.append('')

print(positions)

# 输出结果：
# ['北京地平线律师事务所深圳分所专职律师', '深圳发展银行独立董事。', '深圳发展银行第五、六届董事会独立董事。']

上述代码首先使用正则表达式匹配以“至今”开头并以空格结尾的字符串，即现任就职岗位。如果匹配成功，则将该字符串加入positions列表中；否则将空字符串加入列表中。最终输出结果就是positions列表。

代码解释：

import re：导入 Python 正则表达式库。
data：定义一个包含数据的列表。
positions = []：创建一个空列表，用于存储提取的职位信息。
for d in data：循环遍历 data 列表中的每个元素。
match = re.search(r'\d{4}至今(.+?)\s', d)：使用 re.search() 函数匹配每个元素中的 \d{4}至今(.+?)\s 模式，该模式匹配以 4 位数字和“至今”开头，以空格结尾的字符串，并使用 (.+?) 捕获匹配的职位信息。
if match：如果匹配成功，则 match 将包含匹配信息。
positions.append(match.group(1))：将匹配的职位信息（即 match.group(1)）添加到 positions 列表中。
else：如果匹配失败，则将空字符串添加到 positions 列表中。
print(positions)：打印最终提取的职位信息列表。

总结：

使用 Python 正则表达式可以方便地提取数据列表中的现任就职岗位信息。正则表达式是一种强大的工具，可以用于各种数据处理任务。