Python 正则表达式提取 HTML 表格数据

使用 Python 正则表达式提取 HTML 表格数据，可以快速定位目标数据并进行提取。

例如，以下代码展示如何从 HTML 表格中提取“江津（猪圈门）”这一行第二个单元格的数值：

import re

text = '<tr style="height:40.0px;">
<td style="text-align:center">朱沱（汉东村）</td>
<td style="text-align:center">5.15</td>
<td style="text-align:center">-0.48</td>
</tr>
<tr style="height:40.0px;">
<td style="text-align:center">江津（猪圈门）</td>
<td style="text-align:center">5.20</td>
<td style="text-align:center">-0.52</td>
</tr>
<tr style="height:40.0px;">
<td style="text-align:center">重庆（寸滩）</td>'

match = re.search(r'<td style="text-align:center">(.*?)</td>
<td style="text-align:center">(.*?)</td>', text)
if match:
    value = match.group(2)
    print(value)

代码中使用了 re.search() 方法进行匹配，匹配模式为 `'(.*?)

(.*?)'`，分别匹配目标单元格的起始标签和结束标签，并使用 `(.*?)` 捕获组提取对应的数据。最终通过 `match.group(2)` 获取第二个单元格的数值，即 `5.20`。

注意：

正则表达式需要根据实际情况进行调整，以匹配目标数据。
使用正则表达式处理 HTML 数据可能会遇到一些问题，例如标签嵌套等，需要仔细设计匹配模式。
为了提高代码的鲁棒性和可读性，建议使用专门的 HTML 解析库，如 BeautifulSoup，进行 HTML 数据的解析和提取。