使用 Python 正则表达式提取 HTML 表格数据,可以快速定位目标数据并进行提取。

例如,以下代码展示如何从 HTML 表格中提取“江津(猪圈门)”这一行第二个单元格的数值:

import re

text = '<tr style="height:40.0px;">
<td style="text-align:center">朱沱(汉东村)</td>
<td style="text-align:center">5.15</td>
<td style="text-align:center">-0.48</td>
</tr>
<tr style="height:40.0px;">
<td style="text-align:center">江津(猪圈门)</td>
<td style="text-align:center">5.20</td>
<td style="text-align:center">-0.52</td>
</tr>
<tr style="height:40.0px;">
<td style="text-align:center">重庆(寸滩)</td>'

match = re.search(r'<td style="text-align:center">(.*?)</td>
<td style="text-align:center">(.*?)</td>', text)
if match:
    value = match.group(2)
    print(value)

代码中使用了 re.search() 方法进行匹配,匹配模式为 `'(.*?)

(.*?)'`,分别匹配目标单元格的起始标签和结束标签,并使用 `(.*?)` 捕获组提取对应的数据。最终通过 `match.group(2)` 获取第二个单元格的数值,即 `5.20`。

注意:

  • 正则表达式需要根据实际情况进行调整,以匹配目标数据。
  • 使用正则表达式处理 HTML 数据可能会遇到一些问题,例如标签嵌套等,需要仔细设计匹配模式。
  • 为了提高代码的鲁棒性和可读性,建议使用专门的 HTML 解析库,如 BeautifulSoup,进行 HTML 数据的解析和提取。
Python 正则表达式提取 HTML 表格数据

原文地址: https://www.cveoy.top/t/topic/j9MW 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录