Python 正则表达式提取 HTML 表格数据
使用 Python 正则表达式提取 HTML 表格数据,可以快速定位目标数据并进行提取。
例如,以下代码展示如何从 HTML 表格中提取“江津(猪圈门)”这一行第二个单元格的数值:
import re
text = '<tr style="height:40.0px;">
<td style="text-align:center">朱沱(汉东村)</td>
<td style="text-align:center">5.15</td>
<td style="text-align:center">-0.48</td>
</tr>
<tr style="height:40.0px;">
<td style="text-align:center">江津(猪圈门)</td>
<td style="text-align:center">5.20</td>
<td style="text-align:center">-0.52</td>
</tr>
<tr style="height:40.0px;">
<td style="text-align:center">重庆(寸滩)</td>'
match = re.search(r'<td style="text-align:center">(.*?)</td>
<td style="text-align:center">(.*?)</td>', text)
if match:
value = match.group(2)
print(value)
代码中使用了 re.search() 方法进行匹配,匹配模式为 `'
注意:
- 正则表达式需要根据实际情况进行调整,以匹配目标数据。
- 使用正则表达式处理 HTML 数据可能会遇到一些问题,例如标签嵌套等,需要仔细设计匹配模式。
- 为了提高代码的鲁棒性和可读性,建议使用专门的 HTML 解析库,如 BeautifulSoup,进行 HTML 数据的解析和提取。
原文地址: https://www.cveoy.top/t/topic/j9MW 著作权归作者所有。请勿转载和采集!