你可以使用正则表达式来匹配类似于"href="/art/2023/7/11/art_54071_10947586.html">2023-07-11【江苏水情信息】"这样的每条水情信息。

以下是一个示例代码,使用正则表达式来提取每条水情信息:

import re

# 假设source是你获取到的页面源码
source = '''
<record><![CDATA[\n<li> <a target="_blank" href="/art/2023/7/24/art_54071_10959989.html">2023-07-24【江苏水情信息】</a><span          class="bt-right">2023-07-24</span> </li>]]></record>
<record><![CDATA[\n<li> <a target="_blank" href="/art/2023/7/23/art_54071_10959797.html">2023-07-23【江苏水情信息】</a><span          class="bt-right">2023-07-23</span> </li>]]></record>
<record><![CDATA[\n<li> <a target="_blank" href="/art/2023/7/22/art_54071_10959532.html">2023-07-22【江苏水情信息】</a><span          class="bt-right">2023-07-22</span> </li>]]></record>
'''

# 使用正则表达式匹配每条水情信息
pattern = r'href="(/art/\d+/\d+/\d+/art_\d+_\d+.html)">(\d{4}-\d{2}-\d{2}【江苏水情信息】)'
matches = re.findall(pattern, source)

# 输出每条水情信息的链接和日期信息
for match in matches:
    link = match[0]
    date = match[1]
    print(f"链接: {link}")
    print(f"日期: {date}")
    print()

这将输出类似于以下内容:

链接: /art/2023/7/24/art_54071_10959989.html
日期: 2023-07-24【江苏水情信息】

链接: /art/2023/7/23/art_54071_10959797.html
日期: 2023-07-23【江苏水情信息】

链接: /art/2023/7/22/art_54071_10959532.html
日期: 2023-07-22【江苏水情信息】

你可以根据需要进一步处理这些链接和日期信息

requests获得页面源码是:nli a target=_blank href=art2023724art_54071_10959989html2023-07-24【江苏水情信息】aspan class=bt-right2023-07-24span lirecordnrecord!CDATAnli a target=_blank href=art2023723art_54071

原文地址: https://www.cveoy.top/t/topic/ihe0 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录