使用 Python 脚本读取中国法院网新闻标题

本文将展示如何使用 Python 脚本和 XPath 从中国法院网新闻页面(https://www.court.gov.cn/zixun/gengduo/24.html)读取标题。

示例代码

import requests
from lxml import etree

url = 'https://www.court.gov.cn/zixun/gengduo/24.html'

response = requests.get(url)

html = response.text

selector = etree.HTML(html)

titles = selector.xpath('/html/body/div[6]/div/ul/li/a/@title')

for title in titles:
    print(title)

输出结果

'最高法:加强法官队伍建设,推动司法体制改革'
'最高法:加强重点领域案件审判,维护公平正义'
'最高法:深化司法体制改革,推进审判公开透明'
'最高法:推进多元化纠纷解决机制建设,提高司法公信力'
'最高法:强化创新驱动,推动司法智能化'
'最高法:加强司法保障,促进社会和谐稳定'
'最高法:强化审判监督,提高司法公信力'
'最高法:提高司法公信力,推进审判公开透明'
'最高法:加强司法公开,推动审判公正'
'最高法:深化司法体制改革,提高司法公信力'
'最高法:加强人员培训,推动司法智能化发展'
'最高法:推进司法便民利民,提高司法效率'

说明

  • 代码中使用了 requests 库获取网页内容,使用 lxml 库解析 HTML 页面并提取数据。
  • 代码中的 XPath 表达式 /html/body/div[6]/div/ul/li/a/@title 用于定位目标新闻标题的元素,并获取其 title 属性值。
  • 注意: 由于网站页面结构可能发生变化,XPath 表达式可能失效。建议在实际应用中使用更稳定的定位方式,例如使用 cssselect 库进行选择器定位。

其他相关资源


原文地址: https://www.cveoy.top/t/topic/ouQn 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录