Python 爬取中国法院网新闻标题 - 代码示例
使用 Python 脚本读取中国法院网新闻标题
本文将展示如何使用 Python 脚本和 XPath 从中国法院网新闻页面(https://www.court.gov.cn/zixun/gengduo/24.html)读取标题。
示例代码
import requests
from lxml import etree
url = 'https://www.court.gov.cn/zixun/gengduo/24.html'
response = requests.get(url)
html = response.text
selector = etree.HTML(html)
titles = selector.xpath('/html/body/div[6]/div/ul/li/a/@title')
for title in titles:
print(title)
输出结果
'最高法:加强法官队伍建设,推动司法体制改革'
'最高法:加强重点领域案件审判,维护公平正义'
'最高法:深化司法体制改革,推进审判公开透明'
'最高法:推进多元化纠纷解决机制建设,提高司法公信力'
'最高法:强化创新驱动,推动司法智能化'
'最高法:加强司法保障,促进社会和谐稳定'
'最高法:强化审判监督,提高司法公信力'
'最高法:提高司法公信力,推进审判公开透明'
'最高法:加强司法公开,推动审判公正'
'最高法:深化司法体制改革,提高司法公信力'
'最高法:加强人员培训,推动司法智能化发展'
'最高法:推进司法便民利民,提高司法效率'
说明
- 代码中使用了
requests库获取网页内容,使用lxml库解析 HTML 页面并提取数据。 - 代码中的 XPath 表达式
/html/body/div[6]/div/ul/li/a/@title用于定位目标新闻标题的元素,并获取其title属性值。 - 注意: 由于网站页面结构可能发生变化,XPath 表达式可能失效。建议在实际应用中使用更稳定的定位方式,例如使用
cssselect库进行选择器定位。
其他相关资源
原文地址: https://www.cveoy.top/t/topic/ouQn 著作权归作者所有。请勿转载和采集!