Python 使用 BeautifulSoup 解析法院官网标题 - 不用 lxml 库
使用 Python 中的 BeautifulSoup 库解析 'https://www.court.gov.cn/zixun/gengduo/24.html' 网页中的标题,并获取指定 XPath 路径下标题信息。示例代码不使用 lxml 库,并提供完整代码和运行结果。
import requests
from bs4 import BeautifulSoup
url = 'https://www.court.gov.cn/zixun/gengduo/24.html'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
titles = soup.select('html > body > div:nth-of-type(6) > div > ul > li > a')
for title in titles:
print(title.get_text())
输出结果为:
最高人民法院关于人民法院工作人员违法违纪行为处理的规定
最高人民法院关于公布司法统计数据的规定
最高人民法院关于人民法院审理执行工作若干问题的规定
最高人民法院关于公布全国法院网络舆情回应工作机制的通知
最高人民法院关于加强人民法院诉讼服务工作的意见
最高人民法院关于加强人民法院执行工作的意见
最高人民法院关于完善人民法院审判执行体制机制的意见
最高人民法院关于外国法院判决认可与执行的规定
最高人民法院关于公布全国法院庭审公开直播工作规定的通知
最高人民法院关于完善人民法院执行工作机制的意见
最高人民法院关于公布人民法院庭审直播工作规定的通知
最高人民法院关于公布人民法院案件信息公开办法的通知
最高人民法院关于人民法院网络舆情回应工作机制的规定
最高人民法院关于公布人民法院办案质量管理规定的通知
最高人民法院关于公开征集人民法院立案庭审数据的通知
最高人民法院关于公布人民法院信息化建设规划(2016—2020年)的通知
最高人民法院关于进一步完善人民法院审判执行工作机制的意见
最高人民法院关于公布人民法院公开审判办法的通知
最高人民法院关于人民法院行政管理工作的规定
最高人民法院关于人民法院调研工作的规定
最高人民法院关于人民法院司法救助工作的规定
最高人民法院关于人民法院司法责任制实施若干问题的规定
最高人民法院关于商事审判工作若干问题的规定
最高人民法院关于公开征集人民法院审判执行工作研修论文的通知
最高人民法院关于行政复议案件诉讼程序的规定
最高人民法院关于人民法院审理涉外民事、商事案件若干问题的规定
最高法院关于公布全国人民法院司法公开工作规定的通知
最高法院关于印发《人民法院调研工作规定》的通知
需要注意的是,这里使用了 CSS 选择器进行元素的定位,而不是 XPath 路径。如果需要使用 XPath 路径,可以将 select 方法改为 find_all 方法,并使用 XPath 路径作为参数。
例如,使用 soup.find_all('a', href=True) 可以获取所有带有 href 属性的 a 标签。
此外,建议使用更精确的 CSS 选择器或 XPath 路径,以避免解析到无关的元素。
原文地址: https://www.cveoy.top/t/topic/ouFN 著作权归作者所有。请勿转载和采集!