使用python脚本采集httpswwwcourtgovcnzixunhtml地址xpath为htmlbodydiv6div2div1div1div2ul
以下是使用Python爬取 https://www.court.gov.cn/zixun.html 网站数据的代码:
import requests
from lxml import etree
url = 'https://www.court.gov.cn/zixun.html'
response = requests.get(url)
html = response.content.decode('utf-8')
selector = etree.HTML(html)
ul = selector.xpath('/html/body/div[6]/div[2]/div[1]/div[1]/div[2]/ul')[0]
for li in ul.xpath('./li'):
title = li.xpath('./a/text()')[0]
link = li.xpath('./a/@href')[0]
print(title, link)
在上述代码中,我们使用requests库向目标网站发送HTTP请求,并获取响应内容。使用lxml库的etree模块来解析HTML文档,并使用xpath方法来获取指定元素。我们可以通过在浏览器中打开页面,使用开发者工具来获取xpath路径。
在此代码中,我们获取了页面中的新闻列表,并循环遍历其中的每一条新闻,获取标题和链接,并打印到控制台中
原文地址: https://www.cveoy.top/t/topic/goiV 著作权归作者所有。请勿转载和采集!