Python爬取中国法院网新闻标题 - 代码示例和教程
使用Python解析中国法院网新闻标题 - 代码示例和教程
本文将使用Python代码从中国法院网新闻页面'https://www.court.gov.cn/zixun/gengduo/24.html'中提取所有新闻标题。
代码:
import requests
from lxml import html
url = 'https://www.court.gov.cn/zixun/gengduo/24.html'
response = requests.get(url)
tree = html.fromstring(response.content)
# 获取所有标题
titles = tree.xpath('/html/body/div[6]/div/ul/li/a/text()')
# 打印标题
for title in titles:
print(title)
解释:
- 导入库: 首先导入
requests库用于获取网页内容,以及lxml库用于解析 HTML 结构。 - 获取网页: 使用
requests.get(url)获取网页内容。 - 解析 HTML: 使用
html.fromstring(response.content)将获取的网页内容解析成 HTML 树结构。 - 使用 XPath: 使用
tree.xpath('/html/body/div[6]/div/ul/li/a/text()')获取所有新闻标题的文本内容。XPath 路径/html/body/div[6]/div/ul/li/a/text()指定了标题元素在 HTML 结构中的位置。 - 打印结果: 使用循环遍历所有提取的标题,并将它们打印出来。
运行结果:
执行代码后,将会输出'https://www.court.gov.cn/zixun/gengduo/24.html' 页面上的所有新闻标题。
总结:
本文提供了一个使用 Python 解析网页内容的示例,展示了如何使用 requests 和 lxml 库提取新闻标题。该代码可以作为基础,用于更多其他网页数据提取任务。
原文地址: https://www.cveoy.top/t/topic/ouEW 著作权归作者所有。请勿转载和采集!