使用Python解析中国法院网新闻标题 - 代码示例和教程

本文将使用Python代码从中国法院网新闻页面'https://www.court.gov.cn/zixun/gengduo/24.html'中提取所有新闻标题。

代码:

import requests
from lxml import html

url = 'https://www.court.gov.cn/zixun/gengduo/24.html'
response = requests.get(url)
tree = html.fromstring(response.content)

# 获取所有标题
titles = tree.xpath('/html/body/div[6]/div/ul/li/a/text()')

# 打印标题
for title in titles:
    print(title)

解释:

  1. 导入库: 首先导入 requests 库用于获取网页内容,以及 lxml 库用于解析 HTML 结构。
  2. 获取网页: 使用 requests.get(url) 获取网页内容。
  3. 解析 HTML: 使用 html.fromstring(response.content) 将获取的网页内容解析成 HTML 树结构。
  4. 使用 XPath: 使用 tree.xpath('/html/body/div[6]/div/ul/li/a/text()') 获取所有新闻标题的文本内容。XPath 路径 /html/body/div[6]/div/ul/li/a/text() 指定了标题元素在 HTML 结构中的位置。
  5. 打印结果: 使用循环遍历所有提取的标题,并将它们打印出来。

运行结果:

执行代码后,将会输出'https://www.court.gov.cn/zixun/gengduo/24.html' 页面上的所有新闻标题。

总结:

本文提供了一个使用 Python 解析网页内容的示例,展示了如何使用 requestslxml 库提取新闻标题。该代码可以作为基础,用于更多其他网页数据提取任务。

Python爬取中国法院网新闻标题 - 代码示例和教程

原文地址: https://www.cveoy.top/t/topic/ouEW 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录