Python爬取中国法院网新闻标题 - 代码示例和教程 - 常规

使用Python解析中国法院网新闻标题 - 代码示例和教程

本文将使用Python代码从中国法院网新闻页面'https://www.court.gov.cn/zixun/gengduo/24.html'中提取所有新闻标题。

代码:

import requests
from lxml import html

url = 'https://www.court.gov.cn/zixun/gengduo/24.html'
response = requests.get(url)
tree = html.fromstring(response.content)

# 获取所有标题
titles = tree.xpath('/html/body/div[6]/div/ul/li/a/text()')

# 打印标题
for title in titles:
    print(title)

解释:

导入库: 首先导入 requests 库用于获取网页内容，以及 lxml 库用于解析 HTML 结构。
获取网页: 使用 requests.get(url) 获取网页内容。
解析 HTML: 使用 html.fromstring(response.content) 将获取的网页内容解析成 HTML 树结构。
使用 XPath: 使用 tree.xpath('/html/body/div[6]/div/ul/li/a/text()') 获取所有新闻标题的文本内容。XPath 路径 /html/body/div[6]/div/ul/li/a/text() 指定了标题元素在 HTML 结构中的位置。
打印结果: 使用循环遍历所有提取的标题，并将它们打印出来。

运行结果:

执行代码后，将会输出'https://www.court.gov.cn/zixun/gengduo/24.html' 页面上的所有新闻标题。

总结:

本文提供了一个使用 Python 解析网页内容的示例，展示了如何使用 requests 和 lxml 库提取新闻标题。该代码可以作为基础，用于更多其他网页数据提取任务。