使用 Python 爬虫获取 CSES 网站题目信息

实验目的

本实验旨在通过使用 Python 爬虫系统来爬取 CSES 网站的题目内容。具体目的包括：

从网站上爬取题目的信息
检索并获取需要的数据

实验设计

为了实现上述目的，我们使用了以下工具和方法：

Python 爬虫库：我们使用了 requests 库发送 GET 请求，并使用 BeautifulSoup 库解析响应。
网站的网址：我们爬取了 CSES 网站的问题页面。
爬取的数据类型：我们爬取了题目的内容、链接地址、标题、ID 以及测试用例的输入和输出。

实验过程

首先，我们需要发送 GET 请求到问题 URL，并使用代理和 Cookie 来确保请求的正常执行。代码示例：

import requests

problem_url = 'https://www.cses.fi/problemset/task/1234'
proxy = {'http': 'http://127.0.0.1:8080'}
cookies = {'session_id': '1234567890'}

response = requests.get(problem_url, proxies=proxy, cookies=cookies)

接下来，我们使用 BeautifulSoup 库解析得到的响应，并获取所有 <ul> 元素。代码示例：

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.content, 'html.parser')
ul_elements = soup.find_all('ul')

然后，我们遍历每个 <ul> 元素，获取其中的二级标题和 <li> 元素。我们通过解析 <a> 元素获取问题的链接地址、标题和 ID，并创建对应的目录。代码示例：

import os

for ul in ul_elements:
    sub_headline = ul.previous_sibling.previous_sibling.text.strip()
    for li in ul.find_all('li'):
        a = li.find('a')
        problem_link = a['href']
        problem_title = a.text.strip()
        problem_id = problem_link.split('/')[-1]
        
        # 创建对应的目录
        problem_dir = f'problems/{problem_id}'
        os.makedirs(problem_dir, exist_ok=True)

最后，我们再次发送 GET 请求获取问题的内容，并保存到文件中。我们还获取测试用例的输入和输出，并保存到对应的文件中。代码示例：

problem_content_url = f'https://www.cses.fi{problem_link}'
problem_response = requests.get(problem_content_url, proxies=proxy, cookies=cookies)

# 将问题内容保存到文件中
with open(f'{problem_dir}/content.md', 'w') as f:
    f.write(problem_response.text)

# 获取测试用例的输入和输出，并保存到文件中
inputs = problem_response.json()['input']
outputs = problem_response.json()['output']
with open(f'{problem_dir}/input.txt', 'w') as f:
    f.write(inputs)
with open(f'{problem_dir}/output.txt', 'w') as f:
    f.write(outputs)

在获取到题目内容后，我们可以使用百度翻译 API 对内容进行翻译，以便更好地理解和分析题目。具体使用方法可以参考百度翻译 API 的官方文档。

实验结果

爬取的数据包括题目的内容、链接地址、标题、ID 以及测试用例的输入和输出。这些数据被保存在对应的文件中。

例如，题目内容被保存在 content.md 文件中，测试用例的输入被保存在 input.txt 文件中，测试用例的输出被保存在 output.txt 文件中。

实验总结

通过本次实验，我们成功地使用 Python 爬虫爬取了 CSES 网站的题目内容，并保存到了相应的文件中。同时，我们还利用百度翻译 API 对题目进行了翻译，使得内容更易理解和分析。

在实验过程中，我们遇到了一些问题，如网络请求的代理和 Cookie 设置、响应内容的解析等。但通过查看文档和查找解决方案，我们成功地解决了这些问题。

总体而言，本次实验使我们更加熟悉了 Python 爬虫的使用和相关的库，提高了我们对网站数据获取和处理的能力。此外，使用百度翻译 API 对题目进行翻译，进一步提升了我们的理解和分析能力。

在以后的实验中，我们可以进一步优化爬虫系统的性能和稳定性，并考虑其他数据获取和处理的场景。

实验心得和建议

在使用 Python 爬虫进行数据爬取时，需要注意以下几点：

合理设置请求头信息，包括代理和 Cookie，以确保请求的正常执行。
使用合适的库来解析响应内容，如 BeautifulSoup 库等。
注意对于网站的反爬机制，如动态内容、验证码等，可能需要使用特殊的处理方法或工具。
在处理数据时，要根据实际需求和数据特点选择合适的存储方式，如文本文件、数据库等。

建议在实验中注意代码的可读性和可重用性，合理使用函数和类来组织代码，编写适当的注释和文档。

总而言之，通过实验，我们掌握了 Python 爬虫的基本原理和使用方法，提高了对网站数据获取和处理的能力，为实际应用提供了一定的参考和指导。同时，我们也认识到爬虫需要注意遵守相关法律法规和道德规范，合理使用和保护数据。