Python 代码爬取高校网站信息：筛选包含‘计算机’关键词的学校代码

使用 Python 代码爬取高校网站信息：筛选包含‘计算机’关键词的学校代码

本代码将从以下网址列表中爬取数据，筛选包含‘计算机’关键词的学校代码，并返回相关信息。

import requests

alter_char = [10001, 10002, 10003, 10013, 10246]

for char in alter_char:
    url = 'https://www.eeagd.edu.cn/lzks/yxzycx/yxzy.jsp?yx_h={}&pc_h=11&jhlb_h=00&zykl_h=2'.format(char)
    res = requests.get(url)
    if '计算机' in res.text:
        print(char)

代码说明：

导入 requests 库： 用于发送 HTTP 请求。
定义 alter_char 列表： 包含要替换的学校代码。
循环遍历 alter_char 列表：
- 使用 format() 方法将当前学校代码替换到 URL 中。
- 使用 requests.get() 发送 GET 请求获取网页内容。
- 使用 if '计算机' in res.text: 判断网页内容是否包含‘计算机’关键词。
- 如果包含，则打印该学校代码。

示例：

第一个网址：https://www.eeagd.edu.cn/lzks/yxzycx/yxzy.jsp?yx_h=10001&pc_h=11&jhlb_h=00&zykl_h=2

注意：

代码仅供学习参考，请勿用于非法目的。
爬取网站信息时，请务必遵守网站的 robots.txt 文件，并注意不要过度请求，避免给网站服务器造成负担。
为了提高代码效率，可以使用多线程或异步编程技术。
为了处理特殊字符和编码问题，可以使用 BeautifulSoup 或 lxml 库解析 HTML 内容。
代码中的 计算机 关键词可以根据您的需求进行修改。