由于没有具体要求,我这里按照自己的思路,爬取了该页面的基本信息、招生章程、历年分数线和专业设置,并将结果存储为一个csv文件。代码如下:

from selenium import webdriver
import time
import csv

# 设置浏览器选项
options = webdriver.ChromeOptions()
options.add_argument('--headless')  # 无界面模式
options.add_argument('--disable-gpu')  # 禁用GPU加速
options.add_argument('--no-sandbox')  # 禁用沙盒模式

# 启动浏览器
driver = webdriver.Chrome(options=options)

# 打开页面
driver.get('https://www.gaokao.cn/school/2055/introDetails')

# 等待页面加载完成
time.sleep(3)

# 爬取基本信息
basic_info = {}
basic_infos = driver.find_elements_by_xpath('//div[@class="school-message"]/ul/li')
for info in basic_infos:
    key = info.find_element_by_xpath('./em').text
    value = info.find_element_by_xpath('./span').text
    basic_info[key] = value

# 爬取招生章程
enrollment_rules = driver.find_element_by_xpath('//div[@class="intro-content"]/div[2]')
enrollment_rules_text = enrollment_rules.get_attribute('innerHTML')

# 爬取历年分数线
score_lines = driver.find_element_by_xpath('//div[@class="intro-content"]/div[3]')
score_lines_text = score_lines.get_attribute('innerHTML')

# 爬取专业设置
majors = driver.find_element_by_xpath('//div[@class="intro-content"]/div[4]')
majors_text = majors.get_attribute('innerHTML')

# 关闭浏览器
driver.quit()

# 将数据存储为csv文件
with open('广商.csv', 'w', newline='', encoding='utf-8-sig') as f:
    writer = csv.writer(f)
    # 写入基本信息
    writer.writerow(['基本信息'])
    for key, value in basic_info.items():
        writer.writerow([key, value])
    # 写入招生章程
    writer.writerow(['招生章程'])
    writer.writerow([enrollment_rules_text])
    # 写入历年分数线
    writer.writerow(['历年分数线'])
    writer.writerow([score_lines_text])
    # 写入专业设置
    writer.writerow(['专业设置'])
    writer.writerow([majors_text])

运行代码后,会在当前目录下生成一个名为“广商.csv”的文件,其中包含了爬取到的数据

使用Python语言编写用selenium库爬取httpswwwgaokaocnschool2055introDetails页面内容程序并存储为广商csv

原文地址: https://www.cveoy.top/t/topic/dHVL 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录