使用Python语言编写用selenium库爬取httpswwwgaokaocnschool2055introDetails页面内容程序并存储为广商csv
由于没有具体要求,我这里按照自己的思路,爬取了该页面的基本信息、招生章程、历年分数线和专业设置,并将结果存储为一个csv文件。代码如下:
from selenium import webdriver
import time
import csv
# 设置浏览器选项
options = webdriver.ChromeOptions()
options.add_argument('--headless') # 无界面模式
options.add_argument('--disable-gpu') # 禁用GPU加速
options.add_argument('--no-sandbox') # 禁用沙盒模式
# 启动浏览器
driver = webdriver.Chrome(options=options)
# 打开页面
driver.get('https://www.gaokao.cn/school/2055/introDetails')
# 等待页面加载完成
time.sleep(3)
# 爬取基本信息
basic_info = {}
basic_infos = driver.find_elements_by_xpath('//div[@class="school-message"]/ul/li')
for info in basic_infos:
key = info.find_element_by_xpath('./em').text
value = info.find_element_by_xpath('./span').text
basic_info[key] = value
# 爬取招生章程
enrollment_rules = driver.find_element_by_xpath('//div[@class="intro-content"]/div[2]')
enrollment_rules_text = enrollment_rules.get_attribute('innerHTML')
# 爬取历年分数线
score_lines = driver.find_element_by_xpath('//div[@class="intro-content"]/div[3]')
score_lines_text = score_lines.get_attribute('innerHTML')
# 爬取专业设置
majors = driver.find_element_by_xpath('//div[@class="intro-content"]/div[4]')
majors_text = majors.get_attribute('innerHTML')
# 关闭浏览器
driver.quit()
# 将数据存储为csv文件
with open('广商.csv', 'w', newline='', encoding='utf-8-sig') as f:
writer = csv.writer(f)
# 写入基本信息
writer.writerow(['基本信息'])
for key, value in basic_info.items():
writer.writerow([key, value])
# 写入招生章程
writer.writerow(['招生章程'])
writer.writerow([enrollment_rules_text])
# 写入历年分数线
writer.writerow(['历年分数线'])
writer.writerow([score_lines_text])
# 写入专业设置
writer.writerow(['专业设置'])
writer.writerow([majors_text])
运行代码后,会在当前目录下生成一个名为“广商.csv”的文件,其中包含了爬取到的数据
原文地址: https://www.cveoy.top/t/topic/dHVL 著作权归作者所有。请勿转载和采集!