import os
import time
import psutil
from selenium.webdriver.chrome.options import Options
from selenium import webdriver
from selenium.webdriver.common.by import By
import openpyxl
import requests

# 检查是否已经存在浏览器实例,如果存在则不再创建
for proc in psutil.process_iter():
    try:
        if 'chrome' in proc.name() and '--remote-debugging-port=9224' in proc.cmdline():
            options = Options()
            options.add_experimental_option('debuggerAddress', '127.0.0.1:9224')
            break
    except:
        pass
else:
    # 创建浏览器实例
    os.system(r'start chrome --remote-debugging-port=9224 --user-data-dir="D:\评阅用"')
    options = Options()
    options.add_experimental_option('debuggerAddress', '127.0.0.1:9224')

# 在已有的浏览器实例中查找标签页
driver = webdriver.Chrome(options=options)
tabs = driver.window_handles
for tab in tabs:
    driver.switch_to.window(tab)
    if driver.title == '考后核验':
        print('登陆成功')
        break

# 打开Excel表格
wb = openpyxl.load_workbook(r'C:\Users\Administrator\Desktop\考后核验.xlsx')
sheet = wb.active

# 创建照片文件夹
photo_folder = r'C:\Users\Administrator\Desktop\照片'
if not os.path.exists(photo_folder):
    os.mkdir(photo_folder)

# 遍历表格内'A'列数据
for row in sheet.iter_rows(min_row=2, max_row=sheet.max_row, min_col=1, max_col=1):
    for cell in row:
        # 获取学号
        student_id = cell.value
        if student_id:
            # 在网页内查找考生信息
            search_input = driver.find_element(By.XPATH, '//input[@placeholder="姓名/考生号"]')
            search_input.clear()
            search_input.send_keys(student_id)
            time.sleep(1)  # 等待页面加载完成
            search_button = driver.find_element(By.XPATH, '//button[@class="ant-btn ant-btn-primary"]')
            driver.execute_script('arguments[0].click();', search_button)
            time.sleep(1)  # 等待页面加载完成

            # 获取所有时间元素和考场编号元素
            time_elements = driver.find_elements(By.XPATH,
                                                 '//td[@class="ant-table-column-has-actions ant-table-column-has-sorters ant-table-column-sort"]')
            room_elements = driver.find_elements(By.XPATH,
                                                 '//td[@class="ant-table-column-has-actions ant-table-column-has-sorters ant-table-column-sort"]')

            # 遍历时间元素和考场编号元素
            for time_element, room_element in zip(time_elements, room_elements):
                # 提取时间和考场编号
                time_text = time_element.text.split('(')[0]
                room_number = room_element.text

                # 与表格数据对比
                for row in sheet.iter_rows(min_row=2, max_row=sheet.max_row, min_col=2, max_col=3):
                    k_value = row[0].value
                    h_value = row[1].value
                    if time_text == k_value and room_number == h_value:
                        # 创建子文件夹
                        sub_folder_name = time_text.replace(':', '-')
                        sub_folder_path = os.path.join(photo_folder, sub_folder_name)
                        if not os.path.exists(sub_folder_path):
                            os.mkdir(sub_folder_path)
                        room_folder_path = os.path.join(sub_folder_path, room_number)
                        if not os.path.exists(room_folder_path):
                            os.mkdir(room_folder_path)

                        # 查找照片元素并保存照片
                        photo_element = driver.find_element(By.XPATH, '//div[@class="img-lazy-load"]/img')
                        photo_url = photo_element.get_attribute('src')
                        photo_response = requests.get(photo_url)
                        photo_path = os.path.join(room_folder_path, f'{student_id}.jpg')
                        with open(photo_path, 'wb') as f:
                            f.write(photo_response.content)

该代码会从Excel表格中读取考生信息,并根据网页上的考场信息和时间信息,将考生照片保存到相应的文件夹中。

使用方法:

  1. 将代码中的文件路径和网页元素定位信息修改为您的实际情况。
  2. 运行代码,程序会自动打开浏览器并开始抓取照片。

注意事项:

  1. 确保您的Excel表格中包含考生信息,以及网页上的考场信息和时间信息。
  2. 代码中的网页元素定位信息可能需要根据实际情况进行调整。
  3. 运行代码之前,请确保已经安装了Selenium、Openpyxl和requests库。

代码说明:

  1. 代码首先检查是否已经存在浏览器实例,如果存在则不再创建。
  2. 然后代码打开浏览器并登录网页。
  3. 接着代码读取Excel表格中的考生信息,并根据考生信息在网页上搜索考生照片。
  4. 代码根据网页上的考场信息和时间信息,将考生照片保存到相应的文件夹中。

希望这份代码能够帮助您顺利完成自动化抓取考生照片的任务。如果您有任何问题,请随时向我提问。

Python自动化脚本:从网页抓取考生照片并按时间和考场编号分类保存

原文地址: https://www.cveoy.top/t/topic/fKHc 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录