Python Selenium 自动化抓取考后核验照片

import os
import time
import psutil
from selenium.webdriver.chrome.options import Options
from selenium import webdriver
from selenium.webdriver.common.by import By
import openpyxl
import requests

# 检查是否已经存在浏览器实例，如果存在则不再创建
for proc in psutil.process_iter():
    try:
        if 'chrome' in proc.name() and '--remote-debugging-port=9224' in proc.cmdline():
            options = Options()
            options.add_experimental_option('debuggerAddress', '127.0.0.1:9224')
            break
    except:
        pass
else:
    # 创建浏览器实例
    os.system(r'start chrome --remote-debugging-port=9224 --user-data-dir="D:\评阅用"')
    options = Options()
    options.add_experimental_option('debuggerAddress', '127.0.0.1:9224')

# 在已有的浏览器实例中查找标签页
driver = webdriver.Chrome(options=options)
tabs = driver.window_handles
for tab in tabs:
    driver.switch_to.window(tab)
    if driver.title == '考后核验':
        print('登陆成功')
        break

# 打开Excel表格
wb = openpyxl.load_workbook(r'C:\Users\Administrator\Desktop\考后核验.xlsx')
sheet = wb.active

# 创建照片文件夹
if not os.path.exists(r'C:\Users\Administrator\Desktop\照片'):
    os.mkdir(r'C:\Users\Administrator\Desktop\照片')

# 遍历时间单元K列
for row in sheet.iter_rows(min_row=2, max_row=sheet.max_row, min_col=11, max_col=11):
    for cell in row:
        # 获取时间单元内的数据
        data = cell.value
        if data:
            # 创建子文件夹
            folder_name = time.strftime('%Y-%m-%d %H-%M-%S', time.strptime(data, '%Y-%m-%d %H:%M:%S'))
            folder_path = os.path.join(r'C:\Users\Administrator\Desktop\照片', folder_name)
            if not os.path.exists(folder_path):
                os.mkdir(folder_path)

# 遍历表格内"A"列数据
for row in sheet.iter_rows(min_row=2, max_row=sheet.max_row, min_col=1, max_col=1):
    for cell in row:
        # 获取学号
        student_id = cell.value
        if student_id:
            # 在网页内查找考生信息
            search_input = driver.find_element(By.XPATH, '//input[@placeholder="姓名/考生号"]')
            search_input.clear()
            search_input.send_keys(student_id)
            time.sleep(1)  # 等待页面加载完成
            search_button = driver.find_element(By.XPATH, '//button[@class="ant-btn ant-btn-primary"]')
            driver.execute_script("arguments[0].click();", search_button)
            time.sleep(1)  # 等待页面加载完成

            # 获取所有时间单元元素
            time_elements = driver.find_elements(By.XPATH,
                                                 '//td[@class="ant-table-column-has-actions ant-table-column-has-sorters" and @style="text-align: center;"]')
            for time_element in time_elements:
                time_text = time_element.text
                # 与时间单元数据对比
                if time_text == data:
                    # 获取考场编号元素
                    exam_room_elements = driver.find_elements(By.XPATH,
                                                              '//td[@class="ant-table-column-has-actions ant-table-column-has-sorters" and @style="text-align: center;"]')
                    for exam_room_element in exam_room_elements:
                        exam_room_text = exam_room_element.text
                        # 与"H"列数据对比
                        if exam_room_text == sheet.cell(row=cell.row, column=8).value:
                            # 创建考场编号文件夹
                            exam_room_folder = os.path.join(folder_path, exam_room_text)
                            if not os.path.exists(exam_room_folder):
                                os.mkdir(exam_room_folder)

                            # 获取学号和姓名
                            student_info_elements = driver.find_elements(By.XPATH,
                                                                         '//td[@class="ant-table-column-has-actions ant-table-column-has-sorters" and @style="text-align: center;"]')
                            for i in range(len(student_info_elements)):
                                if i % 2 == 0:
                                    student_id_text = student_info_elements[i].text
                                else:
                                    student_name_text = student_info_elements[i].text
                                    # 提取学号和姓名的数字和文字部分
                                    student_id_num = ''.join(filter(str.isdigit, student_id_text))
                                    student_name = ''.join(filter(str.isalpha, student_name_text))
                                    # 照片名称
                                    photo_name = student_id_num + '_' + student_name + '.jpg'
                                    # 保存照片
                                    photo_path = os.path.join(exam_room_folder, photo_name)
                                    photo_element = driver.find_element(By.XPATH, '//img[@alt=""]')
                                    photo_src = photo_element.get_attribute('src')
                                    response = requests.get(photo_src)
                                    with open(photo_path, 'wb') as f:
                                        f.write(response.content)
                                    driver.back()
                                    time.sleep(1)  # 等待页面加载完成

该代码使用 Selenium 自动化浏览器，从考后核验网站抓取考生照片。它根据 Excel 表格中存储的考场和时间信息，自动创建文件夹并保存对应考场的考生照片。

代码说明：

首先检查是否存在已打开的 Chrome 浏览器实例，如果有，则直接连接到该实例，否则启动一个新的 Chrome 浏览器实例并设置调试端口。
然后打开 Excel 表格，读取时间信息和考生学号信息。
根据时间信息创建文件夹，并遍历所有考生学号信息，在网页中查找对应考生，抓取照片，并保存到对应的文件夹。

注意事项：

请确保已安装必要的 Python 库，包括 selenium, openpyxl, psutil 和 requests。
代码中的 Excel 表格路径和照片保存路径需要根据实际情况进行修改。
考后核验网站的页面结构可能会发生变化，需要根据实际情况修改 XPath 选择器。
在执行代码之前，请确保您已经获得了网站的访问权限。

代码改进：

添加异常处理机制，以防止代码因错误而停止。
使用更稳定的网页元素定位方式，以确保代码能够正常运行。
优化代码结构，使其更易于阅读和维护。

代码示例：

# 代码示例
import os
import time
import psutil
from selenium.webdriver.chrome.options import Options
from selenium import webdriver
from selenium.webdriver.common.by import By
import openpyxl
import requests

# ... (其他代码相同)

# 遍历表格内"A"列数据
for row in sheet.iter_rows(min_row=2, max_row=sheet.max_row, min_col=1, max_col=1):
    for cell in row:
        # 获取学号
        student_id = cell.value
        if student_id:
            # ... (其他代码相同)

            # 获取所有时间单元元素
            time_elements = driver.find_elements(By.XPATH,
                                                 '//td[@class="ant-table-column-has-actions ant-table-column-has-sorters" and @style="text-align: center;"]')
            for time_element in time_elements:
                time_text = time_element.text
                # 与时间单元数据对比
                if time_text == data:
                    # ... (其他代码相同)

                    # 获取学号和姓名
                    student_info_elements = driver.find_elements(By.XPATH,
                                                                     '//td[@class="ant-table-column-has-actions ant-table-column-has-sorters" and @style="text-align: center;"]')
                    for i in range(len(student_info_elements)):
                        if i % 2 == 0:
                            student_id_text = student_info_elements[i].text
                        else:
                            student_name_text = student_info_elements[i].text
                            # 提取学号和姓名的数字和文字部分
                            student_id_num = ''.join(filter(str.isdigit, student_id_text))
                            student_name = ''.join(filter(str.isalpha, student_name_text))
                            # 照片名称
                            photo_name = student_id_num + '_' + student_name + '.jpg'
                            # 保存照片
                            photo_path = os.path.join(exam_room_folder, photo_name)
                            try:
                                photo_element = driver.find_element(By.XPATH, '//img[@alt=""]')
                                photo_src = photo_element.get_attribute('src')
                                response = requests.get(photo_src)
                                with open(photo_path, 'wb') as f:
                                    f.write(response.content)
                                driver.back()
                                time.sleep(1)  # 等待页面加载完成
                            except Exception as e:
                                print(f'保存照片失败: {e}')

希望以上代码和说明能够帮助您完成考后核验照片的抓取工作。