Python 自动提取多个 Excel 表格数据 - 详细代码示例
以下是一个简单的 Python 脚本,用于提取多个 Excel 表格中的数据。该脚本使用 pandas 库来读取和处理 Excel 文件,使用 os 库来遍历目录和文件,并使用 xlrd 库来处理 Excel 文件中的日期数据。
import pandas as pd
import os
import xlrd
# 定义要提取的数据字段
fields = ['日期', '销售额', '利润']
# 定义文件夹路径和文件名模板
folder_path = 'excel_files'
file_name_template = 'sales_data_{}.xlsx'
# 遍历文件夹中的所有文件
for file_name in os.listdir(folder_path):
# 如果文件名符合模板
if file_name_template.format('') in file_name:
# 读取 Excel 文件
file_path = os.path.join(folder_path, file_name)
df = pd.read_excel(file_path)
# 提取数据字段
df = df[fields]
# 处理日期数据
df['日期'] = pd.to_datetime(df['日期'], format='%Y-%m-%d')
df['年份'] = df['日期'].dt.year
df['月份'] = df['日期'].dt.month
# 显示结果
print(file_name)
print(df.head())
该脚本假设所有 Excel 文件都位于名为 'excel_files' 的文件夹中,并且文件名符合名为 'sales_data_{}.xlsx' 的模板,其中 '{}' 表示每个文件的唯一标识符。脚本遍历文件夹中的所有符合模板的文件,并读取其中的数据。脚本还定义了要提取的数据字段(日期、销售额和利润),并使用 pandas 库来提取这些字段。脚本还使用 xlrd 库来处理 Excel 文件中的日期数据,将其转换为 pandas 日期数据类型。最后,脚本打印每个文件的结果。
原文地址: https://www.cveoy.top/t/topic/mFDL 著作权归作者所有。请勿转载和采集!