python parq文件合并
要合并Parquet文件,可以使用Python的pyarrow库。以下是一个简单的示例代码,演示了如何使用pyarrow合并多个Parquet文件:
import pyarrow.parquet as pq
import os
# 指定要合并的Parquet文件所在的文件夹路径
folder_path = '/path/to/parquet/files/'
# 获取文件夹中的所有Parquet文件名
file_names = [f for f in os.listdir(folder_path) if f.endswith('.parquet')]
# 创建一个空的Parquet写入器
writer = None
# 遍历所有Parquet文件
for file_name in file_names:
# 构建每个文件的完整路径
file_path = os.path.join(folder_path, file_name)
# 打开Parquet文件
table = pq.read_table(file_path)
# 如果是第一个文件,创建一个新的Parquet写入器
if writer is None:
writer = pq.ParquetWriter('/path/to/output/merged.parquet', table.schema)
# 将当前文件的数据追加到写入器中
writer.write_table(table)
# 关闭写入器
writer.close()
请注意,上述代码假设要合并的Parquet文件都具有相同的模式(即列名和数据类型相同)。如果文件的模式不同,可能需要进行模式转换或调整。
原文地址: https://www.cveoy.top/t/topic/iR69 著作权归作者所有。请勿转载和采集!