要合并Parquet文件,可以使用Python的pyarrow库。以下是一个简单的示例代码,演示了如何使用pyarrow合并多个Parquet文件:

import pyarrow.parquet as pq
import os

# 指定要合并的Parquet文件所在的文件夹路径
folder_path = '/path/to/parquet/files/'

# 获取文件夹中的所有Parquet文件名
file_names = [f for f in os.listdir(folder_path) if f.endswith('.parquet')]

# 创建一个空的Parquet写入器
writer = None

# 遍历所有Parquet文件
for file_name in file_names:
    # 构建每个文件的完整路径
    file_path = os.path.join(folder_path, file_name)
    
    # 打开Parquet文件
    table = pq.read_table(file_path)
    
    # 如果是第一个文件,创建一个新的Parquet写入器
    if writer is None:
        writer = pq.ParquetWriter('/path/to/output/merged.parquet', table.schema)
    
    # 将当前文件的数据追加到写入器中
    writer.write_table(table)

# 关闭写入器
writer.close()

请注意,上述代码假设要合并的Parquet文件都具有相同的模式(即列名和数据类型相同)。如果文件的模式不同,可能需要进行模式转换或调整。

python parq文件合并

原文地址: https://www.cveoy.top/t/topic/iR69 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录