Python 大文件高效处理:批量读取、处理、写入
可以使用Python中的open()函数来打开输入和输出文件。然后,你可以使用readlines()方法批量读取输入文件的内容,并对每一行进行处理。处理完毕后,将结果批量写入输出文件中。
下面是一个示例代码:
def process_data(input_file, output_file):
with open(input_file, 'r') as f_in, open(output_file, 'w') as f_out:
batch_size = 1000 # 每次读取的行数
lines = f_in.readlines(batch_size)
while lines:
processed_lines = []
for line in lines:
# 数据处理逻辑,这里以将每一行的内容转换成大写为例
processed_line = '|' .join(line.strip().upper().split('|' ))
processed_lines.append(processed_line)
f_out.write('
' .join(processed_lines) + '
' )
lines = f_in.readlines(batch_size)
# 调用示例
input_file = 'input.txt'
output_file = 'output.txt'
process_data(input_file, output_file)
在上面的示例中,process_data()函数接受输入文件路径和输出文件路径作为参数。它使用with语句来打开输入和输出文件,并使用readlines()方法一次性读取指定行数的内容。然后,它遍历每一行进行处理,并将处理后的结果存储在processed_lines列表中。最后,将处理后的结果使用join()方法连接成字符串,并写入输出文件。
你可以根据具体的数据处理逻辑修改process_data()函数中的代码。
原文地址: https://www.cveoy.top/t/topic/mNZQ 著作权归作者所有。请勿转载和采集!