pandas 分段读取csv文件

Pandas提供了一种分段读取CSV文件的方法，可以一次读取文件的一部分数据，然后再读取下一部分数据，以此类推。这种方法可以在处理大型CSV文件时提高效率。

下面是一个示例代码，演示了如何使用Pandas分段读取CSV文件：

import pandas as pd

# 设置每次读取的行数
chunk_size = 1000

# 创建一个CSV文件迭代器
csv_iterator = pd.read_csv('data.csv', chunksize=chunk_size)

# 遍历迭代器，逐个读取分段数据
for chunk in csv_iterator:
    # 在这里对分段数据进行处理
    # 例如，可以使用chunk进行数据清洗、转换等操作
    # ...

    # 打印分段数据的摘要信息
    print(chunk.describe())

    # 可以将处理后的数据保存到新的CSV文件中
    # chunk.to_csv('processed_data.csv', mode='a', header=False)

    # 可以将处理后的数据插入到数据库中
    # chunk.to_sql('table_name', connection, if_exists='append')

在上面的示例代码中，首先设置了每次读取的行数为1000（可以根据实际情况进行调整）。然后使用pd.read_csv()函数创建了一个CSV文件迭代器，该迭代器会按照指定的行数分段读取CSV文件。接下来，通过遍历迭代器，可以逐个读取分段数据，并在循环中对数据进行处理。在示例代码中，使用describe()方法打印了每个分段数据的摘要信息，你可以根据需要进行其他处理操作。最后，可以将处理后的数据保存到新的CSV文件中，或者插入到数据库中。

请注意，在处理大型CSV文件时，建议使用适当的内存优化技巧，例如选择合适的数据类型、使用迭代器进行分段读取等，以避免内存溢出的问题。