Python Pandas: 将CSV文件按列值计数排名分类保存

使用Python的pandas库来根据大型CSV文件中第七列的计数排名，将指定排名的值存为一个文件，将剩余的值存为另一个文件的示例代码：

import pandas as pd

# 读取CSV文件
filename = r'path_to_your_file.csv'
df = pd.read_csv(filename)

# 统计第七列每个值的总计数
count = df.iloc[:, 6].value_counts().sort_values(ascending=False)

# 获取计数排名第3，第5，第12，第13的值
selected_values = count.iloc[[2, 4, 11, 12]].index.tolist()

# 按选定的值将行另存为新文件和剩余的值另存为另一个文件
selected_df = df[df.iloc[:, 6].isin(selected_values)]
remaining_df = df[~df.iloc[:, 6].isin(selected_values)]

selected_filename = r'path_to_selected_file.csv'
remaining_filename = r'path_to_remaining_file.csv'

selected_df.to_csv(selected_filename, index=False)
remaining_df.to_csv(remaining_filename, index=False)

在代码中，使用pd.read_csv函数读取CSV文件，并将数据存储在DataFrame对象df中。然后，使用iloc函数和索引号6来选择第七列的数据，通过value_counts函数统计每个值的总计数，并进行降序排序。

接下来，通过iloc函数和索引位置，选择计数排名第3，第5，第12，第13的值，并将其存储在selected_values中。index.tolist()将这些值转换为列表。

然后，使用isin函数和~操作符，筛选出第七列中与选定值匹配的行和不匹配的行，分别存储在selected_df和remaining_df中。

最后，使用to_csv函数将selected_df保存为一个文件（请将path_to_selected_file.csv替换为实际的文件路径），将remaining_df保存为另一个文件（请将path_to_remaining_file.csv替换为实际的文件路径）。

请注意，根据实际情况，需要将path_to_your_file.csv替换为实际的CSV文件路径。运行代码后，将会根据指定的排名值生成两个新文件，一个文件包含选定的值对应的行数据，另一个文件包含剩余的值对应的行数据。