使用Python的pandas库来根据大型CSV文件中第七列的计数排名,将指定排名的值存为一个文件,将剩余的值存为另一个文件的示例代码:

import pandas as pd

# 读取CSV文件
filename = r'path_to_your_file.csv'
df = pd.read_csv(filename)

# 统计第七列每个值的总计数
count = df.iloc[:, 6].value_counts().sort_values(ascending=False)

# 获取计数排名第3,第5,第12,第13的值
selected_values = count.iloc[[2, 4, 11, 12]].index.tolist()

# 按选定的值将行另存为新文件和剩余的值另存为另一个文件
selected_df = df[df.iloc[:, 6].isin(selected_values)]
remaining_df = df[~df.iloc[:, 6].isin(selected_values)]

selected_filename = r'path_to_selected_file.csv'
remaining_filename = r'path_to_remaining_file.csv'

selected_df.to_csv(selected_filename, index=False)
remaining_df.to_csv(remaining_filename, index=False)

在代码中,使用pd.read_csv函数读取CSV文件,并将数据存储在DataFrame对象df中。然后,使用iloc函数和索引号6来选择第七列的数据,通过value_counts函数统计每个值的总计数,并进行降序排序。

接下来,通过iloc函数和索引位置,选择计数排名第3,第5,第12,第13的值,并将其存储在selected_values中。index.tolist()将这些值转换为列表。

然后,使用isin函数和~操作符,筛选出第七列中与选定值匹配的行和不匹配的行,分别存储在selected_dfremaining_df中。

最后,使用to_csv函数将selected_df保存为一个文件(请将path_to_selected_file.csv替换为实际的文件路径),将remaining_df保存为另一个文件(请将path_to_remaining_file.csv替换为实际的文件路径)。

请注意,根据实际情况,需要将path_to_your_file.csv替换为实际的CSV文件路径。运行代码后,将会根据指定的排名值生成两个新文件,一个文件包含选定的值对应的行数据,另一个文件包含剩余的值对应的行数据。

Python Pandas: 将CSV文件按列值计数排名分类保存

原文地址: https://www.cveoy.top/t/topic/NnX 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录