Python Pandas: 统计 Excel 列数据频次并筛选大于指定阈值的记录

使用 Python Pandas 库，您可以轻松地统计 Excel 文件中指定列的每个元素出现的频次，并筛选出频次大于指定阈值的数据内容。

示例代码:

import pandas as pd

# 读取 Excel 文件
df = pd.read_excel('Excel1.xlsx')

# 统计 B 列每个元素的频次
counts = df['B'].value_counts()

# 筛选出频次大于 10 的数据
filtered_data = df[df['B'].isin(counts[counts > 10].index)]

# 打印结果
print(filtered_data)

说明:

pd.read_excel('Excel1.xlsx'): 读取名为 'Excel1.xlsx' 的 Excel 文件。请将 'Excel1.xlsx' 替换为您的实际 Excel 文件路径。
df['B'].value_counts(): 统计列 'B' 中每个元素出现的频次，并返回一个 Series 对象，索引为元素值，值为频次。
df[df['B'].isin(counts[counts > 10].index)]: 筛选出列 'B' 中元素的频次大于 10 的数据，isin() 函数用于检查列 'B' 中的值是否包含在 counts[counts > 10].index 中。

注意: 上述代码中的 'Excel1.xlsx' 需要替换为实际的 Excel 文件路径。

其他可选操作:

您可以将阈值 10 更改为其他数值，以筛选不同的频次数据。
您可以使用其他列名来进行统计和筛选。
您可以使用 to_csv() 等方法将筛选后的数据保存到新的文件。

Python Pandas: 统计 Excel 列数据频次并筛选大于指定阈值的记录