Python Pandas: 统计 Excel 列数据频次并筛选大于指定阈值的记录
使用 Python Pandas 库,您可以轻松地统计 Excel 文件中指定列的每个元素出现的频次,并筛选出频次大于指定阈值的数据内容。
示例代码:
import pandas as pd
# 读取 Excel 文件
df = pd.read_excel('Excel1.xlsx')
# 统计 B 列每个元素的频次
counts = df['B'].value_counts()
# 筛选出频次大于 10 的数据
filtered_data = df[df['B'].isin(counts[counts > 10].index)]
# 打印结果
print(filtered_data)
说明:
pd.read_excel('Excel1.xlsx'): 读取名为 'Excel1.xlsx' 的 Excel 文件。请将 'Excel1.xlsx' 替换为您的实际 Excel 文件路径。df['B'].value_counts(): 统计列 'B' 中每个元素出现的频次,并返回一个 Series 对象,索引为元素值,值为频次。df[df['B'].isin(counts[counts > 10].index)]: 筛选出列 'B' 中元素的频次大于 10 的数据,isin()函数用于检查列 'B' 中的值是否包含在counts[counts > 10].index中。
注意: 上述代码中的 'Excel1.xlsx' 需要替换为实际的 Excel 文件路径。
其他可选操作:
- 您可以将阈值 10 更改为其他数值,以筛选不同的频次数据。
- 您可以使用其他列名来进行统计和筛选。
- 您可以使用
to_csv()等方法将筛选后的数据保存到新的文件。
原文地址: https://www.cveoy.top/t/topic/mFyc 著作权归作者所有。请勿转载和采集!