使用 Python Pandas 库,您可以轻松地统计 Excel 文件中指定列的每个元素出现的频次,并筛选出频次大于指定阈值的数据内容。

示例代码:

import pandas as pd

# 读取 Excel 文件
df = pd.read_excel('Excel1.xlsx')

# 统计 B 列每个元素的频次
counts = df['B'].value_counts()

# 筛选出频次大于 10 的数据
filtered_data = df[df['B'].isin(counts[counts > 10].index)]

# 打印结果
print(filtered_data)

说明:

  1. pd.read_excel('Excel1.xlsx'): 读取名为 'Excel1.xlsx' 的 Excel 文件。请将 'Excel1.xlsx' 替换为您的实际 Excel 文件路径。
  2. df['B'].value_counts(): 统计列 'B' 中每个元素出现的频次,并返回一个 Series 对象,索引为元素值,值为频次。
  3. df[df['B'].isin(counts[counts > 10].index)]: 筛选出列 'B' 中元素的频次大于 10 的数据,isin() 函数用于检查列 'B' 中的值是否包含在 counts[counts > 10].index 中。

注意: 上述代码中的 'Excel1.xlsx' 需要替换为实际的 Excel 文件路径。

其他可选操作:

  • 您可以将阈值 10 更改为其他数值,以筛选不同的频次数据。
  • 您可以使用其他列名来进行统计和筛选。
  • 您可以使用 to_csv() 等方法将筛选后的数据保存到新的文件。
Python Pandas: 统计 Excel 列数据频次并筛选大于指定阈值的记录

原文地址: https://www.cveoy.top/t/topic/mFyc 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录