Python Pandas & NumPy: 查找数据框列中的最频繁值
使用 Pandas 和 NumPy 查找数据框列中的最频繁值
本教程演示如何使用 Python 的 Pandas 和 NumPy 库找到数据框第一列和第二列中出现频率最高的数字。
步骤 1:导入必要的库
首先,导入 Pandas 和 NumPy 库:
import pandas as pd
import numpy as np
步骤 2:加载数据
接下来,将数据加载到 Pandas 数据框中。为本例假设您有一个名为 'data.csv' 的 CSV 文件。
data = pd.read_csv('data.csv')
df = pd.DataFrame(data)
步骤 3:使用 value_counts() 和 idxmax() 计算最频繁值
要查找最频繁的值,请对每列使用 value_counts() 方法,然后使用 idxmax() 方法获取出现次数最多的值。
col1_freq = df.iloc[:, 0].value_counts().idxmax()
col2_freq = df.iloc[:, 1].value_counts().idxmax()
步骤 4:打印结果
最后,打印结果:
print('第一列中最频繁的数字是:', col1_freq)
print('第二列中最频繁的数字是:', col2_freq)
完整代码:
import pandas as pd
import numpy as np
data = pd.read_csv('data.csv')
df = pd.DataFrame(data)
col1_freq = df.iloc[:, 0].value_counts().idxmax()
col2_freq = df.iloc[:, 1].value_counts().idxmax()
print('第一列中最频繁的数字是:', col1_freq)
print('第二列中最频繁的数字是:', col2_freq)
此代码将输出数据框第一列和第二列中最频繁出现的数字。
注意: 此代码假设您的数据采用 CSV 格式。如果您的数据采用其他格式,则需要使用适当的 Pandas 读取函数将其加载到数据框中。例如,如果您的数据采用 Excel 格式,则需要使用 pd.read_excel() 函数。
原文地址: https://www.cveoy.top/t/topic/fjTz 著作权归作者所有。请勿转载和采集!