Python Pandas & NumPy: 查找数据框列中的最频繁值

使用 Pandas 和 NumPy 查找数据框列中的最频繁值

本教程演示如何使用 Python 的 Pandas 和 NumPy 库找到数据框第一列和第二列中出现频率最高的数字。

步骤 1：导入必要的库

首先，导入 Pandas 和 NumPy 库：

import pandas as pd
import numpy as np

步骤 2：加载数据

接下来，将数据加载到 Pandas 数据框中。为本例假设您有一个名为 'data.csv' 的 CSV 文件。

data = pd.read_csv('data.csv')
df = pd.DataFrame(data)

步骤 3：使用 value_counts() 和 idxmax() 计算最频繁值

要查找最频繁的值，请对每列使用 value_counts() 方法，然后使用 idxmax() 方法获取出现次数最多的值。

col1_freq = df.iloc[:, 0].value_counts().idxmax()
col2_freq = df.iloc[:, 1].value_counts().idxmax()

步骤 4：打印结果

最后，打印结果：

print('第一列中最频繁的数字是：', col1_freq)
print('第二列中最频繁的数字是：', col2_freq)

完整代码：

import pandas as pd
import numpy as np

data = pd.read_csv('data.csv')
df = pd.DataFrame(data)

col1_freq = df.iloc[:, 0].value_counts().idxmax()
col2_freq = df.iloc[:, 1].value_counts().idxmax()

print('第一列中最频繁的数字是：', col1_freq)
print('第二列中最频繁的数字是：', col2_freq)

此代码将输出数据框第一列和第二列中最频繁出现的数字。

注意： 此代码假设您的数据采用 CSV 格式。如果您的数据采用其他格式，则需要使用适当的 Pandas 读取函数将其加载到数据框中。例如，如果您的数据采用 Excel 格式，则需要使用 pd.read_excel() 函数。