假设有一个数据集,其中包含一个名为'颜色'的列,该列记录了一些物品的颜色,可能的取值为'红色'、'蓝色'和'绿色'。我们想要将这个'颜色'列转换为哑变量,以便在后续分析中使用。

首先,我们可以使用 pandas 的get_dummies()函数来创建哑变量。具体的例子如下:

import pandas as pd

# 创建一个示例数据集
data = {'物品': ['A', 'B', 'C', 'D'],
        '颜色': ['红色', '蓝色', '绿色', '红色']}
df = pd.DataFrame(data)

# 使用get_dummies()函数创建哑变量
dummy_df = pd.get_dummies(df['颜色'])

# 将哑变量列与原始数据集合并
df = pd.concat([df, dummy_df], axis=1)

print(df)

输出结果为:

  物品 颜色  绿色  红色  蓝色
0  A  红色   0   1   0
1  B  蓝色   0   0   1
2  C  绿色   1   0   0
3  D  红色   0   1   0

在上述例子中,我们使用get_dummies()函数将'颜色'列转换为哑变量。转换后,原始的'颜色'列被替换为了三个新的列:'绿色'、'红色'和'蓝色'。这些新列的取值为0或1,表示了每个物品的颜色情况。


原文地址: https://www.cveoy.top/t/topic/fvyE 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录