Pandas 哑变量:使用 get_dummies() 函数将类别特征转换为数值
假设有一个数据集,其中包含一个名为'颜色'的列,该列记录了一些物品的颜色,可能的取值为'红色'、'蓝色'和'绿色'。我们想要将这个'颜色'列转换为哑变量,以便在后续分析中使用。
首先,我们可以使用 pandas 的get_dummies()函数来创建哑变量。具体的例子如下:
import pandas as pd
# 创建一个示例数据集
data = {'物品': ['A', 'B', 'C', 'D'],
'颜色': ['红色', '蓝色', '绿色', '红色']}
df = pd.DataFrame(data)
# 使用get_dummies()函数创建哑变量
dummy_df = pd.get_dummies(df['颜色'])
# 将哑变量列与原始数据集合并
df = pd.concat([df, dummy_df], axis=1)
print(df)
输出结果为:
物品 颜色 绿色 红色 蓝色
0 A 红色 0 1 0
1 B 蓝色 0 0 1
2 C 绿色 1 0 0
3 D 红色 0 1 0
在上述例子中,我们使用get_dummies()函数将'颜色'列转换为哑变量。转换后,原始的'颜色'列被替换为了三个新的列:'绿色'、'红色'和'蓝色'。这些新列的取值为0或1,表示了每个物品的颜色情况。
原文地址: https://www.cveoy.top/t/topic/fvyE 著作权归作者所有。请勿转载和采集!