pd.get_dummies() 函数是 pandas 库中的一个函数,用于将分类变量转换为虚拟变量(也称为哑变量)。它将输入的 DataFrame 或 Series 中的分类变量进行编码,生成一个新的 DataFrame,其中每个分类变量都被拆分为多个二进制变量,表示原始变量的不同取值。\n\n该函数的用法如下:\npython\npd.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)\n\n参数说明:\n- data:输入的 DataFrame 或 Series。\n- prefix:生成的虚拟变量的列名前缀。\n- prefix_sep:前缀与原始变量名之间的分隔符。\n- dummy_na:是否为 NaN 值生成一个虚拟变量列。\n- columns:指定需要进行编码的列名,如果为 None,则默认对所有的分类变量进行编码。\n- sparse:是否使用稀疏矩阵表示结果。\n- drop_first:是否删除每个分类变量的第一个水平,以避免多重共线性问题。\n- dtype:生成的虚拟变量的数据类型。\n\n返回值:\n一个新的 DataFrame,其中包含原始数据中的分类变量的虚拟变量编码。\n\n示例:\npython\nimport pandas as pd\n\ndata = pd.DataFrame({'color': ['red', 'blue', 'green', 'red', 'blue'],\n 'size': ['small', 'large', 'medium', 'medium', 'small']})\n\ndummies = pd.get_dummies(data)\n\nprint(dummies)\n\n输出:\n\n color_blue color_green color_red size_large size_medium size_small\n0 0 0 1 0 0 1\n1 1 0 0 1 0 0\n2 0 1 0 0 1 0\n3 0 0 1 0 1 0\n4 1 0 0 0 0 1\n\n这个示例中,原始数据中的两个分类变量'color'和'size'被编码为虚拟变量,并生成了一个新的 DataFrame。每个分类变量的每个不同取值都被拆分为一个二进制变量,表示该变量是否具有该取值。

Pandas get_dummies() 函数:将分类变量转换为虚拟变量

原文地址: https://www.cveoy.top/t/topic/pe8h 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录