数据预处理：3个常用的 Python 函数及使用方法

pandas.DataFrame.dropna(): \u8fd9\u4e2a\u51fd\u6570\u7528\u4e8e\u5220\u9664DataFrame\u4e2d\u5305\u542b\u7f3a\u5931\u503c\u7684\u884c\u6216\u5217\u3002\u4f7f\u7528\u65b9\u6cd5\u662f\u5728DataFrame\u4e0a\u8c03\u7528\u8be5\u51fd\u6570\u5e76\u8f93\u5165\u53c2\u6570axis\uff0c\u6307\u5b9a\u8981\u5220\u9664\u7684\u8f74\uff080\u8868\u793a\u884c\uff0c1\u8868\u793a\u5217\uff09\u3002\n\n\u793a\u4f8b\u4ee3\u7801\uff1a\nimport pandas as pd\ndata = {'A': [1, 2, None, 4],\n 'B': [5, None, 7, 8]}\ndf = pd.DataFrame(data)\n\n# \u5220\u9664\u5305\u542b\u7f3a\u5931\u503c\u7684\u884c\ndf.dropna(axis=0, inplace=True)\n\nprint(df)\n\n\u8f93\u51fa\u7ed3\u679c\uff1a\n\n A B\n0 1 5.0\n\n\n2. pandas.DataFrame.fillna(): \u8fd9\u4e2a\u51fd\u6570\u7528\u4e8e\u586b\u5145DataFrame\u4e2d\u7684\u7f3a\u5931\u503c\u3002\u4f7f\u7528\u65b9\u6cd5\u662f\u5728DataFrame\u4e0a\u8c03\u7528\u8be5\u51fd\u6570\u5e76\u8f93\u5165\u53c2\u6570value\uff0c\u6307\u5b9a\u8981\u586b\u5145\u7684\u503c\u3002\n\n\u793a\u4f8b\u4ee3\u7801\uff1a\nimport pandas as pd\nimport numpy as np\n\ndata = {'A': [1, 2, None, 4],\n 'B': [5, None, 7, 8]}\ndf = pd.DataFrame(data)\n\n# \u7528\u5e73\u5747\u503c\u586b\u5145\u7f3a\u5931\u503c\nmean_value = df['A'].mean()\ndf['A'].fillna(mean_value, inplace=True)\n\nprint(df)\n\n\u8f93\u51fa\u7ed3\u679c\uff1a\n\n A B\n0 1.0 5.0\n1 2.0 NaN\n2 2.333333 7.0\n3 4.0 8.0\n\n\n3. sklearn.preprocessing.StandardScaler(): \u8fd9\u4e2a\u51fd\u6570\u7528\u4e8e\u5c06\u6570\u636e\u8fdb\u884c\u6807\u51c6\u5316\u5904\u7406\uff0c\u5c31\u662f\u5c06\u6570\u636e\u6309\u7167\u5e73\u5747\u503c\u4e3a0\uff0c\u6807\u51c6\u5dee\u4e3a1\u8fdb\u884c\u7f29\u653e\u3002\u4f7f\u7528\u65b9\u6cd5\u662f\u521b\u5efa\u4e00\u4e2aStandardScaler\u5bf9\u8c61\uff0c\u5e76\u8c03\u7528\u5176fit_transform()\u65b9\u6cd5\u5bf9\u6570\u636e\u8fdb\u884c\u6807\u51c6\u5316\u5904\u7406\u3002\n\n\u793a\u4f8b\u4ee3\u7801\uff1a\nfrom sklearn.preprocessing import StandardScaler\nimport numpy as np\n\ndata = np.array([[1, 2],\n [3, 4],\n [5, 6]])\n\nscaler = StandardScaler()\nscaled_data = scaler.fit_transform(data)\n\nprint(scaled_data)\n\n\u8f93\u51fa\u7ed3\u679c\uff1a\n\n[[-1.22474487 -1.22474487]\n [ 0. 0. ]\n [ 1.22474487 1.22474487]]\n\n\u8fd9\u6837\uff0c\u6570\u636e\u4e2d\u7684\u6bcf\u4e2a\u7279\u5f81\u90fd\u88ab\u7f29\u653e\u6210\u4e86\u5e73\u5747\u503c\u4e3a0\uff0c\u6807\u51c6\u5dee\u4e3a1\u7684\u6570\u636e\u3002