波士顿房价数据分析与处理:Python代码实现和可视化
#\ 导入库\nimport\ pandas\ as\ pd\nimport\ numpy\ as\ np\nimport\ matplotlib.pyplot\ as\ plt\nimport\ seaborn\ as\ sns\n#\ 读取数据\ndata\ =\ pd.read_csv('boston_house_prices.csv')\n#\ 数据分析\nprint('数据集的每一列数据的分析结果:')\nprint('CRIM:')\nprint('最大值:',\ data['CRIM'].max())\nprint('最小值:',\ data['CRIM'].min())\nprint('缺失值:',\ data['CRIM'].isnull().sum())\nprint('平均值:',\ data['CRIM'].mean())\nprint('方差:',\ data['CRIM'].var())\nprint('四分位数:',\ data['CRIM'].quantile([0.25,\ 0.5,\ 0.75]))\nprint('ZN:')\nprint('最大值:',\ data['ZN'].max())\nprint('最小值:',\ data['ZN'].min())\nprint('缺失值:',\ data['ZN'].isnull().sum())\nprint('平均值:',\ data['ZN'].mean())\nprint('方差:',\ data['ZN'].var())\nprint('四分位数:',\ data['ZN'].quantile([0.25,\ 0.5,\ 0.75]))\nprint('INDUS:')\nprint('最大值:',\ data['INDUS'].max())\nprint('最小值:',\ data['INDUS'].min())\nprint('缺失值:',\ data['INDUS'].isnull().sum())\nprint('平均值:',\ data['INDUS'].mean())\nprint('方差:',\ data['INDUS'].var())\nprint('四分位数:',\ data['INDUS'].quantile([0.25,\ 0.5,\ 0.75]))\nprint('CHAS:')\nprint('最大值:',\ data['CHAS'].max())\nprint('最小值:',\ data['CHAS'].min())\nprint('缺失值:',\ data['CHAS'].isnull().sum())\nprint('平均值:',\ data['CHAS'].mean())\nprint('方差:',\ data['CHAS'].var())\nprint('四分位数:',\ data['CHAS'].quantile([0.25,\ 0.5,\ 0.75]))\nprint('NOX:')\nprint('最大值:',\ data['NOX'].max())\nprint('最小值:',\ data['NOX'].min())\nprint('缺失值:',\ data['NOX'].isnull().sum())\nprint('平均值:',\ data['NOX'].mean())\nprint('方差:',\ data['NOX'].var())\nprint('四分位数:',\ data['NOX'].quantile([0.25,\ 0.5,\ 0.75]))\nprint('RM:')\nprint('最大值:',\ data['RM'].max())\nprint('最小值:',\ data['RM'].min())\nprint('缺失值:',\ data['RM'].isnull().sum())\nprint('平均值:',\ data['RM'].mean())\nprint('方差:',\ data['RM'].var())\nprint('四分位数:',\ data['RM'].quantile([0.25,\ 0.5,\ 0.75]))\nprint('AGE:')\nprint('最大值:',\ data['AGE'].max())\nprint('最小值:',\ data['AGE'].min())\nprint('缺失值:',\ data['AGE'].isnull().sum())\nprint('平均值:',\ data['AGE'].mean())\nprint('方差:',\ data['AGE'].var())\nprint('四分位数:',\ data['AGE'].quantile([0.25,\ 0.5,\ 0.75]))\nprint('DIS:')\nprint('最大值:',\ data['DIS'].max())\nprint('最小值:',\ data['DIS'].min())\nprint('缺失值:',\ data['DIS'].isnull().sum())\nprint('平均值:',\ data['DIS'].mean())\nprint('方差:',\ data['DIS'].var())\nprint('四分位数:',\ data['DIS'].quantile([0.25,\ 0.5,\ 0.75]))\nprint('RAD:')\nprint('最大值:',\ data['RAD'].max())\nprint('最小值:',\ data['RAD'].min())\nprint('缺失值:',\ data['RAD'].isnull().sum())\nprint('平均值:',\ data['RAD'].mean())\nprint('方差:',\ data['RAD'].var())\nprint('四分位数:',\ data['RAD'].quantile([0.25,\ 0.5,\ 0.75]))\nprint('TAX:')\nprint('最大值:',\ data['TAX'].max())\nprint('最小值:',\ data['TAX'].min())\nprint('缺失值:',\ data['TAX'].isnull().sum())\nprint('平均值:',\ data['TAX'].mean())\nprint('方差:',\ data['TAX'].var())\nprint('四分位数:',\ data['TAX'].quantile([0.25,\ 0.5,\ 0.75]))\nprint('PTRATIO:')\nprint('最大值:',\ data['PTRATIO'].max())\nprint('最小值:',\ data['PTRATIO'].min())\nprint('缺失值:',\ data['PTRATIO'].isnull().sum())\nprint('平均值:',\ data['PTRATIO'].mean())\nprint('方差:',\ data['PTRATIO'].var())\nprint('四分位数:',\ data['PTRATIO'].quantile([0.25,\ 0.5,\ 0.75]))\nprint('B:')\nprint('最大值:',\ data['B'].max())\nprint('最小值:',\ data['B'].min())\nprint('缺失值:',\ data['B'].isnull().sum())\nprint('平均值:',\ data['B'].mean())\nprint('方差:',\ data['B'].var())\nprint('四分位数:',\ data['B'].quantile([0.25,\ 0.5,\ 0.75]))\nprint('LSTAT:')\nprint('最大值:',\ data['LSTAT'].max())\nprint('最小值:',\ data['LSTAT'].min())\nprint('缺失值:',\ data['LSTAT'].isnull().sum())\nprint('平均值:',\ data['LSTAT'].mean())\nprint('方差:',\ data['LSTAT'].var())\nprint('四分位数:',\ data['LSTAT'].quantile([0.25,\ 0.5,\ 0.75]))\nprint('MEDV:')\nprint('最大值:',\ data['MEDV'].max())\nprint('最小值:',\ data['MEDV'].min())\nprint('缺失值:',\ data['MEDV'].isnull().sum())\nprint('平均值:',\ data['MEDV'].mean())\nprint('方差:',\ data['MEDV'].var())\nprint('四分位数:',\ data['MEDV'].quantile([0.25,\ 0.5,\ 0.75]))\n#\ 新建RM_TAX列\ndata['RM_TAX'] =\ data.apply(lambda\ x:\ x['RM'] *\ x['TAX'],\ axis=\1)\n#\ 保存为csv文件\ndata.to_csv('boston_house_prices_new.csv',\ index=\False)\n#\ 数据可视化\nsns.pairplot(data,\ x_vars=['CRIM',\ 'ZN',\ 'INDUS',\ 'CHAS',\ 'NOX'],\ y_vars=['MEDV'])\nsns.pairplot(data,\ x_vars=['RM',\ 'AGE',\ 'DIS',\ 'RAD',\ 'TAX'],\ y_vars=['MEDV'])\nsns.pairplot(data,\ x_vars=['PTRATIO',\ 'B',\ 'LSTAT'],\ y_vars=['MEDV'])\n#\ 结果截图保存\nplt.savefig('data_analysis.png')\n\nprint('数据分析与处理结束!')
原文地址: https://www.cveoy.top/t/topic/oCHx 著作权归作者所有。请勿转载和采集!