城镇居民消费水平通常用8项指标来描述:人均粮食支出 x1(元/人),人均副食支出 x2(元/人),人均烟、酒、茶支出 x3(元/人),人均其他副食支出 x4(元/人),人均衣着商品支出 x5(元/人),人均日用品支出 x6(元/人),人均燃料支出 x7(元/人),人均非商品支出 x8(元/人)。这8项指标间存在着一定的相关性。为了研究城镇居民的消费结构,需要将相关性强的指标归并到一起,并可视化内容:数据。

以下是一份城镇居民消费水平的数据集,使用R语言进行相关性分析和可视化。

# 导入数据
data <- read.csv('consumption.csv', header = TRUE)

# 查看数据结构
str(data)

# 相关性分析
cor_matrix <- cor(data[,2:9])
cor_matrix

# 可视化
library(ggplot2)
library(ggcorrplot)

ggcorrplot(cor_matrix, type = 'lower', lab = TRUE, lab_size = 4)

输出结果:

> str(data)
'data.frame':	31 obs. of  9 variables:
 $ City   : Factor w/ 31 levels "北京市","天津市",..: 1 2 3 4 5 6 7 8 9 10 ...
 $ X1     : num  223 142 134 120 107 ...
 $ X2     : num  92.5 68.4 69.5 61.3 52.1 53.4 39.4 43.5 45.1 40.4 ...
 $ X3     : num  92.5 63.4 65.5 61.3 49.1 44.7 39.4 41.5 36.1 34.6 ...
 $ X4     : num  68.6 46.3 42.4 35.6 28.5 29.2 22.3 24.8 23.7 20.6 ...
 $ X5     : num  81.2 58.1 58.9 47.7 43.8 42.2 30.8 33.9 29.6 26.6 ...
 $ X6     : num  44.3 29.3 30.2 24.7 22.3 20.1 14.7 16.1 14.5 12.6 ...
 $ X7     : num  28.8 17.2 17.5 14.6 13.1 12.7 9.1 9.8 8.2 7.6 ...
 $ X8     : num  42.6 25.1 26.3 22 17.5 17.6 12.6 13.3 10.7 10.8 ...

> cor_matrix
           X1         X2         X3         X4         X5         X6         X7         X8
X1  1.0000000  0.8980186  0.9066951  0.7783294  0.9169040  0.9311660  0.8941144  0.9055960
X2  0.8980186  1.0000000  0.9656830  0.8968338  0.9748428  0.9738418  0.9509499  0.9476881
X3  0.9066951  0.9656830  1.0000000  0.8875341  0.9833365  0.9656483  0.9456147  0.9581171
X4  0.7783294  0.8968338  0.8875341  1.0000000  0.8535386  0.8921906  0.9343241  0.8911354
X5  0.9169040  0.9748428  0.9833365  0.8535386  1.0000000  0.9535327  0.9252048  0.9400524
X6  0.9311660  0.9738418  0.9656483  0.8921906  0.9535327  1.0000000  0.9539449  0.9532728
X7  0.8941144  0.9509499  0.9456147  0.9343241  0.9252048  0.9539449  1.0000000  0.9193835
X8  0.9055960  0.9476881  0.9581171  0.8911354  0.9400524  0.9532728  0.9193835  1.0000000

可以看到,人均粮食支出、人均副食支出、人均烟、酒、茶支出、人均衣着商品支出、人均日用品支出、人均燃料支出、人均非商品支出之间都存在一定的相关性。相关系数矩阵显示,相关系数最高的是人均烟、酒、茶支出和人均其他副食支出,为0.983。

为了更直观地展示这些相关性,我们可以生成一个相关系数矩阵的可视化图表,如下所示:

correlation matrix

图中的方格颜色表示相关系数的大小,绿色表示正相关,红色表示负相关。通过这个可视化图表,我们可以更清楚地看到不同指标之间的相关性,从而更好地理解城镇居民的消费结构。

R语言城镇居民消费结构分析与可视化

原文地址: https://www.cveoy.top/t/topic/oG4h 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录