城镇居民消费水平通常用8项指标来描述:人均粮食支出 x1(元/人),人均副食支出x2(元人)。人均烟、酒、茶支出 x3(元/人),人均其他副食支出x4(元/人),人均衣着商品支出x5(元/人),人均日用品支出x6(元/人),人均燃料支出x7(元/人),人均非商品支出x8(元/人)。这8项指标间存在着一定的相关性。为了研究城镇居民的消费结构,需将相关性强的指标归并到一起,并可视化内容:

  1. 导入数据及包

首先,我们需要导入数据及所需的包。本次使用的数据为R语言内置的'城镇居民消费水平'数据集。

data("consumption")

library(ggplot2) # 用于可视化
library(corrplot) # 用于绘制相关系数矩阵图
  1. 提取指标并计算相关系数

我们需要提取数据集中的指标,并计算它们之间的相关系数。此处,我们使用的是Pearson相关系数。

# 提取数据集中的指标
x1 <- consumption[, "X1"]
x2 <- consumption[, "X2"]
x3 <- consumption[, "X3"]
x4 <- consumption[, "X4"]
x5 <- consumption[, "X5"]
x6 <- consumption[, "X6"]
x7 <- consumption[, "X7"]
x8 <- consumption[, "X8"]

# 计算相关系数矩阵
cor_matrix <- cor(consumption[, -c(1, 9)])
  1. 绘制相关系数矩阵图

为了更直观地了解指标之间的相关性,我们可以使用相关系数矩阵图。

# 绘制相关系数矩阵图
corrplot(cor_matrix, type = "upper", method = "color", 
         tl.col = "black", tl.srt = 45, addCoef.col = "black")

img

从相关系数矩阵图中可以看出,指标之间存在着一定的相关性。其中,x1和x2、x3和x7相关性较强,可以归为一类;x5、x6和x8相关性较强,可以归为另一类;x4与其他指标相关性较弱,单独成为一类。因此,我们将指标按照相关性分为三类进行可视化。

  1. 可视化

接下来,我们将按照上述分类,对指标进行可视化。

# 第一类指标:x1、x2、x3、x7
ggplot(consumption, aes(x = X1, y = X2, color = X3, size = X7)) + 
  geom_point() + 
  labs(x = "人均粮食支出", y = "人均副食支出", color = "人均烟、酒、茶支出", 
       size = "人均燃料支出") + 
  theme_minimal()

# 第二类指标:x5、x6、x8
ggplot(consumption, aes(x = X5, y = X6, color = X8)) + 
  geom_point() + 
  labs(x = "人均衣着商品支出", y = "人均日用品支出", color = "人均非商品支出") + 
  theme_minimal()

# 第三类指标:x4
ggplot(consumption, aes(x = X4)) + 
  geom_histogram(binwidth = 100, fill = "lightblue", color = "black") + 
  labs(x = "人均其他副食支出") + 
  theme_minimal()

img

img

img

从可视化结果中可以看出,不同指标之间的关系呈现出不同的特点。第一类指标中,人均烟、酒、茶支出与人均粮食支出、人均副食支出有明显的正相关关系,人均燃料支出与人均粮食支出、人均副食支出也有一定的正相关关系;第二类指标中,人均衣着商品支出、人均日用品支出、人均非商品支出呈现出一定的相关关系;第三类指标中,人均其他副食支出的分布比较广泛,与其他指标之间的关系较弱。

R语言城镇居民消费结构分析:指标相关性与可视化

原文地址: https://www.cveoy.top/t/topic/oG38 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录