R语言城镇居民消费结构分析:指标相关性与可视化
城镇居民消费水平通常用8项指标来描述:人均粮食支出 x1(元/人),人均副食支出x2(元人)。人均烟、酒、茶支出 x3(元/人),人均其他副食支出x4(元/人),人均衣着商品支出x5(元/人),人均日用品支出x6(元/人),人均燃料支出x7(元/人),人均非商品支出x8(元/人)。这8项指标间存在着一定的相关性。为了研究城镇居民的消费结构,需将相关性强的指标归并到一起,并可视化内容:
- 导入数据及包
首先,我们需要导入数据及所需的包。本次使用的数据为R语言内置的'城镇居民消费水平'数据集。
data("consumption")
library(ggplot2) # 用于可视化
library(corrplot) # 用于绘制相关系数矩阵图
- 提取指标并计算相关系数
我们需要提取数据集中的指标,并计算它们之间的相关系数。此处,我们使用的是Pearson相关系数。
# 提取数据集中的指标
x1 <- consumption[, "X1"]
x2 <- consumption[, "X2"]
x3 <- consumption[, "X3"]
x4 <- consumption[, "X4"]
x5 <- consumption[, "X5"]
x6 <- consumption[, "X6"]
x7 <- consumption[, "X7"]
x8 <- consumption[, "X8"]
# 计算相关系数矩阵
cor_matrix <- cor(consumption[, -c(1, 9)])
- 绘制相关系数矩阵图
为了更直观地了解指标之间的相关性,我们可以使用相关系数矩阵图。
# 绘制相关系数矩阵图
corrplot(cor_matrix, type = "upper", method = "color",
tl.col = "black", tl.srt = 45, addCoef.col = "black")

从相关系数矩阵图中可以看出,指标之间存在着一定的相关性。其中,x1和x2、x3和x7相关性较强,可以归为一类;x5、x6和x8相关性较强,可以归为另一类;x4与其他指标相关性较弱,单独成为一类。因此,我们将指标按照相关性分为三类进行可视化。
- 可视化
接下来,我们将按照上述分类,对指标进行可视化。
# 第一类指标:x1、x2、x3、x7
ggplot(consumption, aes(x = X1, y = X2, color = X3, size = X7)) +
geom_point() +
labs(x = "人均粮食支出", y = "人均副食支出", color = "人均烟、酒、茶支出",
size = "人均燃料支出") +
theme_minimal()
# 第二类指标:x5、x6、x8
ggplot(consumption, aes(x = X5, y = X6, color = X8)) +
geom_point() +
labs(x = "人均衣着商品支出", y = "人均日用品支出", color = "人均非商品支出") +
theme_minimal()
# 第三类指标:x4
ggplot(consumption, aes(x = X4)) +
geom_histogram(binwidth = 100, fill = "lightblue", color = "black") +
labs(x = "人均其他副食支出") +
theme_minimal()



从可视化结果中可以看出,不同指标之间的关系呈现出不同的特点。第一类指标中,人均烟、酒、茶支出与人均粮食支出、人均副食支出有明显的正相关关系,人均燃料支出与人均粮食支出、人均副食支出也有一定的正相关关系;第二类指标中,人均衣着商品支出、人均日用品支出、人均非商品支出呈现出一定的相关关系;第三类指标中,人均其他副食支出的分布比较广泛,与其他指标之间的关系较弱。
原文地址: https://www.cveoy.top/t/topic/oG38 著作权归作者所有。请勿转载和采集!