R语言 PM2.5 数据分析:统计量计算与可视化
R语言 PM2.5 数据分析:统计量计算与可视化
本文将使用R语言对PM2.5数据进行统计分析,并进行可视化展示。主要内容包括:
- 数据读取: 使用
read.csv()或read.table()函数读取PM2.5数据。 - 变量选择: 选取平均气温、平均相对湿度、降水量、日照时数四个变量。
- 统计量计算: 计算所选变量的期望、方差、四分位数、偏度系数与峰度系数。
- 分组统计: 根据是否沿海进行分组,分别计算上述统计量。
- 可视化展示: 利用经纬度数据,将PM2.5年均浓度点到图上,以是否沿海作为颜色区分,海拔作为点的大小度量。
1. 数据读取
# 使用read.csv()函数读入数据
PM25data <- read.csv('PM25data.csv', header = TRUE, sep = ',', stringsAsFactors = FALSE)
# 使用read.table()函数读入数据
PM25data <- read.table('PM25data.csv', header = TRUE, sep = ',', stringsAsFactors = FALSE)
2. 变量选择
selected_vars <- c('avg_temp', 'avg_rh', 'precipitation', 'sunshine')
PM25data_selected <- PM25data[, selected_vars]
3. 统计量计算
# 期望
mean(PM25data_selected)
# 方差
var(PM25data_selected)
# 四分位数
quantile(PM25data_selected)
# 偏度系数
library(moments)
skewness(PM25data_selected)
# 峰度系数
kurt(PM25data_selected)
4. 分组统计
# 根据是否沿海分组
PM25data$coastal <- ifelse(PM25data$coastal == 'yes', '沿海', '非沿海')
grouped_data <- split(PM25data_selected, PM25data$coastal)
# 分组计算统计量
lapply(grouped_data, mean)
lapply(grouped_data, var)
lapply(grouped_data, quantile)
lapply(grouped_data, skewness)
lapply(grouped_data, kurtosis)
5. 可视化展示
# 读入经度纬度数据
locations <- read.csv('locations.csv', header = TRUE, sep = ',', stringsAsFactors = FALSE)
# 将经度纬度数据与PM2.5年均浓度数据合并
library(dplyr)
PM25data_location <- left_join(PM25data, locations, by = 'city')
# 绘制散点图
library(ggplot2)
ggplot(PM25data_location, aes(x = longitude, y = latitude, size = altitude, color = coastal)) +
geom_point(aes(size = PM2.5_annual_mean)) +
scale_color_manual(values = c('沿海' = 'blue', '非沿海' = 'red')) +
labs(title = 'PM2.5年均浓度点图', x = '经度', y = '纬度', size = '海拔', color = '是否沿海')
本示例代码仅供参考,实际操作过程中需根据具体数据进行调整。
原文地址: https://www.cveoy.top/t/topic/nhzN 著作权归作者所有。请勿转载和采集!