R语言 PM2.5 数据分析:统计量计算与可视化

本文将使用R语言对PM2.5数据进行统计分析,并进行可视化展示。主要内容包括:

  1. 数据读取: 使用read.csv()read.table()函数读取PM2.5数据。
  2. 变量选择: 选取平均气温、平均相对湿度、降水量、日照时数四个变量。
  3. 统计量计算: 计算所选变量的期望、方差、四分位数、偏度系数与峰度系数。
  4. 分组统计: 根据是否沿海进行分组,分别计算上述统计量。
  5. 可视化展示: 利用经纬度数据,将PM2.5年均浓度点到图上,以是否沿海作为颜色区分,海拔作为点的大小度量。

1. 数据读取

# 使用read.csv()函数读入数据
PM25data <- read.csv('PM25data.csv', header = TRUE, sep = ',', stringsAsFactors = FALSE)

# 使用read.table()函数读入数据
PM25data <- read.table('PM25data.csv', header = TRUE, sep = ',', stringsAsFactors = FALSE)

2. 变量选择

selected_vars <- c('avg_temp', 'avg_rh', 'precipitation', 'sunshine')
PM25data_selected <- PM25data[, selected_vars]

3. 统计量计算

# 期望
mean(PM25data_selected)
# 方差
var(PM25data_selected)
# 四分位数
quantile(PM25data_selected)
# 偏度系数
library(moments)
skewness(PM25data_selected)
# 峰度系数
kurt(PM25data_selected)

4. 分组统计

# 根据是否沿海分组
PM25data$coastal <- ifelse(PM25data$coastal == 'yes', '沿海', '非沿海')
grouped_data <- split(PM25data_selected, PM25data$coastal)

# 分组计算统计量
lapply(grouped_data, mean)
lapply(grouped_data, var)
lapply(grouped_data, quantile)
lapply(grouped_data, skewness)
lapply(grouped_data, kurtosis)

5. 可视化展示

# 读入经度纬度数据
locations <- read.csv('locations.csv', header = TRUE, sep = ',', stringsAsFactors = FALSE)

# 将经度纬度数据与PM2.5年均浓度数据合并
library(dplyr)
PM25data_location <- left_join(PM25data, locations, by = 'city')

# 绘制散点图
library(ggplot2)
ggplot(PM25data_location, aes(x = longitude, y = latitude, size = altitude, color = coastal)) +
  geom_point(aes(size = PM2.5_annual_mean)) +
  scale_color_manual(values = c('沿海' = 'blue', '非沿海' = 'red')) +
  labs(title = 'PM2.5年均浓度点图', x = '经度', y = '纬度', size = '海拔', color = '是否沿海')

本示例代码仅供参考,实际操作过程中需根据具体数据进行调整。


原文地址: https://www.cveoy.top/t/topic/nhzN 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录