R语言 PM2.5 数据分析：统计量计算与可视化

本文将使用R语言对PM2.5数据进行统计分析，并进行可视化展示。主要内容包括：

数据读取: 使用read.csv()或read.table()函数读取PM2.5数据。
变量选择: 选取平均气温、平均相对湿度、降水量、日照时数四个变量。
统计量计算: 计算所选变量的期望、方差、四分位数、偏度系数与峰度系数。
分组统计: 根据是否沿海进行分组，分别计算上述统计量。
可视化展示: 利用经纬度数据，将PM2.5年均浓度点到图上，以是否沿海作为颜色区分，海拔作为点的大小度量。

1. 数据读取

# 使用read.csv()函数读入数据
PM25data <- read.csv('PM25data.csv', header = TRUE, sep = ',', stringsAsFactors = FALSE)

# 使用read.table()函数读入数据
PM25data <- read.table('PM25data.csv', header = TRUE, sep = ',', stringsAsFactors = FALSE)

2. 变量选择

selected_vars <- c('avg_temp', 'avg_rh', 'precipitation', 'sunshine')
PM25data_selected <- PM25data[, selected_vars]

3. 统计量计算

# 期望
mean(PM25data_selected)
# 方差
var(PM25data_selected)
# 四分位数
quantile(PM25data_selected)
# 偏度系数
library(moments)
skewness(PM25data_selected)
# 峰度系数
kurt(PM25data_selected)

4. 分组统计

# 根据是否沿海分组
PM25data$coastal <- ifelse(PM25data$coastal == 'yes', '沿海', '非沿海')
grouped_data <- split(PM25data_selected, PM25data$coastal)

# 分组计算统计量
lapply(grouped_data, mean)
lapply(grouped_data, var)
lapply(grouped_data, quantile)
lapply(grouped_data, skewness)
lapply(grouped_data, kurtosis)

5. 可视化展示

# 读入经度纬度数据
locations <- read.csv('locations.csv', header = TRUE, sep = ',', stringsAsFactors = FALSE)

# 将经度纬度数据与PM2.5年均浓度数据合并
library(dplyr)
PM25data_location <- left_join(PM25data, locations, by = 'city')

# 绘制散点图
library(ggplot2)
ggplot(PM25data_location, aes(x = longitude, y = latitude, size = altitude, color = coastal)) +
  geom_point(aes(size = PM2.5_annual_mean)) +
  scale_color_manual(values = c('沿海' = 'blue', '非沿海' = 'red')) +
  labs(title = 'PM2.5年均浓度点图', x = '经度', y = '纬度', size = '海拔', color = '是否沿海')

本示例代码仅供参考，实际操作过程中需根据具体数据进行调整。