R语言多种方法插补数据缺失值并举例说明

在R语言中，插补数据缺失值的方法有很多种，例如：均值插补、中位数插补、众数插补、回归插补、多重插补等。下面举例说明其中的几种方法。

假设有如下数据，其中有缺失值：

data <- c(1, 3, 5, NA, 9, 7, NA, 4, 2)

可以使用均值插补方法，将缺失值用该变量的均值填补：

mean_data <- mean(data, na.rm = TRUE)
data[is.na(data)] <- mean_data

假设有如下数据，其中有缺失值：

data <- c(1, 3, 5, NA, 9, 7, NA, 4, 2)

可以使用中位数插补方法，将缺失值用该变量的中位数填补：

median_data <- median(data, na.rm = TRUE)
data[is.na(data)] <- median_data

假设有如下数据，其中有缺失值：

data <- c(1, 3, 5, NA, 9, 7, NA, 4, 2)

可以使用众数插补方法，将缺失值用该变量的众数填补：

mode_data <- as.numeric(names(sort(table(data), decreasing = TRUE)[1]))
data[is.na(data)] <- mode_data

假设有如下数据，其中有缺失值：

data <- data.frame(x = c(1, 2, 3, 4, 5, 6, 7, 8, 9), y = c(3, 5, 7, NA, 11, 9, NA, 6, 4))

可以使用回归插补方法，根据已有数据建立回归模型，预测缺失值，并将其填补：

model <- lm(y ~ x, data = data)
data$y[is.na(data$y)] <- predict(model, newdata = data[is.na(data$y), ])

假设有如下数据，其中有缺失值：

data <- data.frame(x = c(1, 2, 3, 4, 5, 6, 7, 8, 9), y = c(3, 5, 7, NA, 11, 9, NA, 6, 4))

可以使用多重插补方法，根据已有数据建立多个回归模型，预测缺失值，并将其填补。一般情况下，建立10个左右的回归模型即可：

library(mice)
imputed_data <- mice(data, m = 10, method = "pmm", seed = 123)

其中，m参数表示建立的回归模型数量，method参数表示使用的插补方法，seed参数表示随机种子。最终得到的imputed_data是一个多重插补的数据集