验证中心极限定理:独立同分布随机变量之和的正态近似
验证中心极限定理:独立同分布随机变量之和的正态近似
中心极限定理指出,一列独立同分布的随机变量,若具有有限期望和方差,则其和在适当标准化后,近似服从正态分布。本文将通过频率分布直方图和Q-Q图,以均匀分布、指数分布、二项分布、泊松分布为例,可视化展示中心极限定理。并以柯西分布为例,说明中心极限定理中'期望和方差有限'条件的重要性。
使用频率分布直方图
我们首先使用频率分布直方图来验证中心极限定理。步骤如下:
- 随机产生m个服从某一分布的随机数。
- 将这些数求和之后再标准化。
- 重复该过程n次,就得到n个数。
- 做出这n个数的频率分布直方图,再叠加核密度估计曲线和标准正态分布密度曲线。
使用Q-Q图
除了频率分布直方图之外,我们还可以使用Q-Q图来验证中心极限定理。Q-Q图比较的是样本数据的分位数和标准正态分布的分位数。如果样本数据服从正态分布,则Q-Q图上的点应该落在一条直线上。
以均匀分布为例
# 以均匀分布为例
set.seed(42)
m <- 10000 # 随机数个数
n <- 1000 # 重复次数
x <- replicate(n, sum(runif(m))) # 重复n次并求和
y <- (x - mean(x)) / sd(x) # 标准化
hist(y, freq = FALSE, ylim = c(0, 0.4), main = 'Uniform Distribution') # 绘制频率分布直方图
curve(dnorm(x), add = TRUE, col = 'blue', lwd = 2) # 叠加标准正态分布密度曲线
lines(density(y), col = 'red', lwd = 2) # 叠加核密度估计曲线
# 使用Q-Q图
qqnorm(y)
qqline(y, col = 'red')
以指数分布为例
# 以指数分布为例
set.seed(42)
m <- 10000 # 随机数个数
n <- 1000 # 重复次数
x <- replicate(n, sum(rexp(m))) # 重复n次并求和
y <- (x - mean(x)) / sd(x) # 标准化
hist(y, freq = FALSE, ylim = c(0, 0.4), main = 'Exponential Distribution') # 绘制频率分布直方图
curve(dnorm(x), add = TRUE, col = 'blue', lwd = 2) # 叠加标准正态分布密度曲线
lines(density(y), col = 'red', lwd = 2) # 叠加核密度估计曲线
# 使用Q-Q图
qqnorm(y)
qqline(y, col = 'red')
以二项分布为例
# 以二项分布为例
set.seed(42)
m <- 100 # 随机数个数
n <- 1000 # 重复次数
x <- replicate(n, sum(rbinom(m, size = 10, prob = 0.5))) # 重复n次并求和
y <- (x - mean(x)) / sd(x) # 标准化
hist(y, freq = FALSE, ylim = c(0, 0.4), main = 'Binomial Distribution') # 绘制频率分布直方图
curve(dnorm(x), add = TRUE, col = 'blue', lwd = 2) # 叠加标准正态分布密度曲线
lines(density(y), col = 'red', lwd = 2) # 叠加核密度估计曲线
# 使用Q-Q图
qqnorm(y)
qqline(y, col = 'red')
以泊松分布为例
# 以泊松分布为例
set.seed(42)
m <- 100 # 随机数个数
n <- 1000 # 重复次数
x <- replicate(n, sum(rpois(m, lambda = 2))) # 重复n次并求和
y <- (x - mean(x)) / sd(x) # 标准化
hist(y, freq = FALSE, ylim = c(0, 0.4), main = 'Poisson Distribution') # 绘制频率分布直方图
curve(dnorm(x), add = TRUE, col = 'blue', lwd = 2) # 叠加标准正态分布密度曲线
lines(density(y), col = 'red', lwd = 2) # 叠加核密度估计曲线
# 使用Q-Q图
qqnorm(y)
qqline(y, col = 'red')
以柯西分布为例
柯西分布的期望和方差不存在,因此不满足中心极限定理的条件。我们可以通过仿真实验来验证这一点。
# 以柯西分布为例
set.seed(42)
m <- 10000 # 随机数个数
n <- 1000 # 重复次数
x <- replicate(n, sum(rcauchy(m))) # 重复n次并求和
y <- (x - mean(x)) / sd(x) # 标准化
hist(y, freq = FALSE, ylim = c(0, 0.2), main = 'Cauchy Distribution') # 绘制频率分布直方图
curve(dnorm(x), add = TRUE, col = 'blue', lwd = 2) # 叠加标准正态分布密度曲线
lines(density(y), col = 'red', lwd = 2) # 叠加核密度估计曲线
# 使用Q-Q图
qqnorm(y)
qqline(y, col = 'red')
从结果可以看出,柯西分布的样本数据的频率分布直方图和标准正态分布的密度曲线相差很大,Q-Q图上的点也明显偏离直线。这说明,即使是大量的独立同分布的随机变量,其和也无法近似服从正态分布。
结论
本文通过仿真实验,可视化展示了中心极限定理。我们可以看到,当随机变量的期望和方差存在时,其和在适当标准化后,近似服从正态分布。而当随机变量的期望和方差不存在时,中心极限定理不再成立。这说明,中心极限定理中'期望和方差有限'这个条件是十分重要的。
原文地址: https://www.cveoy.top/t/topic/oiix 著作权归作者所有。请勿转载和采集!