在混合高斯混合模型中,假设有 $k$ 个高斯分布,每个高斯分布的概率密度函数为 $f_i(x)$,对于一个样本 $x$,其概率可以表示为:

$$p(x) = \sum_{i=1}^k \alpha_i f_i(x)$$

其中 $\alpha_i$ 表示第 $i$ 个高斯分布的权重,满足 $\sum_{i=1}^k \alpha_i = 1$。假设样本 $x$ 的均值为 $\mu$,标准差为 $\sigma$,则根据正态分布的性质,$x$ 落在 $[\mu-3\sigma, \mu+3\sigma]$ 区间内的概率为 $0.9973$。

根据样本均值的定义,假设有 $n$ 个样本 ${x_1, x_2, ..., x_n}$,样本均值为:

$$\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$$

样本方差为:

$$s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2$$

则根据中心极限定理,$\bar{x}$ 和 $s^2$ 的分布都可以近似看作正态分布,且有:

$$\bar{x} \sim N(\mu, \frac{\sigma^2}{n})$$

$$\frac{(n-1)s^2}{\sigma^2} \sim \chi^2_{n-1}$$

其中 $\chi^2_{n-1}$ 表示自由度为 $n-1$ 的卡方分布。根据 $\bar{x}$ 和 $s^2$ 的分布,可以计算出样本均值落在 $[\mu-3\frac{\sigma}{\sqrt{n}}, \mu+3\frac{\sigma}{\sqrt{n}}]$ 区间内的概率为 $0.9973$,即:

$$P(\mu-3\frac{\sigma}{\sqrt{n}} \leq \bar{x} \leq \mu+3\frac{\sigma}{\sqrt{n}}) = 0.9973$$

假设样本均值落在 $[\mu-3\frac{\sigma}{\sqrt{n}}, \mu+3\frac{\sigma}{\sqrt{n}}]$ 区间内的概率为 $p$,则样本均值超过 $3\frac{\sigma}{\sqrt{n}}$ 的概率为 $1-p$。根据混合高斯混合模型的定义,可以计算出样本均值超过 $3\frac{\sigma}{\sqrt{n}}$ 的概率为:

$$P(\bar{x} > \mu+3\frac{\sigma}{\sqrt{n}}) = \sum_{i=1}^k \alpha_i P_i(\bar{x} > \mu+3\frac{\sigma}{\sqrt{n}})$$

其中 $P_i(\bar{x} > \mu+3\frac{\sigma}{\sqrt{n}})$ 表示第 $i$ 个高斯分布中样本均值超过 $3\frac{\sigma}{\sqrt{n}}$ 的概率。根据标准化后的正态分布表,可以计算出 $P_i(\bar{x} > \mu+3\frac{\sigma}{\sqrt{n}})$ 的值,从而得到混合高斯混合中样本均值超过 $3\frac{\sigma}{\sqrt{n}}$ 的概率

混合高斯混合中数值下样本统计分析超过 3  的概率

原文地址: http://www.cveoy.top/t/topic/giH7 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录