在简单线性回归中,我们可以用下面的公式来计算样本回归系数的标准误:

$$ SE(\hat{\beta_1}) = \frac{s}{\sqrt{\sum_{i=1}^n(x_i - \bar{x})^2}} $$

其中,$s$ 是残差的标准误, $\bar{x}$ 是自变量 $x$ 的样本均值, $n$ 是样本容量。而残差的均方和可以表示为:

$$ MSE = \frac{\sum_{i=1}^n(y_i - \hat{y_i})^2}{n-2} $$

其中,$y_i$ 是观测到的因变量值, $\hat{y_i}$ 是用回归方程预测的因变量值。

我们可以将回归方程写成:

$$ \hat{y_i} = \hat{\beta_0} + \hat{\beta_1}x_i $$

将上式代入残差的均方和公式中,得到:

$$ MSE = \frac{\sum_{i=1}^n(y_i - \hat{\beta_0} - \hat{\beta_1}x_i)^2}{n-2} $$

接着,我们将 $MSE$ 的表达式中的 $(y_i - \hat{\beta_0})^2$ 展开,得到:

$$ MSE = \frac{\sum_{i=1}^n(y_i - \bar{y} + \bar{y} - \hat{\beta_0} - \hat{\beta_1}x_i)^2}{n-2} $$

将后面的一项平方展开,得到:

$$ MSE = \frac{\sum_{i=1}^n(y_i - \bar{y})^2 + 2(\hat{\beta_0}-\bar{y})(y_i-\bar{y}) + (\hat{\beta_0}-\bar{y})^2 + (\hat{\beta_1}x_i)^2 - 2\hat{\beta_1}(y_i - \bar{y})(x_i - \bar{x}) + 2\hat{\beta_0}\hat{\beta_1}(x_i - \bar{x}) - 2\hat{\beta_0}(y_i - \hat{\beta_0} - \hat{\beta_1}x_i)}{n-2} $$

注意到 $\hat{\beta_0}$ 和 $\hat{\beta_1}$ 是通过最小二乘法求解得到的,因此残差与它们是正交的,即 $\sum_{i=1}^n(y_i - \hat{\beta_0} - \hat{\beta_1}x_i) = 0$ 。因此,上式中的最后一项为 $0$ 。同时,我们可以将其他项分别表示为 $A$、$B$、$C$、$D$、$E$,即:

$$ A = \sum_{i=1}^n(y_i - \bar{y})^2 $$ $$ B = 2(\hat{\beta_0}-\bar{y})(y_i-\bar{y}) $$ $$ C = (\hat{\beta_0}-\bar{y})^2 $$ $$ D = (\hat{\beta_1}x_i)^2 $$ $$ E = -2\hat{\beta_1}(y_i - \bar{y})(x_i - \bar{x}) + 2\hat{\beta_0}\hat{\beta_1}(x_i - \bar{x}) $$

注意到 $A$、$B$、$C$ 都与 $\hat{\beta_1}$ 无关,因此我们只需要关注 $D$ 和 $E$,将它们相加,得到:

$$ D+E = (\hat{\beta_1}x_i - y_i + \bar{y} - \hat{\beta_0})^2 - (\hat{\beta_1}\bar{x} - \bar{y} + \hat{\beta_0})^2 $$

将 $D+E$ 代入 $MSE$ 的表达式中,得到:

$$ MSE = \frac{A + \sum_{i=1}^n(D+E)}{n-2} = \frac{A + \sum_{i=1}^n[(\hat{\beta_1}x_i - y_i + \bar{y} - \hat{\beta_0})^2 - (\hat{\beta_1}\bar{x} - \bar{y} + \hat{\beta_0})^2]}{n-2} $$

将上式中的 $\sum_{i=1}^n[(\hat{\beta_1}x_i - y_i + \bar{y} - \hat{\beta_0})^2]$ 展开,得到:

$$ \sum_{i=1}^n[(\hat{\beta_1}x_i - y_i + \bar{y} - \hat{\beta_0})^2] = \sum_{i=1}^n[(y_i - \bar{y})^2 - 2\hat{\beta_1}(y_i - \bar{y})(x_i - \bar{x}) + \hat{\beta_1}^2(x_i - \bar{x})^2] $$

将上式代入 $MSE$ 的表达式中,得到:

$$ MSE = \frac{\sum_{i=1}^n(y_i - \bar{y})^2 - \hat{\beta_1}^2\sum_{i=1}^n(x_i - \bar{x})^2}{n-2} = \frac{(n-2)s^2}{(n-1)\sum_{i=1}^n(x_i - \bar{x})^2} $$

其中,$s$ 是残差的标准误。因此,样本回归系数的标准误与残差均方的算术平方根成正比,即

$$ SE(\hat{\beta_1}) \propto \sqrt{MSE} \propto \frac{s}{\sqrt{\sum_{i=1}^n(x_i - \bar{x})^2}} $$

这个结论说明,当自变量的变异性较大时,样本回归系数的标准误会变小,估计值更加精确。同时,当残差的标准误较小时,样本回归系数的标准误也会变小,估计值更加精确。

在直线相关与回归里,简单用公式推导为什么样本回归系数的标准误与残差均方的算术平方根成正比

原文地址: http://www.cveoy.top/t/topic/tj2 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录