最小二乘法是怎么推导出来的？真正的机器学习怎么解目标函数？

最小二乘法是一种常用的线性回归方法，其本质是通过最小化残差平方和来拟合数据。推导过程如下：

假设有 $n$ 个样本，每个样本有 $m$ 个特征，用 $\mathbf{X}$ 表示 $n \times m$ 的特征矩阵，用 $\mathbf{y}$ 表示 $n$ 维的标签向量，则线性回归模型可以表示为：

$$\hat{\mathbf{y}} = \mathbf{X}\boldsymbol{\beta}$$

其中，$\boldsymbol{\beta}$ 是 $m$ 维的系数向量，$\hat{\mathbf{y}}$ 是 $n$ 维的预测值向量。我们的目标是找到最优的系数向量 $\boldsymbol{\beta}$，使得预测值向量 $\hat{\mathbf{y}}$ 尽可能接近标签向量 $\mathbf{y}$，即最小化残差平方和：

$$\min_{\boldsymbol{\beta}} \sum_{i=1}^{n} (\hat{y_i} - y_i)^2 = \min_{\boldsymbol{\beta}} | \mathbf{X}\boldsymbol{\beta} - \mathbf{y} |^2$$

对上式求导，令导数为 0，即可得到最优系数向量 $\boldsymbol{\beta}$ 的解析表达式：

$$\boldsymbol{\beta} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}$$

真正的机器学习中，目标函数的解法则因任务而异。例如，在分类任务中，我们通常使用交叉熵作为目标函数，通过梯度下降等优化算法来最小化交叉熵。在聚类任务中，我们可以使用 K-Means 算法来最小化类内方差。在强化学习中，我们则通常使用值函数或策略函数来描述任务，通过在线学习、蒙特卡洛方法等算法来优化目标函数。因此，不同的机器学习任务需要选择合适的目标函数和解法。