曲线拟合之最大斯然估计和最小二乘法

1 问题模型

假设目标变量是，其可以通过如下模型生成：

其中，是高斯白噪，均值为 0，方差是。所以我们可以把的概率密度函数表示为：

2 问题分析：最大化似然函数和最小化平方和误差函数的等效性

如果我们的损失函数是均方误差，那么对于一个新的输入，最优的预测是基于目标变量的条件均值。针对式~()，我们有：

注意，高斯白噪的假设使得给定的的条件均值是各向一致的。

现在考虑输入的数据集合，对应的目标变量是。我们假设数据集合是从式~()所示分布中采样得到的。所以，关于的最大斯然估计为：

注意，这里我们假定

并且，我们不特别的约定基函数

的形式。在监督学习问题中（分类或者回归），我们的目标不是为输入变量建模。

会一直待在条件变量中，所以从现在开始我们去掉

中的

。对式~(

)求对数，把乘法变成加法，我们有：

对式~()稍作变形，有：

其中，

我们发现，优化基于高斯白噪的斯然函数和最小化平方和误差函数是等效的。通过对~()进行求导，有：

令式~()等于零，

继而有：

这个解是最小二乘问题的解。这里是的矩阵：

其中，是的 Moore-Penrose 伪逆。这个伪逆是逆的推广。当是方阵且可逆时，这个结果就直接等于

此刻，我们再分析。重写:

对求导，可得：

其中：

所以，补充了训练集合中目标值的均值与基函数之间的差值。

另外，我们可以对式~()求的导数，得:

我们看到噪声精度的倒数是目标值在回归函数周围的方差。

3 最小二乘的几何意义

图 1: 最小二乘的几何意义

考虑维空间，是其中一个矢量。每一个基函数取个训练集合中的值也可以视作一个矢量，标记为，如图 1所示。注意对应的第列。如果基函数的个数小于训练集合的点数，那么个矢量张成一个维的空间。我们定义是一个维向量其第个坐标为。因为是的线性组合。所以，可以在维空间的任意位置。式~()是和的欧几里得距离。所以的最小二乘解对应着中距离最近的。从图 1 可以看出这个解对应着向的各个坐标系投影。

在实际应用中，直接求解的逆比较困难（因为，这个矩阵的维度比较大），所以一些数学技巧比如 SVD 分解经常会被用到。

曲线拟合之最大斯然估计和最小二乘法

目录

1 问题模型

2 问题分析：最大化似然函数和最小化平方和误差函数的等效性

3 最小二乘的几何意义