高斯分布的最大似然估计

1 原理

给定一个数据集。假设是多变量高斯分布的一个独立的观察。我们可以通过最大似然估计来估计高斯分布的参数。对数似然函数是：

对上式化简，我们发现似然函数对数据集合的依赖体现在和两个量上。这两个量叫做高斯分布的充分统计量（sufficient statistics）。不同的分布有不同的充分统计量，这个我们用到的时候在详谈，此处不展开。

在式 ()中，对求导，有：

令上式为零，则我们得到了关于高斯分布均值的最大似然解：

显然，这个最大似然解是观测数据集合的均值。

对 ()的求导，有：

式~()中出现了，这是联合优化和的结果。另外注意到与无关，所以我们可以先得到，然后求。

基于和，我们求高斯分布的期望和方差：

我们发现最大似然估计的均值等于真实的均值，最大似然估计的方差总是小于真实值，因此这个估计是有偏的（biased）.我们可以定义一个不同的估计：

显然的期望与相等。

2 应用

以上讨论高斯分布参数的最大似然估计，这个过程为我们进行序贯估计（sequential estimation）提供了方便。序贯算法允许数据在线处理。所谓在线处理（on-line process）是指一次处理一个数据点然后丢点这个数据点。在线处理的优势是相对于离线处理（off-line）在线处理可以不用一次性保存并处理大量的数据。

考虑式 ()，对高斯分布均值的最大似然估计，如果我们把式()写成递推的形式，则有：

这个结果提供了一个递推的求解高斯分布均值的方法。接收到第个数据之后，我们对的估计。我们现在观察到了，那么我们基于和得到一个更新的。仔细观察这个结果，我们发现相对于，更新的在原来的基础上更新了一个很小的量。

式 ()和式()在本质上是相同的，提供了一种迭代计算均值的方法。但是在实际中我们却较少使用这种方法，我们更general的序贯学习方法。Robbins-Monro算法就是比较general的算法。考虑一对随机变量和，其联合概率分布是.那么，给定求的条件期望确定了：

式 () 的结果可以用图1来表示。

Figure 1: Robbins-Monro算法

通过式~()定义的函数叫做回归函数(regression functions). 定义了式 ()之后，我们的目标是找到使得。对于和，如果我们有一个较大的数据集。我们可以直接获得回归函数，并估计它的零点。

假设我们观测到了的一个样本，然后我们期望得到对应的的序贯估计。Robbins-Monro提供了一个过程。假设:

另外，不失一般性，我们认为, 且, 就像图1所示的那样。Robbins=Monro过程定义了估计的一个递推式：

其中是当取值时的一个观测值。系数代表一系列正数，满足：

Robbins和Monro证明了式 ()给出序贯估计的确可以以概率1收敛到。

现在让我们仔细考虑使用Robbins-Monro算法如何可以让一个广义的最大似然估计问题收敛。我们知道，一句定义最大似然估计解是对数似然函数的一个静态点，满足：

交换积分和求导顺序，令,我们有：

因此我们看到找到最大似然解相当于找到回归函数的根。

高斯分布的最大似然估计

目录

1 原理

2 应用