对高斯分布的贝叶斯推断

1 简介

在最大似然的框架中，我们得到了高斯分布和的点估计。现在，我们采用贝叶斯方法处理这个问题，为此我们需要引入这些参数的先验估计。

2 假设方差已知

作为一个例子，我们考虑单个高斯随机变量，假设方差已知，我们要做的是从个观测值中推断出均值。似然函数定义为：

值得强调的是：似然函数不是关于的概率密度函数，并且这个似然函数不是归一化的。

从式()我们可以看出似然函数中的二次型出现在指数位置上。如果我们选择高斯分布作为的先验分布。那么这个高斯分布就是这个似然函数的共轭先验分布，因为对应的后验分布是两个关于的指数二次型函数的乘积。因此，我们假设的先验分布为：

因此后验分布为：

通过化简我们得到：

其中：

我们对式 ()中的后验均值和方差做简单的分析。首先，我们注意到是和的一个折中。如果观测到的点数，那么就是。当时，趋向于。同样的，对于，我们发现使用倒数的表达更清晰易懂。我们称为方差，称为精度。精度具有可加性，并且后验精度是先验精度加上每一次观测数据的精度。当我们增加观测点数的时候，精度逐渐增加，对应的方差逐渐降低。如果没有观测数据，我们得到的就是先验精度，如果，方差，此时后验分布会在最大似然解处形成一个无穷高的尖峰。因此，我们通过贝叶斯估计，我们得到了点估计的最大似然解。注意对于有限的，如果我们假设,那么后验估计同样收敛到最大似然解，此时后验方差

我们之前看到了过高斯分布的均值可以采用迭代的方式计算得出。实际上，贝叶斯估计也可以采用这种方式。

式 ()中在中括号中的项代表观测到个数据之后的后验分布。我们看到，这个观测值可以当做第次观测的先验分布。实际上，贝叶斯推断的这种序贯视角可以用在任何观测数据是独立同分布的场景中。

3 假设方差未知

截止目前，我们的处理手段是方差已知，然后对做估计。那么，如果方差未知怎么办呢？假设均值已知，我们来估计方差。和本文之前一样，我们也提出一个关于的先验估计。关于的似然函数可以写为：

对应的相应的共轭先验应该具有的形式：的指数幂乘以的线性函数。这样的描述与gamma分布非常类似。gamma分布的定义为：

这里是gamma函数，出现在这里是为了保证gamma分布是归一化的。gamma分布的期望和方差为：

此处我们考虑先验分布，然后我们得到后验概率：

显然，式 ()是一个新的gamma分布，参数为，其中：

其中是方差的最大似然估计。

对于式 ()，我们发现经过次观测之后，的值增加了。因此我们可以把视为次有效的先验观测。同样，对于式 ()，我们发现经过次观测，的值增加了。所以我们可以把解释为先验的次观测的等效方差。

4 方差和均值都未知

当方差和均值都未知时，为了找到一个共轭先验分布，我们考虑和的先验函数：

上式可以近似为：

我们要找到一个共轭先验分布其形式和式 ()类似，即：

其中是常量。根据，通过观察式 (),我们令是一个高斯分布，其精度是的线性函数;令是一个gamma分布。所以：

其中，我们定义。式 ()又被称为正态gamma分布或者高斯gamma分布。注意式()不是简单的正态分布和gamma分布的乘积。因为的精度是的线性函数。即使我们选择了一个先验分布保证和是独立的，在迭代过程中得到的后验分布中和也会纠缠在一起。

对高斯分布的贝叶斯推断

目录

1 简介

2 假设方差已知

3 假设方差未知

4 方差和均值都未知