对高斯分布的贝叶斯推断
1 简介
在最大似然的框架中,我们得到了高斯分布μ和Σ的点估计。现在,我们采用贝叶斯方法处理这个问题,为此我们需要引入这些参数的先验估计。
2 假设方差已知
作为一个例子,我们考虑单个高斯随机变量x,假设方差σ2已知,我们要做的是从N个观测值X={x1,…,xN}中推断出均值μ。 似然函数定义为:
p(X|μ)=N∏n=1p(xn|μ)=1(2πσ2)N/2exp{−12σ2N∑n=1(xn−μ)2}值得强调的是:似然函数p(X|μ)不是关于μ的概率密度函数,并且这个似然函数不是归一化的。
从式(1)我们可以看出似然函数中μ的二次型出现在指数位置上。如果我们选择高斯分布作为μ的先验分布p(μ)。那么这个高斯分布就是这个似然函数的共轭先验分布,因为对应的后验分布是两个关于μ的指数二次型函数的乘积。因此,我们假设μ的先验分布为:
p(μ)=N(μ|μ0,σ20)因此后验分布为:
p(μ|X)∝p(X|μ)p(μ)通过化简我们得到:
p(μ|X)=N(μ|μN,σ2N)其中:
μN=σ2Nσ20+σ2μ0+Nσ20Nσ20+σ2μML1σ2N=1σ20+Nσ2μML=1NN∑n=1xn我们对式 (5)中的后验均值和方差做简单的分析。首先,我们注意到μN是μ0和μML的一个折中。如果观测到的点数N=0,那么μN就是μ0。当N→∞时,μN趋向于μML。同样的,对于σ2N,我们发现使用倒数的表达更清晰易懂。我们称σ2N为方差,称1σ2N为精度。精度具有可加性,并且后验精度是先验精度加上每一次观测数据的精度。当我们增加观测点数的时候,精度逐渐增加,对应的方差逐渐降低。如果没有观测数据,我们得到的就是先验精度,如果N→∞,方差σ2N→0,此时后验分布会在最大似然解处形成一个无穷高的尖峰。因此,我们通过贝叶斯估计,我们得到了μ点估计的最大似然解。注意对于有限的N,如果我们假设σ20→∞,那么后验估计μN同样收敛到最大似然解,此时后验方差σ2N=σ2/N
我们之前 看到了过高斯分布的均值可以采用迭代的方式计算得出。实际上,贝叶斯估计也可以采用这种方式。
p(μ|D)∝[p(μ)N∏n=1p(xn|μ)]p(xN|μ)式 (8)中在中括号中的项代表观测到N−1个数据之后的后验分布。我们看到,这个观测值可以当做第N次观测的先验分布。实际上,贝叶斯推断的这种序贯视角可以用在任何观测数据是独立同分布的场景中。
3 假设方差未知
截止目前,我们的处理手段是方差已知,然后对μ做估计。那么,如果方差未知怎么办呢?假设均值已知,我们来估计方差。和本文之前一样,我们也提出一个关于λ=1/σ2的先验估计。关于λ的似然函数可以写为:
p(X|λ)=N∏n=1N(xn|μ,λ−1)∝λN/2exp{−λ2N∑n=1(xn−μ)2}对应的相应的共轭先验应该具有的形式:λ的指数幂乘以λ的线性函数。这样的描述与gamma分布非常类似。gamma分布的定义为:
Gam(λ|a,b)=1Γ(a)baλa−1exp(−bλ)这里Γ(a)是gamma函数,出现在这里是为了保证gamma分布是归一化的。gamma分布的期望和方差为:
E[λ]=abvar[λ]=ab2此处我们考虑先验分布Gam(λ|a0,b0),然后我们得到后验概率:
p(λ|X)∝λa0−1λN/2exp{−b0λ−λ2N∑n=1(xn−μ)2}显然,式 (13)是一个新的gamma分布,参数为Gam(λ|aN,bN),其中:
aN=a0+N2其中σ2ML是方差的最大似然估计。
对于式 (14),我们发现经过N次观测之后,a的值增加了N/2。因此我们可以把a0视为2a0次有效的先验观测。同样,对于式 (15),我们发现经过N次观测,b的值增加了N2σ2ML。所以我们可以把b0解释为先验的2a0次观测的等效方差b0a0。
4 方差和均值都未知
当方差和均值都未知时,为了找到一个共轭先验分布,我们考虑μ和λ的先验函数:
p(X|μ,λ)=N∏n=1(λ2π)1/2exp{−λ2(xn−μ)2}上式可以近似为:
[λ1/2exp(−λμ22)]Nexp{λμN∑n=1xn−λ2N∑n=1x2n}我们要找到一个共轭先验分布p(μ,λ)其形式和式 (17)类似,即:
p(μ,λ)=[λ1/2exp(−λμ22)]βexp{cλμ−dλ}=exp{−βλ2(μ−c/β)2}λβ/2exp{−(d−c22β)λ}其中c,d,β是常量。根据p(μ,λ)=p(μ|λ)p(λ),通过观察式 (18),我们令p(μ|λ)是一个高斯分布,其精度是λ的线性函数;令p(λ)是一个gamma分布。所以:
p(μ,λ)=N(μ|μ0,(βλ)−1)Gam(λ|a,b)其中,我们定义μ0=c/β,a=1+β/2,b=d−c2/2β。式 (20)又被称为正态gamma分布或者高斯gamma分布。注意式(20)不是简单的正态分布和gamma分布的乘积。因为μ的精度是λ的线性函数。即使我们选择了一个先验分布保证μ和λ是独立的,在迭代过程中得到的后验分布中μ和λ也会纠缠在一起。