曲线拟合之概率回访
1 回忆
我们之前在 曲线拟合的过程中 采用的是最小化误差函数的方法来确定拟合的w系数。拟合的多项式为:
y(x,w)=w0+w1x+…+wMxM=M∑j=0wjxj误差函数为:
E(w)=12N∑n=1{y(xn,w)−tn}2在那里,我们为了解决过度拟合问题还采用了一种叫做正则化的方法。今天,我们从概率的角度来审视多项式曲线拟合问题。通过概率角度,我们可以更深入的理解误差函数和正则化。
2 贝叶斯估计
曲线拟合的目的是对于给定输入x估计输出t。当然,我们有训练数据:对于x=(x1,…,xN)T,对应的值是t=(t1,…,tN)T。对于任意的新的输入值x,我们可以把对t的估计写成一个条件概率估计。什么样的概率密度函数最合适呢?正态分布最合适 !即,对于给定的输入x,我们假设t具有正态分布,均值是y(x,w):
p(t|x,w,β)=N(t|y(x,w),β−1)其中β是精度参数,等于(3)的方差的导数,即β−1=σ2。
式(3)的示意图如1所示。
Figure 1: 式(3)的示意图
从图1 中可以看出蓝色曲线就是假设的高斯分布。而精度值β体现了分布的方差。
现在我们用不同于 以往 的方法来求w,β。如果所有的训练数据都是从(3) 中独立获得的,也就是说假设t是独立同分布的。那么关于t,x分布的似然函数是:
p(t|x,w,β)=N∏n=1N(tn|y(xn,w),β−1)其中:
N(y|μ,σ2)=1√2πσ2e−(x−μ)22σ2把(5)带入(4),并对(4)左右两端取自然对数:
lnp(t|x,w,β)=−β2N∑n=1(y(xn,w)−tn)2+N2lnβ−N2ln(2π)我们从(6)推出曲线拟合系数w的最大似然解。显然,我们可以忽略(6)的后两项,因为这两项与w没有关系。另外我们也发现w的最大似然解与等号右边第一项的系数也没有关系,这个系数只是起到缩放作用,我们还可以把β/2用1/2代替。最大化似然函数等效于最小化负的似然函数。最后我们发现最大化(6)和最小化(2)是一回事儿。 因此(2)所示的误差函数最小值的解是假定噪声为高斯噪声的最大似然解。
另外我们还可以使用最大似然准则求得精度值β的最优解。把(6)当做β的函数,我们有β的最大似然解满足:
1βML=1NN∑n=1(y(xn,w)−tn)2所以我们可以先求得w的最大似然解wML,然后求得1βML。如此,我们便得到了所需高斯分布的两个重要参数,对于任意输入x,我们可以使用这个模型来估计t。
3 概率模型
现在我们有了wML,1βML,我们就有了一个概率模型:
p(t|x,wML,βML)=N(t|y(x,wML),β−1ML)对于给定的x我们用(1)来计算其均值y(x,wML),然后用(8)给出t的估计。
现在让我们更深入的理解这个问题。首先,我们引入对(1)中系数w的一个先验估计:
p(w|α)=N(w|0,α−1I)=(α2π)(M+1)/2exp(−α2wTw)其中α是先验概率分布的精度。M+1是M阶多项式中的系数个数。α控制着模型的参数(式(1)的参数),我们称α为超参数。据贝叶斯理论w的后验分布与先验分布和似然函数成比例,即:
p(w|x,t,α,β)∝p(t|x,w,β)p(w|α)利用给定的训练数据,我们通过最大化后验概率来确定w。这个准则叫做最大后验概率准则(maximum posterior, MAP). 结合(10)(6)(9),我们发现最大后验概率等效于最小化(11):
β2N∑n=1(y(xn,w)−tn)2+α2wTw即,最大化后验概率等效于最小化带有正则参数λ=α/β的均方误差函数。
4 我们离真正的贝叶斯估计有多远
截止目前,尽管我们引入了w的一个先验估计p(w|α),但是我们还是在做w的点估计,算不得真正的贝叶斯方法。因为“纯真血统”的贝叶斯方法需要一直使用概率的和积准则。这个和积准则的使用牵涉到边缘概率的计算。而边缘概率的计算是使用贝叶斯方法进行模式识别的核心内容。
在曲线拟合问题中,给定了训练数据x,t,还有一个测试点x,我们的目标是估计t。因此,我们希望对p(t|x,w,t)做一个评估。
贝叶斯估计求解p(t|x,w,t)的过程应该是:
p(t|x,x,t)=∫p(t|x,w)p(w|x,t)dw式 (12) 中p(t|x,w)由 (3)给出。此处,我们准备忽略α,β来简化符号表示。 p(w|x,t)是 参数w的后验概率,可以对 (10)归一化获得。稍后我们会发现,对于曲线拟合问题,这个后验概率分布是高斯分布,进而式 (12)可以推演成:
p(t|x,x,t)=N(t|m(x),s2(x))其中均值和方差为:
m(x)=βϕ(x)TSN∑n=1ϕ(xn)tns2(x)=β−1+ϕ(x)TSϕ(x)矩阵S为:
S−1=αI+βN∑n=1ϕ(xn)ϕ(x)T其中I是单位阵。ϕ(x)=[ϕ0(x),…,ϕM(x)],ϕi(x)=xi 我们看到式 (14)所示的均值和方差依赖于x。方差的第一项β−1代表了t的不确定度,这个不确定度是由噪声引起的。方差的第二项代表由w带来的不确定度,这个不确定度是由贝叶斯方法带来的。