Loading [MathJax]/jax/output/HTML-CSS/fonts/TeX/fontdata.js

曲线拟合之概率回访

目录

1 回忆

我们之前在 曲线拟合的过程中 采用的是最小化误差函数的方法来确定拟合的w系数。拟合的多项式为:

y(x,w)=w0+w1x++wMxM=Mj=0wjxj

误差函数为:

E(w)=12Nn=1{y(xn,w)tn}2

在那里,我们为了解决过度拟合问题还采用了一种叫做正则化的方法。今天,我们从概率的角度来审视多项式曲线拟合问题。通过概率角度,我们可以更深入的理解误差函数和正则化。

2 贝叶斯估计

曲线拟合的目的是对于给定输入x估计输出t。当然,我们有训练数据:对于x=(x1,,xN)T,对应的值是t=(t1,,tN)T。对于任意的新的输入值x,我们可以把对t的估计写成一个条件概率估计。什么样的概率密度函数最合适呢?正态分布最合适 !即,对于给定的输入x,我们假设t具有正态分布,均值是y(x,w):

p(t|x,w,β)=N(t|y(x,w),β1)

其中β是精度参数,等于(3)的方差的导数,即β1=σ2

式(3)的示意图如1所示。

20170502figure1dot16.png

Figure 1: 式(3)的示意图

从图1 中可以看出蓝色曲线就是假设的高斯分布。而精度值β体现了分布的方差。

现在我们用不同于 以往 的方法来求w,β。如果所有的训练数据都是从(3) 中独立获得的,也就是说假设t是独立同分布的。那么关于t,x分布的似然函数是:

p(t|x,w,β)=Nn=1N(tn|y(xn,w),β1)

其中:

N(y|μ,σ2)=12πσ2e(xμ)22σ2

把(5)带入(4),并对(4)左右两端取自然对数:

lnp(t|x,w,β)=β2Nn=1(y(xn,w)tn)2+N2lnβN2ln(2π)

我们从(6)推出曲线拟合系数w的最大似然解。显然,我们可以忽略(6)的后两项,因为这两项与w没有关系。另外我们也发现w的最大似然解与等号右边第一项的系数也没有关系,这个系数只是起到缩放作用,我们还可以把β/21/2代替。最大化似然函数等效于最小化负的似然函数。最后我们发现最大化(6)和最小化(2)是一回事儿。 因此(2)所示的误差函数最小值的解是假定噪声为高斯噪声的最大似然解。

另外我们还可以使用最大似然准则求得精度值β的最优解。把(6)当做β的函数,我们有β的最大似然解满足:

1βML=1NNn=1(y(xn,w)tn)2

所以我们可以先求得w的最大似然解wML,然后求得1βML。如此,我们便得到了所需高斯分布的两个重要参数,对于任意输入x,我们可以使用这个模型来估计t

3 概率模型

现在我们有了wML1βML,我们就有了一个概率模型:

p(t|x,wML,βML)=N(t|y(x,wML),β1ML)

对于给定的x我们用(1)来计算其均值y(x,wML),然后用(8)给出t的估计。

现在让我们更深入的理解这个问题。首先,我们引入对(1)中系数w的一个先验估计:

p(w|α)=N(w|0,α1I)=(α2π)(M+1)/2exp(α2wTw)

其中α是先验概率分布的精度。M+1M阶多项式中的系数个数。α控制着模型的参数(式(1)的参数),我们称α为超参数。据贝叶斯理论w的后验分布与先验分布和似然函数成比例,即:

p(w|x,t,α,β)p(t|x,w,β)p(w|α)

利用给定的训练数据,我们通过最大化后验概率来确定w。这个准则叫做最大后验概率准则(maximum posterior, MAP). 结合(10)(6)(9),我们发现最大后验概率等效于最小化(11):

β2Nn=1(y(xn,w)tn)2+α2wTw

即,最大化后验概率等效于最小化带有正则参数λ=α/β的均方误差函数。

4 我们离真正的贝叶斯估计有多远

截止目前,尽管我们引入了w的一个先验估计p(w|α),但是我们还是在做w的点估计,算不得真正的贝叶斯方法。因为“纯真血统”的贝叶斯方法需要一直使用概率的和积准则。这个和积准则的使用牵涉到边缘概率的计算。而边缘概率的计算是使用贝叶斯方法进行模式识别的核心内容。

在曲线拟合问题中,给定了训练数据x,t,还有一个测试点x,我们的目标是估计t。因此,我们希望对p(t|x,w,t)做一个评估。

贝叶斯估计求解p(t|x,w,t)的过程应该是:

p(t|x,x,t)=p(t|x,w)p(w|x,t)dw

式 (12) 中p(t|x,w)由 (3)给出。此处,我们准备忽略α,β来简化符号表示。 p(w|x,t)是 参数w的后验概率,可以对 (10)归一化获得。稍后我们会发现,对于曲线拟合问题,这个后验概率分布是高斯分布,进而式 (12)可以推演成:

p(t|x,x,t)=N(t|m(x),s2(x))

其中均值和方差为:

m(x)=βϕ(x)TSNn=1ϕ(xn)tns2(x)=β1+ϕ(x)TSϕ(x)

矩阵S为:

S1=αI+βNn=1ϕ(xn)ϕ(x)T

其中I是单位阵。ϕ(x)=[ϕ0(x),,ϕM(x)],ϕi(x)=xi 我们看到式 (14)所示的均值和方差依赖于x。方差的第一项β1代表了t的不确定度,这个不确定度是由噪声引起的。方差的第二项代表由w带来的不确定度,这个不确定度是由贝叶斯方法带来的。