MMSE估计的来龙去脉
本文讲述MMSE的来龙去脉。对于一个随机变量期望的估计,频率统计是一种方法, 此处略去不提。本文基于贝叶斯公式,给出估计随机变量值的另一种方式。
1 问题模型
通常,我们需要估计未知随机变量X的值,但是往往需要通过对另外一个随 机变量的观测Y来对X进行推断。我们把X的概率密度分布叫做先验 概率PX(x)。当我们获取到观测值Y=y,然后对X进行估计时,此 时的概率值叫做后验估计P(X|Y=y)。
后验估计通常通过贝叶斯公式完成。
2 贝叶斯公式
贝叶斯公式表述如下:
PX|Y(x|y)=PY|X(y|x)pX(x)PY(y)此处给一个例子,假设PX(x)∼uniform(0,1),且P(Y|X=x)∼geometry(x),求P(X|Y=2).
根据贝叶斯公式有:
P(X|Y=2)=PY|X(2|X=x)P(X)P(Y)因为:
P(Y|X=x)=x(1−x)y−1则:
P(2|X=x)=x(1−x)利用全概率公式:
PY(2)=∫+∞−∞P(2|x)P(x)dx=16所以P(X|Y=2)=6x(1−x) .
3 最大后验估计准则
由于后验概率密度分布PX|Y(x|y)包含了关于X的所有信息。所以我 们可以利用后验概率密度对X进行点估计。对X进行点估计的一个准则是: 选择一个x使得PX|Y(x|y)的值最大。这个估计准则叫做最大后验估 计准则。
为了找到X的MAP值,我们力图找到x使得式~(6)的取值最大。
P(x|y)=P(y|x)P(x)P(y)注意P(y)不依赖于X,所以我们只需要最大化P(y|x)P(x)即可。更 进一步,如果P(x)是等概分布,那么我们只需要最大化P(y|x)即可,即 找到那个最大化P(y|x)的x值即可。此时,MAP准则和ML准则等效。
4 条件期望
P(X|y)包含Y=y时X的所有信息。所以我们可以利用P(X|y)找到 关于x的多个估计,比如均值,中位数,mode。我们定义mode为最大化 P(X|y)的x的值,即:mode是MAP对应的x的值。另一个取值方式是取后 验分布的均值,即:
ˆx=E[P(X|Y=y)]给一个例子,感受一下ˆx的计算。假设
fX(x)={2x0≤x≤10otherwise求ˆx.
首先利用全概率公式,我们有:
fY(y)=∫+∞−∞fY|X(y|x)fX(x)dx=43y+13,0≤y≤1我们有fX|Y(x|y)=6x(2xy−x+1)4y+1,0≤x≤1 ,则 ˆx:
ˆx=E[X|Y=y]=∫10xfX|Y(x|y)dx=6y+18y+25 MMSE
接下来我们证明ˆx是在均方误差准则下X的最好估计。假设给定Y=y我们要 估计X的值ˆx。一般情况,ˆx是y的函数。估计的误 差为:
˜X=X−ˆx=X−g(y)通常,我们希望均方误差的期望最小,即:
ming(y)E[(X−g(y))2|Y=y]式~(13)正是我们称这个方法为最小均方误差估计的原因。
为简便起见,假定我们在没有任何观察的情况下对X进行估计,我们会用一 个什么样的值作为X的估计值呢?假设这个值是a,那么MSE为:
h(a)=E[(X−a)2]=E[X2]−2aE[X]+a2我们对a求导,有:
h′(a)=−2E[X]+2a令h′(a)=0,那么有a=E[X]。现在,假设,我们有观测数据Y=y,那么此时我们会对X做什么样的估计呢?假设估计为ˆx, 那么MSE有:
E[(X−ˆx)2|Y=y]=E[X2|Y=y]−E[2ˆxX|Y=y]+ˆx2就上式对ˆx求导,并令导数等于零,则:
ˆx=E[X|Y=y]即最小均方误差准则下的最优解是条件期望。这个值我们可以通过贝叶斯公式求 出。
6 MMSE的一些特性
由于ˆx是y的函数,即ˆx=g(y)。我们也可以认为 ˆX=g(Y),同样有ˆXM=E[X|Y],即关于X在MSE准 则下的估计ˆXM是条件期望。
由于E[ˆXM]=E[E[X|Y]]=E[X],所以有E[˜X=E[X−ˆXM]]=0。即ˆXM是X的无偏估计。
定义随机变量W=E[˜X|Y]。令ˆXM=E[X|Y]是MMSE估 计算子,定义˜X=X−ˆX为估计误差。那么W=0,并且 对于任意的估计子g(Y)都有E[˜Xg(Y)]=0. 对于这个结论,我 们给出证明:
W=E[˜X|Y]=E[X−ˆXM|Y]=E[X|Y]−E[ˆXM|Y]=ˆXM−ˆXM=0另外,我们有E[˜Xg(Y)|Y]=g(Y)E[˜X|Y]=0,所 以E[˜Xg(Y)]=E[E[˜Xg(Y)|Y]]=0。
接下来我们证明˜X和ˆXM是不相关的。我们有:
Cov(˜X,ˆXM)=E[˜XˆXM]−E[˜X]E[ˆXM]=E[˜XˆXM]=E[˜Xg(Y)]=0因为˜X=X−ˆXM,所以X=ˆXM+˜X ,又因为˜X 和ˆXM是互不相关的,则有:
Var(X)=Var(˜X)+Var(ˆXM)上式可以解释为X的方差有一部分是估计体现的,有一部分是估计误差体现 的。如果估计值ˆXM捕捉到了X大部分的方差,那么估计误差就 会小一些。
我们把式 (21)用期望重写为:
E[X2]−E[X]2=E[˜X2]−E[˜X]2+E[ˆX2M]−E[ˆXM]2由于 E[˜X]2=0,且E[X]=E[ˆXM],则有:
E[X2]=E[˜X2]+E[ˆX2M]7 应用
MMSE估计在通信系统和信号处理领域诸多方向都会出现,比如信道追踪,信号检 测,译码,图像重建,无线定位,频偏估计等等。在这些领域,我们通常需要基 于观测估计未知的参数x∈RD ,观测方程可以表示为:
z=f(x)+n其中n是测量噪声,测量方程f(x)可以是线性的也可以是非线 性的。
有很多方法可以帮助我们从{zi}中估计出x。这些方法 可以简单的分为基于统计的和非统计的。基于统计的方法有:最大似然估计 (MLE),最大后验概率估计(MAP),最小均方误差估计(MMSE)。基于非统计 的方法有:最小二乘(LS),最优线性无偏估计(BLUE)和最小方差无偏估计 (MVU)。基于统计的估计通常以最小估计误差为优化目标,给出最优的参数估 计结果。基于非统计的估计则提供了一种当信号统计特性未知时的简单估计方法。 无论采用哪一类估计方法,估计子的无偏性和协方差都是我们要考虑的两个度量。 在一些特殊的场合,基于统计的估计算法和基于非统计的估计算法是等效的。基 于我们对系统和统计信息的掌握,我们有多种估计算法可选。例如,如果我们知 道系统测量是线性的,测量噪声是零均值高斯变量,z=Ax+n,那么我们可以使用MLE来估计 x。更进一步,如果我们知道x的先验信息p(x), 那么可以用线性的MMSE算法来估计x。
MMSE方法的目标是最小化均方误差,因此在统计意义上,这个算法是最优的(假 设已知先验信息p(x))。MSE定义为:
MSE=∫Xp(x|z)(ˆx−x)T(ˆx−x)dx其中p(x|z)是x的后验分布。则MMSE的估计结果为:
ˆxMMSE=argminˆx∫Xp(x|z)(ˆx−x)T(ˆx−x)dx通过对上式求导:
d∫Xp(x|z)(ˆx−x)T(ˆx−x)dxdˆx=0最优的MMSE估计算子是:
ˆxMMSE=∫Xp(x|z)dx可以看到,最优MMSE估计是它的后验概率期望。通常,我们使用贝叶斯链式法则 来求解后验概率:
p(x|z)=p(z|xp(x)p(z)其中p(z|x)是似然函数,p(x)是先验信息, p(z)是归一化项,可以通过全概率公式求p(z):
p(z)=∫Xp(z|x)p(x)dx对于一个特性系统或者估计问题来说,MMSE剩下的问题就是求解式 (29)中出现的统计密度。
接下来我们以线性高斯MMSE估计子为例,其系统模型为:
z=Ax+n其中n∼N(n|0,W), W是精度矩阵.另外假设目标随机变量x服从高斯分 布。
p(x)=N(x|χ,Λ)其中χ,Λ 是对应的均值矩阵和精度矩阵。
基于以上的公式,似然函数为:
p(z|x)=N(z|Ax,W)因此,基于高斯分布的特性,后验分布为:
p(x|z)∝p(z|x)p(x)=N(z|Ax,W)N(x|χ,Λ)=N(x|A+z,W′)N(x|χ,Λ)其中A+是A的广义逆,W′=ATWA 。我们发现,后验概率 p(x|z)是两个高斯分布的乘积,因此也是一个高斯分布。
p(x|z)=N(x|A+z,W′)N(x|χ,Λ)=N(x|χ†,Λ†)其中:
χ†=(Λ†)−1(W′A+z+Λx)Λ†=W′+Λ我们把W′的结果带入式 (39),则有:
χ†=(ATWA+Λ)−1(ATWz+Λχ)Λ†=ATWA+Λ之前我们知道MMSE估计结果是后验期望,所以:
ˆxMMSE=χ†=(ATWA+Λ)−1(ATWz+Λχ)接下来,我们考虑通信系统的场景。在通信系统中,x的均值通常 为0,即χ=0,所以:
ˆxMMSE=χ†=(ATWA+Λ)−1ATWz在式 (44)中W是精度矩阵。 通常,我们还会看到式 (44)使用协方差矩阵的写法。我们知道精度矩阵和协方差矩阵的关系 为:
Σn=W−1Σx=Λ−1所以式 (44)可以变为:
ˆxMMSE=(ATΣ−1nA+σ−1x)−1ATΣ−1nz=(A+Σn(AT)−1Σ−1x)−1z≈((A)TA+ΣnΣ−1x)ATz=(ATA+γ−1I)−1ATz其中γ是接收端的信噪比。如果信号功率是归一化的,那么 γ∝σ−2n 。所以在通信系统中,线性MMSE估计为:
ˆxMMSE=(ATA+σ2nI)−1ATz式~(51)在通信系统中经常出现,尤其是信道估计和符号检测模块。在 符号检测模A代表信道。