指数分布家族

目录

1 简介

我们学习的大多数分布都可以归类于更general的一个家族:exponential家族。在exponential的框架下,这些分布都具有同一的表现形式:

p(x|η)=h(x)g(η)exp{ηTu(x)}

其中x可以是矢量也可以是标量,可以连续亦可离散。η是分布的自然参数,u(x)x的函数,g(η)用来保证分布归一化,即:

g(η)h(x)exp{ηTu(x)}dx=1

x是离散随机变量时,上式的积分变为求和。

2 例子

我们尝试把一些常见的分布归类到式 (1)所示的exponential家族中。

2.1 伯努利分布

伯努利分布:

p(x|μ)=μx(1μ)1x

把式 (3)的右端写成指数的形式,有:

p(x|μ)=exp{xlnμ+(1x)ln(1μ)}=(1μ)exp{ln(μ1μ)x}

对比式 (1),我们有:

η=ln(μ1μ)

我们可以通过μ=σ(η)求出μ,其中σ(η)是:

σ(η)=11+exp(η)

式 (7)所示的函数叫做logistic sigmoid函数,这个函数的形状像一个“S”曲线。

20170617figurelogisticSigmoid.png

Figure 1: logistic sigmoid函数形状

根据以上的分析我们把伯努利分布和指数家族的式子对应起来,有:

u(x)=xh(x)=1g(η)=σ(η)

2.2 多项分布

多项分布,对于x的一次观测,有:

p(x|μ)=Mk=1μxkk=exp{Mk=1xklnμk}

因此,我们可以把式 (11)写成式 (1)的形式:

p(x|η)=exp(ηTx)

其中ηk=lnμk,对比式(11)和式 (1),有:

u(x)=xh(x)=1g(η)=1

注意ηk不是互相独立的,因为Mk=1μk=1

2.3 高斯分布

高斯分布:

p(x|μ,σ2)=1(2πσ2)1/2exp{12σ2(xμ)2}=1(2πσ2)1/2exp{12σ2x2+μσ2x12σ2μ2}

经过一些化简,我们仍然可以把式 (16)写成和式~(1)相同的形式:

η=[μ/σ21/2σ2]u(x)=[xx2]h(x)=(2π)1/2g(η)=(2η2)1/2exp(η214η2)

3 最大似然估计和充分统计量

接下来我们考虑使用最大似然估计法来估计式 (1)中 η的问题。我们对式 (2)两端相对于η求梯度,则有:

g(η)h(x)exp{ηTu(x)}dx+g(η)h(x)exp{ηTu(x)}u(x)dx=0

利用式 (2),有:

1g(η)g(η)=g(η)h(x)exp{ηTu(x)}u(x)dx=E[u(x)]

所以有:

lng(η)=E[u(x)]

现在考虑一组独立同分布的数据X={x1,,xn},其似然函数为:

p(X|η)=(Nn=1h(xn))g(η)Nexp{ηTNn=1u(xn)}

lnp(X|η)η求导,并令导数为零,则有:

lng(ηML)=1NNn=1u(xn)

利用上式,我们发现求解ηML的过程中,我们只需要求出nu(xn)即可,这个量就叫做式 (1)的充分统计量。我们不需要存储整个数据集合,只需要存储充分统计量即可。对于伯努利分布,我们只需要存储x的和,对于高斯分布我们需要存储{xn}{x2n}的和。当N时,对于式 (27)右端变为E[u(x)]对比式(27)和式 (25)我们发现,当N时,ηML=η