指数分布家族
1 简介
我们学习的大多数分布都可以归类于更general的一个家族:exponential家族。在exponential的框架下,这些分布都具有同一的表现形式:
p(x|η)=h(x)g(η)exp{ηTu(x)}其中x可以是矢量也可以是标量,可以连续亦可离散。η是分布的自然参数,u(x)是x的函数,g(η)用来保证分布归一化,即:
g(η)∫h(x)exp{ηTu(x)}dx=1当x是离散随机变量时,上式的积分变为求和。
2 例子
我们尝试把一些常见的分布归类到式 (1)所示的exponential家族中。
2.1 伯努利分布
伯努利分布:
p(x|μ)=μx(1−μ)1−x把式 (3)的右端写成指数的形式,有:
p(x|μ)=exp{xlnμ+(1−x)ln(1−μ)}=(1−μ)exp{ln(μ1−μ)x}对比式 (1),我们有:
η=ln(μ1−μ)我们可以通过μ=σ(η)求出μ,其中σ(η)是:
σ(η)=11+exp(−η)式 (7)所示的函数叫做logistic sigmoid函数,这个函数的形状像一个“S”曲线。
Figure 1: logistic sigmoid函数形状
根据以上的分析我们把伯努利分布和指数家族的式子对应起来,有:
u(x)=xh(x)=1g(η)=σ(−η)2.2 多项分布
多项分布,对于x的一次观测,有:
p(x|μ)=M∏k=1μxkk=exp{M∑k=1xklnμk}因此,我们可以把式 (11)写成式 (1)的形式:
p(x|η)=exp(ηTx)其中ηk=lnμk,对比式(11)和式 (1),有:
u(x)=xh(x)=1g(η)=1注意ηk不是互相独立的,因为∑Mk=1μk=1。
2.3 高斯分布
高斯分布:
p(x|μ,σ2)=1(2πσ2)1/2exp{−12σ2(x−μ)2}=1(2πσ2)1/2exp{−12σ2x2+μσ2x−12σ2μ2}经过一些化简,我们仍然可以把式 (16)写成和式~(1)相同的形式:
η=[μ/σ2−1/2σ2]u(x)=[xx2]h(x)=(2π)−1/2g(η)=(−2η2)1/2exp(η214η2)3 最大似然估计和充分统计量
接下来我们考虑使用最大似然估计法来估计式 (1)中 η的问题。我们对式 (2)两端相对于η求梯度,则有:
∇g(η)∫h(x)exp{ηTu(x)}dx+g(η)∫h(x)exp{ηTu(x)}u(x)dx=0利用式 (2),有:
−1g(η)∇g(η)=g(η)∫h(x)exp{ηTu(x)}u(x)dx=E[u(x)]所以有:
−∇lng(η)=E[u(x)]现在考虑一组独立同分布的数据X={x1,…,xn},其似然函数为:
p(X|η)=(N∏n=1h(xn))g(η)Nexp{ηTN∑n=1u(xn)}把lnp(X|η)对η求导,并令导数为零,则有:
−∇lng(ηML)=1NN∑n=1u(xn)利用上式,我们发现求解ηML的过程中,我们只需要求出∑nu(xn)即可,这个量就叫做式 (1)的充分统计量。我们不需要存储整个数据集合,只需要存储充分统计量即可。对于伯努利分布,我们只需要存储x的和,对于高斯分布我们需要存储{xn}和{x2n}的和。当N→∞时,对于式 (27)右端变为E[u(x)]对比式(27)和式 (25)我们发现,当N→∞时,ηML=η