超几何分布

目录

1 定义

设一个坛子里一共有N个球,其中m个白球,Nm个黑球,从中随机的(无放回)取出n个球,令X表示取出来的白球数,那么:

P{X=i}=(mi)(Nmni)(Nn),i=0,1,,n

一个随机变量X,如果其概率分布满足式 (1)就说X服从超几何分布。

2 超几何分布的期望和方差

我们采用和 二项分布 类似的计算方法。

E[Xk]=ni=0ikP{X=i}=ni=1ik(mi)(Nmni)/(Nn)=mnNni=1ik1(m1i1)(Nmni)/(N1n1)=mnNn1j=0(j+1)k1(m1j)(Nmn1j)(N1n1)=mnNE[(Y+1)k1]

其中Y是参数为(n1,N1,m1)的超几何随机变量。在上式的求解过程中,我们用到了两个恒等式:

i(mi)=m(m1i1)n(Nn)=N(N1n1)

对于式 (2),我们令k=1,所以有:

E[X]=(mnN)

换句话说,如果从N个球(其中有m个白球)中随机抽取n个,那么其中白球数的期望为mn/N

对于式 (2),令k=2,则有:

E[X2]=mnNE[Y+1]=mnN[(n1)(m1)N1+1]

另外E[X]=mn/N,所以我们有:

Var(X)=mnN[(n1)(m1)N1+1mnN]

p=m/N,并利用恒等式:

m1N1=Np1N1=p1pN1

得到:

Var(X)=np(1p)(1n1N1)

对于超几何分布,我们知道期望为mnN=np,p=mN,p是白球的比例。当N很大时,观察 (14),我们有:

Var[X]np(1p)

回忆二项分布,我们很容易发现其和超几何分布的相似性。

3 例子

栖息于某个地区的动物个体总数为N,为了得到这个N的大致估计,神态学家常常做这样的试验:先捉住m个,然后打上标签,放回大自然。过一段时间,等这m个动物充分分散到其他动物中的时,再捕捉n个。假设X为第二批捕捉的n个动物中带标记的个数。如果前后两次捕捉过程中动物的总数没有发生变化,而且捉住每一只动物的可能性是一样的,那么X为一超几何随机变量,满足:

P{X=i}=(mi)(Nmni)(Nn)=Pi(N)

现在假设iX的观测值,那么因为Pi(N)表示该地区事实上总共有N个动物的条件下观测时间X的取值的概率,故使Pi(N)达到最大值的N值应当是动物个体总数N的一个合理估计。这样的估计称为极大似然估计估计。

Pi(N)最大值的最简单的方法是:首先注意

Pi(N)Pi(N1)=(Nm)(Nn)N(Nmn+i)

使上式中的比值大于1,则有:

(Nm)(Nn)N(Nmn+i)

或者必须有:

Nmni

所以Pi(N)值是先上升然后下降。且在不超过mn/i的最大整数处达到其最大值。这个最大整数就是N的最大似然估计。

上述估计还可以这样求得:假设在这个地区内有标记的动物所占的比例为m/N,应当近似的等于第二次捕捉的动物中做过标记的动物所占的比例i/n

4 超几何分布和二项分布的关系

N个球(白球比例为p=m/N)中,无放回随机抽取n个球,那么取中的白球数为超几何分布随机变量。如果对于n来讲,mN都很大,那么有放回和无放回取球没什么差别,因为当mN很大时,不管前面取了哪个球,接下来的取到的失败求的概率任然近似于p。换言之,当mN相比n很大时,X的分布列应该近似等于参数为(n,p)的二项随机变量的分布列。为了证明这个直觉,注意,如果X是超几何分布,那么对于in有:

P{X=i}=(mi)(Nmni)(Nn)=m!(mi)!i!(Nm)!(Nmn+i)!(ni)!(Nn)!n!N!=(ni)mNm1N1mi+1Ni+1NmNiNm1Ni1Nm(ni1)Ni(ni1)=(ni)pi(1p)ni

其中最后一个等式成立的条件时p=m/Nm,N相对于ni都很大。我们在求超几何变量的期望和方差时也验证了这个结论。