超幾何分布について

公開:
統計 #超幾何分布

超幾何分布

非復元抽出に関する確率分布で、MM 個の赤いボールと NMN-M 個の白いボールが入っている箱の中から KK 個のボールを非復元抽出したときに、XX 個が赤いボールであったときに XX が従う確率分布が超幾何分布になります。

(MX)(NMKX)/(NK)\binom{M}{X}\binom{N-M}{K-X} / \binom{N}{K}

和が 1 になる

x=0KP(X=xM,N,K)=1\sum_{x=0}^K P(X=x|M,N,K) = 1

を証明します[1]。そのために、

(a+b)n=(a+b)m(a+b)nm(a+b)^n = (a+b)^{m}(a+b)^{n-m}

の二項展開を用います。左辺は

k=0n(nk)akbnk\sum_{k=0}^n \binom{n}{k} a^k b^{n-k}

です。右辺を同様に計算して akbnka^{k}b^{n-k} の係数比較を行うのが大まかな流れです。右辺は

x=0m(mx)axbmxy=0nm(nmy)aybnmy=x=0my=0nm(mx)(nmy)ax+ybnxy\sum_{x=0}^m \binom{m}{x} a^xb^{m-x} \sum_{y=0}^{n-m} \binom{n-m}{y} a^yb^{n-m-y} \\\\ = \sum_{x=0}^m \sum_{y=0}^{n-m} \binom{m}{x} \binom{n-m}{y}a^{x+y}b^{n-x-y}

となります。x+y=kx+y=k と置き換えれば右辺にも akbnka^{k}b^{n-k} が現れるのですが、このときに係数の計算に少し注意しながら次のように変形していきます。

x=0my=0nm(mx)(nmy)ax+ybnxy=k=0n(x+y=k,x0,y0(mx)(nmy))akbnk\sum_{x=0}^m \sum_{y=0}^{n-m} \binom{m}{x} \binom{n-m}{y}a^{x+y}b^{n-x-y} \\ = \sum_{k=0}^n \left( \sum_{x+y=k, x\geq 0, y\geq 0} \binom{m}{x} \binom{n-m}{y} \right) a^{k}b^{n-k}

x+y=kx+y=k の組み合わせをまず計算してから、kk0n0 \sim n を足し合わせていくという形です。元々の左辺と右辺とを比較すると

(nk)=x+y=k,x0,y0(mx)(nmy)=x=0k(mx)(nmkx)\begin{aligned} \binom{n}{k} &= \sum_{x+y=k, x\geq 0, y\geq 0} \binom{m}{x} \binom{n-m}{y} \\\\ &= \sum_{x=0}^k \binom{m}{x} \binom{n-m}{k-x} \end{aligned}

両辺を (nk)\binom{n}{k} で割ることで題意が示せました。


脚注

  1. この証明は一見「なぜそこの計算から出発するのか…」という気分になるので、流れだけでも抑えておいたほうがいいと思います。とりあえず「愚直にシグマ計算しても導出できない」くらいは覚えておければ時間を浪費することはないかと。 ↩︎