二項分布

假設將一枚硬幣接連擲 n 次, 觀測結果用有序陣列 (a_{1}, a_{2}, ..., a_{n}) 表示. 其中, 當第 i 次擲出現正面時, a_{i} = 1; 當第 i 次擲出現反面時, a_{i} = 0, i = 1, 2, ..., n. 那麼基本事件空間具有如下形式 :

\Omega = \{ \omega : \omega = (a_{1}, a_{2}, ..., a_{n}), a_{i} = 0\ 或\ a_{i} = 1\ (i = 1, 2, ..., n) \}

賦予每一個基本事件 \omega = (a_{1}, a_{2}, ..., a_{n}) 以機率

p(\omega) = p^{\Big (\sum \limits_{i\ :\ \{ a_{i} = 1 \}}a_{i}\Big )} \cdot q^{\Big (n - \sum \limits_{i\ :\ \{ a_{i} = 1 \}}a_{i} \Big )}

其中, pq 為非負實數且 p + q = 1. 首先, 我們需要說明這樣去定義機率 p(\omega) 的合理性. 為此, 我們只需要驗證

\sum \limits_{\omega \in \Omega}p(\omega) = 1

考慮所有滿足

\sum \limits_{i\ :\ \{ a_{i} = 1 \}}a_{i} = k\ (k = 0, 1, 2, ..., n)

的基本事件 \omega = (a_{1}, a_{2}, ..., a_{n}). 這等同於將 k1 分配至 n 個位置上, 屬於不放回無序抽樣. 因此, 對於任意的正整數 k\ (0 \leq k \leq n), 這樣的基本事件個數共有 \begin {pmatrix} k \\ n \end {pmatrix}. 於是,

\begin {aligned} \sum \limits_{\omega \in \Omega}p(\omega) &= \sum \limits_{k = 0}^{n} \begin {pmatrix} k \\ n \end {pmatrix}p^{k}q^{n - k} \\ &= \begin {pmatrix} 0 \\ n \end {pmatrix}p^{0}q^{n} + \begin {pmatrix} 1 \\ n \end {pmatrix}p^{1}q^{n - 1} + ... + \begin {pmatrix} n - 1 \\ n \end {pmatrix}p^{n - 1}q^{1} + \begin {pmatrix} n \\ n \end {pmatrix}p^{n}q^{0} \\ &= q^{n} + npq^{n - 1} + ... + np^{n - 1}q + p^{n} \\ &= (p + q)^{n} \\ &= 1^{n} = 1 \end {aligned}

\mathscr {A} 為空間 \Omega 的一切子集的代數, 在 \mathscr {A} 上定義了機率

P(A) = \sum \limits_{\omega \in \Omega}p(\omega), A \in \mathscr {A}

其中, p(\{ \omega \}) = p(\omega), \omega \in \Omega. 這樣, 我們就定義了描繪 n 次擲硬幣的機率模型

事件

A_{k} = \{ \omega : \omega = (a_{1}, a_{2}, ..., a_{n}), a_{1} + a_{2} + ... + a_{n} = k \}, k = 1, 2, ..., n

表示恰好有 k 次 "成功". 由之前的討論, 我們知道

P(A_{k}) = \begin {pmatrix} k \\ n \end {pmatrix}p^{k}q^{n - k}\sum \limits_{k = 0}^{n}P(A_{k}) = 1

機率組 (P(A_{0}), P(A_{1}), P(A_{2}), ..., P(A_{n})) 稱作二項分布, 也稱在容量為 n 的樣本中, "成功" 的次數服從二項分布

例題 1. 對於投擲對稱硬幣的情形, 我們一般假定 p = \frac {1}{2}. 若我們投擲 n 次硬幣, 記 A_{k}k 次正面朝上的情形 (k = 0, 1, 2, ..., n), 則 n 次投擲中共有 k 次正面朝上的機率即為 P_{n}(k) = P(A_{k})

n = 5 時,

P_{5}(0) = \begin {pmatrix} 0 \\ 5 \end {pmatrix} \cdot \frac {1}{2^{0}} \cdot \frac {1}{2^{5}} = \frac {1}{32}

P_{5}(1) = \begin {pmatrix} 1 \\ 5 \end {pmatrix} \cdot \frac {1}{2^{1}} \cdot \frac {1}{2^{4}} = \frac {5}{32}

P_{5}(2) = \begin {pmatrix} 2 \\ 5 \end {pmatrix} \cdot \frac {1}{2^{2}} \cdot \frac {1}{2^{3}} = \frac {10}{32}

P_{5}(3) = \begin {pmatrix} 3 \\ 5 \end {pmatrix} \cdot \frac {1}{2^{3}} \cdot \frac {1}{2^{2}} = \frac {10}{32}

P_{5}(4) = \begin {pmatrix} 4 \\ 5 \end {pmatrix} \cdot \frac {1}{2^{4}} \cdot \frac {1}{2^{1}} = \frac {5}{32}

P_{5}(5) = \begin {pmatrix} 5 \\ 5 \end {pmatrix} \cdot \frac {1}{2^{5}} \cdot \frac {1}{2^{0}} = \frac {1}{32}

n = 10 時,

P_{10}(0) = \begin {pmatrix} 0 \\ 10 \end {pmatrix} \cdot \frac {1}{2^{0}} \cdot \frac {1}{2^{10}} = \frac {1}{1024}

P_{10}(1) = \begin {pmatrix} 1 \\ 10 \end {pmatrix} \cdot \frac {1}{2^{1}} \cdot \frac {1}{2^{9}} = \frac {10}{1024}

P_{10}(2) = \begin {pmatrix} 2 \\ 10 \end {pmatrix} \cdot \frac {1}{2^{2}} \cdot \frac {1}{2^{8}} = \frac {45}{1024}

P_{10}(3) = \begin {pmatrix} 3 \\ 10 \end {pmatrix} \cdot \frac {1}{2^{3}} \cdot \frac {1}{2^{7}} = \frac {120}{1024}

P_{10}(4) = \begin {pmatrix} 4 \\ 10 \end {pmatrix} \cdot \frac {1}{2^{4}} \cdot \frac {1}{2^{6}} = \frac {210}{1024}

P_{10}(5) = \begin {pmatrix} 5 \\ 10 \end {pmatrix} \cdot \frac {1}{2^{5}} \cdot \frac {1}{2^{5}} = \frac {252}{1024}

P_{10}(6) = \begin {pmatrix} 6 \\ 10 \end {pmatrix} \cdot \frac {1}{2^{6}} \cdot \frac {1}{2^{4}} = \frac {210}{1024}

P_{10}(7) = \begin {pmatrix} 7 \\ 10 \end {pmatrix} \cdot \frac {1}{2^{7}} \cdot \frac {1}{2^{3}} = \frac {120}{1024}

P_{10}(8) = \begin {pmatrix} 8 \\ 10 \end {pmatrix} \cdot \frac {1}{2^{8}} \cdot \frac {1}{2^{2}} = \frac {45}{1024}

P_{10}(9) = \begin {pmatrix} 9 \\ 10 \end {pmatrix} \cdot \frac {1}{2^{9}} \cdot \frac {1}{2^{1}} = \frac {10}{1024}

P_{10}(10) = \begin {pmatrix} 10 \\ 10 \end {pmatrix} \cdot \frac {1}{2^{10}} \cdot \frac {1}{2^{0}} = \frac {1}{1024}

...

我們發現, 不論 n 的值如何, P_{n}(k) 的值會在 k 接近 \frac {1}{2} 時達到頂峰

下面是二項分布下, 幾個幾個不同的 n 最終在圖像上的表現 :

【機率論】初等機率論 – 某些經典模型和分佈-Jonny'Blog

\blacksquare

例題 2. 設有一質點在直角座標系統的原點出發, 每經過單位時間就向上或者向下移動一步 :

【機率論】初等機率論 – 某些經典模型和分佈-Jonny'Blog

於是, 經過 n 個單位時間後, 質點移動 n 步. 顯然, 質點運動的每一條軌跡 \omega 可以用序列 (s_{1}, s_{2}, ..., s_{n}) 來表示. 對於第 i 步, 若質點向上移動, 則 s_{i} = 1; 若質點向下移動, 則 s_{i} = -1. 其中, i = 1, 2, ..., n. 現賦予每一條軌跡 \omega 以機率

p(\omega) = p^{v(\omega)}q^{n - v(\omega)}

其中, v(\omega) 表示序列 \omega 中 "1" 的個數, 即

v(\omega) = \frac {\sum \limits_{i = 1}^{n}s_{i} + n}{2}

除此之外, pq 都為非負實數且 p + q = 1

由於 \sum \limits_{\omega \in \Omega}p(\omega) = 1, 可見機率組 \{ p(\omega) \} 連同軌跡 \omega = (s_{1}, s_{2}, ..., s_{n}) 的空間 \Omega 及其子集確定了質點運動的機率模型. 那麼事件 A_{k} = \{ \text {質點經過}\ n\ \text {步到達縱座標為}\ k\ \text {的點} \} 的機率如何?

:

一切滿足 v(\omega) - (n - v(\omega)) = k, 即 v(\omega) = \frac {n + k}{2} 的軌跡都符合問題描述. 那麼上述問題可以化約為將 \frac {n + k}{2} 個 "1" 放置到 n 個位置上, 這樣, 符合描述的軌跡共有 \begin {pmatrix} \frac {n + k}{2} \\ 2 \end {pmatrix} 條, 故有

P(A_{k}) = \begin {pmatrix} \frac {n + k}{2} \\ n \end {pmatrix}p^{\frac {n + k}{2}}q^{n - \frac {n + k}{2}} = \begin {pmatrix} \frac {n + k}{2} \\ n \end {pmatrix}p^{\frac {n + k}{2}}q^{\frac {n - k}{2}}

\blacksquare

例題 2 中, 我們可以認為二項分布 \{ P(A_{-n}), P(A_{-(n - 1)}, ..., P(A_{-1}), P(A_{0}), P(A_{1}), P(A_{2}), ..., P(A_{n})) \} 描繪了質點移動 n 步後位置的機率分布. 特別地, 對於 p = \frac {1}{2} 的情形, 每條軌跡的機率為 \frac {1}{2^{n}}, 於是有

P(A_{k}) = \frac {\begin {pmatrix} \frac {n + k}{2} \\ n \end {pmatrix}}{2^{n}}

其中, -n \leq k \leq n. 接著, 我們來討論當 n \to \infty 時, 這些機率的漸進性質

若令移動步伐為 2n, 由二項式係數的性質可見, 在機率 P(A_{k})\ (|k| \leq 2n) 中的最大機率為

P(A_{0}) = \begin {pmatrix} n \\ 2n \end {pmatrix}\frac {1}{2^{2n}} = \frac {(2n)!}{(n!)^{2}} \cdot \frac {1}{2^{2n}}

由斯特靈公式, 我們知道 n! \doteq \sqrt {2\pi n}(\frac {n}{e})^{n}. 因此, 對於充分大的 n, 有

P(A_{0}) \doteq \frac {1}{\sqrt {\pi n}}

多項分布

現在, 我們推廣二項分布的機率模型. 假設基本事件空間有如下構造 :

\Omega = \{ \omega : \omega = (a_{1}, a_{2}, ..., a_{n}), a_{i} = b_{1}, b_{2}, ..., b_{r}\ (i = 1, 2, ..., n) \}

其中, b_{1}, b_{2}, ..., b_{r} 都是給定的數. 設 v_{i}(\omega) 是序列 \omega = (a_{1}, a_{2}, ..., a_{n}) 中等於 b_{i}\ (i = 1, 2, ..., r) 元素的數量, 而基本事件 \omega 的機率

p(\omega) = p_{1}^{v_{1}(\omega)}p_{2}^{v_{2}(\omega)}...p_{r}^{v_{r}(\omega)}

其中, p_{i} \geq 0\ (i = 1, 2, ..., r), p_{1} + p_{2} + ... + p_{r} = 1. 為了說明推廣後的情形仍然合理, 我們首先注意到

\sum \limits_{\omega \in \Omega}p(\omega) = \sum \limits_{ \Big \{ \begin {gathered} \scriptsize {n_{1} \geq 0, n_{2} \geq 0, ..., n_{r} \geq 0} \\ \scriptsize {n_{1} + n _{2} + ... + n_{r} = n} \end {gathered} \Big \}} \begin {pmatrix} n_{1}, n_{2}, ..., n_{r} \\ n \end {pmatrix} p_{1}^{n_{1}}p_{2}^{n_{2}}...p_{r}^{n_{r}}

上式中, \begin {pmatrix} n_{1}, n_{2}, ..., n_{r} \\ n \end {pmatrix} 表示有序序列 (a_{1}, a_{2}, ..., a_{n}) 的數量. 其中, 元素 b_{1} 重複 n_{1} 次, 元素 b_{2} 重複 n_{2} 次, ..., 元素 b_{r} 重複 n_{r} 次. 由於共有 \begin {pmatrix} n_{1} \\ n \end {pmatrix} 種方法將元素 b_{1} 放置在 n 個位置上, 共有 \begin {pmatrix} n_{2} \\ n \end {pmatrix} 種方法將元素 b_{2} 放置在 n 個位置上, ..., 共有 \begin {pmatrix} n_{r} \\ n \end {pmatrix} 種方法將元素 b_{r} 放置在 n 個位置上, 所以

\begin {aligned} \begin {pmatrix} n_{1}, n_{2}, ..., n_{r} \\ n \end {pmatrix} &= \begin {pmatrix} n_{1} \\ n \end {pmatrix}\begin {pmatrix} n_{2} \\ n - n_{1} \end {pmatrix}...\begin {pmatrix} n_{r} \\ n - (n_{1} + n_{2} + ... n_{r - 1}) \end {pmatrix} \\ &= \frac {n!}{n_{1}!(n - n_{1})!} \times \frac {n!}{n_{2}!(n - n_{1} - n_{2})!} \times ... \times 1 \\ &= \frac {n!}{n_{1}!n_{2}!...n_{r}!}\end {aligned}

\begin {aligned} \sum \limits_{\omega \in \Omega}p(\omega) &= \sum \limits_{ \Big \{ \begin {gathered} \scriptsize {n_{1} \geq 0, n_{2} \geq 0, ..., n_{r} \geq 0} \\ \scriptsize {n_{1} + n _{2} + ... + n_{r} = n} \end {gathered} \Big \}} \begin {pmatrix} n_{1}, n_{2}, ..., n_{r} \\ n \end {pmatrix} p_{1}^{n_{1}}p_{2}^{n_{2}}...p_{r}^{n_{r}} \\ &= (p_{1} + p_{2} + ... + p_{r})^{n} = 1 \end {aligned}

因此, 針對二項分布推廣後的分布仍然是機率分布

A_{n_{1}, n_{2}, ..., n_{r}} = \{ \omega : v_{1}(\omega) = n_{1}, v_{2}(\omega) = n_{2}, ..., v_{r}(\omega) = n_{r} \}

P(A_{n_{1}, n_{2}, ..., n_{r}}) = \begin {pmatrix} n_{1}, n_{2}, ..., n_{r} \\ n \end {pmatrix}p_{1}^{n_{1}}p_{2}^{n_{2}}...p_{r}^{n_{r}}

機率組 \{ P(A_{n_{1}, n_{2}, ..., n_{r}}) \} 稱為多項分布. 而二項分布是 r = 2 時, 多項分布的特例

多元超幾何分布

例題 3. 假設一箱子中有編號為 1, 2, ..., nn 個不同的球. 其中, n_{1} 個球具有顏色 c_{1}n_{2} 個球具有顏色 c_{2}, ..., n_{r} 個球具有顏色 c_{r}, n_{1} + n_{2} + ... + n_{r} = n. 現在從箱中進行 m 次不放回抽樣 (m < n). 基本事件空間為

\Omega = \{ \omega : \omega = (a_{1}, a_{2}, ..., a_{m}), a_{k} \neq a_{l}, k, l = 1, 2, ..., m, k \neq l, a_{i} = 1, 2, ..., n\ (i = 1, 2, ..., m) \}

顯然, card\Omega = (n)_{m}. 假設基本事件都是等可能的, 而事件 B_{m_{1}, m_{2}, ..., m_{r}} = \{ m_{1}\ \text {個球具有顏色}\ c_{1}, m_{2}\ \text {個球具有顏色}\ c_{2}, ..., m_{r}\ \text {個球具有顏色}\ c_{r}, m_{1} + m_{2} + ... m_{r} = m \} 的機率如何?

:

n_{i} 個具有顏色 c_{i} 的球中抽出 m_{i} 個, 共有 \begin {pmatrix} m_{i} \\ n_{i} \end {pmatrix} 種可能的結局. 其中, i = 1, 2, ..., r. 故有

card(\{ B_{m_{1}, m_{2}, ..., m_{r}} \}) = \begin {pmatrix} m_{1} \\ n_{1} \end {pmatrix}\begin {pmatrix} m_{2} \\ n_{2} \end {pmatrix}...\begin {pmatrix} m_{r} \\ n_{r} \end {pmatrix}

因此,

P(B_{m_{1}, m_{2}, ..., m_{r}}) = \frac {card(\{ B_{m_{1}, m_{2}, ..., m_{r}} \})}{card\Omega} = \frac {\begin {pmatrix} m_{1} \\ n_{1} \end {pmatrix}\begin {pmatrix} m_{2} \\ n_{2} \end {pmatrix}...\begin {pmatrix} m_{r} \\ n_{r} \end {pmatrix}}{\begin {pmatrix} m \\ n \end {pmatrix}}

\blacksquare

機率組 \{ B_{m_{1}, m_{2}, ..., m_{r}} \} 稱為多元超幾何分布. 當 r = 2 時, 多元超幾何分布退化為超幾何分布, 其母函數為超幾何函數

多元超幾何分布的構造相當複雜, 當 r = 2 時,

P(B_{m_{1}}, B_{m_{2}}) = \frac {\begin {pmatrix} m_{1} \\ n_{1} \end {pmatrix} \begin {pmatrix} m_{2} \\ n_{2} \end {pmatrix}}{\begin {pmatrix} m_{1} + m _{2} \\ n_{1} + n_{2} \end {pmatrix}}, n_{1} + n_{2} = n, m_{1} + m_{2} = m

其中包含了 9 個階乘數. 當 n \to \infty, n_{1} \to \infty\frac {n_{1}}{n} \to p 時, \frac {n_{2}}{n} \to 1 - p. 根據斯特靈公式, 有

P(B_{m_{1}}, B_{m_{2}}) \doteq \begin {pmatrix} m_{2} \\ m_{1} + m_{2} \end {pmatrix} p^{m_{1}}(1 - p)^{m_{2}}

即當 n \to \infty, n_{1} \to \infty\frac {n_{1}}{n} \to p 時, 超幾何分布逼近二項分布. 從直觀上來說, 這也是明顯的. 因為當 nn_{1} 充分大但是有限時, 不放回抽樣得到的結果幾乎和放回抽樣時一樣的

練習

自主習題 1. 證明 : 對於多項分布的機率, 若且唯若點 (k_{1}, k_{2}, ..., k_{r}) 在滿足

np_{i} - 1 <k_{i} \leq (n + r - 1)p_{i}, i = 1, 2, ..., r

時達到最大值

自主習題 2. 假設 N 是某個總體的容量, 要求在對總體的全部元素沒有簡單重複計數的情況下, 以最少的成本去估計 N 的大小. 例如, 在估計某個地區或者國家的人口等類似問題. Pierre-Simon Laplace 在 1786 年法國人口為 N 時, 提出過以下方法 : 從總體中選擇 m 個元素, 並且做上標記. 然後將這 m 個元素放回原總體, 並且與無標記的元素均衡混合. 然後從混合後的總體中再抽取 n 個元素, 其中有 x 個元素帶有標記

  1. 證明 : 由超幾何分布的公式 P(B_{m_{1}}, B_{m_{2}}) = \frac {\begin {pmatrix} m_{1} \\ n_{1} \end {pmatrix} \begin {pmatrix} m_{2} \\ n_{2} \end {pmatrix}}{\begin {pmatrix} m_{1} + m _{2} \\ n_{1} + n_{2} \end {pmatrix}}, n_{1} + n_{2} = n, m_{1} + m_{2} = m, 相應的機率 P_{N, m, n} \{ X = m \} 可以表示為

    P_{N, m, n} \{ X = M \} = \frac {\begin {pmatrix} n \\ m \end {pmatrix} \begin {pmatrix} n - M \\ N - M \end {pmatrix}}{\begin {pmatrix} n \\ N \end {pmatrix}}

  2. 假設 m, nm 固定, 對 N 求上面機率的最大值, 即求總體的 "極大概似" 容量 N, 使得對於給定的 mn, 有標記的元素個數 X = M
  3. 證明 : 對總體容量的極大概似估計值, 不妨記為 \hat {N}, 有

    \hat {N} = [\frac {nm}{M}]

    其中, [\cdot] 表示整數部分

這樣得到的估計量 \hat {N} 稱作 N 的極大概似估計量