摘要訊息 : 在進行大量試驗的情況下, 試驗結果的平均值大致等於其期望.

0. 前言

《【機率論】初等機率論——條件機率與獨立性》中我們介紹了 Bernoulli 概型, 在本節中我們將要分析 Bernoulli 概型的性質, 並且導出在機率論中非常重要的大數法則.

更新紀錄 :

  • 2022 年 6 月 9 日進行第一次更新和修正.

1. 大數法則

對於 Bernoulli 概型 \displaystyle {\begin {aligned} &\Omega = \left \{ \omega : \omega = (a_{1}, a_{2}, ..., a_{n}), a_{i} = 0, 1 \ (i = 1, 2, ..., n) \right \}, \\ &\mathscr {A} = \left \{ A : A \subseteq \Omega \right \}, \mathop {\mathbf {P}}(\left \{ \omega \right \}) = p(\omega) = p^{\sum \limits_{i}a_{i}}(1 - p)^{n - \sum \limits_{i}a_{i}}, \end {aligned}} 我們引入隨機變數 \xi_{1}, \xi_{2}, ..., \xi_{n}. 其中, \xi_{i} = \xi_{i}(\omega) = a_{i}, i = 1, 2, ..., n, 而 \omega = (a_{1}, a_{2}, ..., a_{n}). 顯然, \displaystyle {\mathop {\mathbf {P}} \left \{ \xi_{i} = 1 \right \} = p \text { 且 } \mathop {\mathbf {P}} \left \{ \xi_{i} = 0 \right \} = 1 - p = q, i = 1, 2, ..., n,} 隨機變數 \xi_{i} 表示了在時刻 i 時的 Bernoulli 試驗結果.

S_{0}(\omega) = 0, \displaystyle {S_{k} = \xi_{1} + \xi_{2} + ... + \xi_{k}.} 其中, k = 1, 2, …, n. 由《【機率論】初等機率論——隨機變數及其特徵》例題 5, 我們已經知道 \mathop {\mathrm {E}}(S_{n}) = np. 那麼根據期望的性質, 有 \displaystyle {\frac {1}{n}\mathop {\mathrm {E}}(S_{n}) = \mathop {\mathrm {E}} \left ( \frac {S_{n}}{n} \right ) = p}. 換句話說, "成功" 的頻率 \frac {S_{n}}{n} 的平均值等於成功的機率 p. 由此自然產生了一個問題 : "成功" 的頻率 \frac {S_{n}}{n} 對 "成功" 的機率 p 的絕對偏差的大小如何?

我們首先指出, 對於充分小的 \varepsilon > 0 和充分大的 n, 都不能使得對於任意事件 \omega, 頻率 \frac {S_{n}}{n} 對 "成功" 機率 p 的絕對偏差都小於 \varepsilon. 即對於任意事件 \omega, \displaystyle {\left |\frac {S_{n}(\omega)}{n} - p \right | < \varepsilon, \omega \in \Omega \ \ \ \ \ \ \ \ \ \ (\mathrm {I})} 並不一定成立. 事實上, 對於 0 < p < 1, 由 \displaystyle {\mathop {\mathbf {P}} \left \{ \frac {S_{n}}{n} = 1 \right \} = \mathop {\mathbf {P}} \left \{ \xi_{1} = 1, \xi_{2} = 1, ..., \xi_{n} = 1 \right \} = p^{n}}\displaystyle {\mathop {\mathbf {P}} \left \{ \frac {S_{n}}{n} = 0 \right \} = \mathop {\mathbf {P}} \left \{ \xi_{1} = 0, \xi_{2} = 0 …, \xi_{n} = 0 \right \} = q^{n}} 可見, p^{n}q^{n} 都是固定的值, 對於充分小的 \varepsilon > 0, \left | \frac {S_{n}(\omega)}{n} - p \right | 是一個常數, 並不能使其任意小. 此時, 不等式 (\mathrm {I}) 不成立. 但是, 從直觀上來看, \left | \frac {S_{n}(\omega)}{n} - p \right | < \varepsilon應當成立的 (雖然實際不成立). 因為當 n 很大的時候, 事件 \left \{ \frac {S_{n}}{n} = 1 \right \}\left \{ \frac {S_{n}}{n} = 0 \right \} 發生的機率都非常小. 但是, 這仍然沒有辦法證明 \left | \frac {S_{n}(\omega)}{n} - p \right | < \varepsilon 的成立, 因為數學是嚴謹的. 因此, 我們自然想到, 當 n 充分大的時候, 使得 \displaystyle {\left | \frac {S_{n}(\omega)}{n} - p \right | \geq \varepsilon} 成立的 "結局 \omega 的全體" 的機率也比較小. 故實際上我們可以設法估計事件 \displaystyle {\left \{ \omega : \left | \frac {S_{n}(\omega)}{n} - p \right | \geq \varepsilon \right \}} 的機率 \mathop {\mathbf {P}} \left \{ \omega : \left | \frac {S_{n}(\omega)}{n} - p \right | \geq \varepsilon \right \}.

引理 1. (P. L. Chebyshev 不等式) 設 (\Omega, \mathscr {A}, \mathbf {P}) 是某一機率空間, \xi = \xi(\omega) 是非負隨機變數. 那麼對於任意 \varepsilon > 0, 有 \displaystyle {\mathop {\mathbf {P}} \left \{ \xi \geq \varepsilon \right \} \leq \frac {1}{\varepsilon}\mathop {\mathrm {E}}(\xi)}.

證明 :

我們首先注意到 \displaystyle {\begin {aligned} \xi &= \xi\mu_{A \subseteq \mathscr {A}}(\xi \geq \varepsilon) + \xi\mu_{A \subseteq \mathscr {A}}(\xi < \varepsilon) \\ &\geq \xi\mu_{A \subseteq \mathscr {A}}(\xi \geq \varepsilon) \\ &\geq \varepsilon\mu_{A \subseteq \mathscr {A}}(\xi \geq \varepsilon). \end {aligned}} 於是, 根據期望的性質和定義, 有 \displaystyle {\mathop {\mathrm {E}}(\xi) \geq \varepsilon \mathop {\mathrm {E}}(\mu_{A \subseteq \mathscr {A}}(\xi \geq \varepsilon)) = \varepsilon \mathop {\mathbf {P}} \left \{ \xi \geq \varepsilon \right \}}. 變換後可得 \displaystyle {\mathop {\mathbf {P}} \left \{ \xi \geq \varepsilon \right \} \leq \frac {1}{\varepsilon}\mathop {\mathrm {E}}(\xi)}.

\blacksquare

另外, 設 \xi 是任意隨機變數, 則對任意 \varepsilon > 0, 我們可以根據引理 1 作出如下推導 : \displaystyle {\begin {aligned} \mathop {\mathbf {P}} \left \{ \xi \geq \varepsilon \right \} \leq \frac {1}{\varepsilon}\mathop {\mathrm {E}}(\xi) &\Rightarrow \mathop {\mathbf {P}} \left \{ |\xi| \geq \varepsilon \right \} \leq \frac {1}{\varepsilon}\mathop {\mathrm {E}}(|\xi|) \\ &\Rightarrow \mathop {\mathbf {P}} \left \{ |\xi| \geq |\varepsilon| \right \} = \mathop {\mathbf {P}} \left \{ \xi^{2} \geq \varepsilon^{2} \right \} \leq \frac {1}{\varepsilon^{2}}\mathop {\mathrm {E}}(\xi^{2}) \\ &\Rightarrow \mathop {\mathbf {P}} \left \{ |\xi - \mathop {\mathrm {E}}(\xi)| \geq \varepsilon \right \} = \mathop {\mathbf {P}} \left \{ (\xi - \mathop {\mathrm {E}}(\xi))^{2} \geq \varepsilon^{2} \right \} \\ &\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \leq \frac {1}{\varepsilon^{2}}\mathop {\mathrm {E}} \left ( (\xi - \mathop {\mathrm {E}}(\xi))^{2} \right ) = \frac {1}{\varepsilon^{2}}\mathop {\mathrm {Var}}(\xi). \end {aligned}}

引理 2.\xi_{1}, \xi_{2}, ..., \xi_{n} 是獨立的 Bernoulli 隨機變數, 且 S_{n} = \xi_{1} + \xi_{2} + ... + \xi_{n}, 則 \displaystyle {\mathop {\mathrm {Var}}(S_{n}) = npq}. 其中, \xi_{i}pq 的機率分別取 10 為值, i = 1, 2, ..., n.

證明 :

\xi 是 Bernoulli 隨機變數, 以 pq 的機率分別取 10 為值. 則 \displaystyle {\mathop {\mathrm {Var}}(\xi) = \mathop {\mathrm {E}}(\xi^{2}) - \mathop {\mathrm {E}}^{2}(\xi)}. 根據期望的定義, 有 \displaystyle {\mathop {\mathrm {E}}(\xi^{2}) = \sum \limits_{i = 1}^{k}x_{i}^{2}P_{\xi}(x_{i}) = 0^{2} \times P_{\xi}(0) + 1^{2} \times P_{\xi}(1) = p}\displaystyle {\mathop {\mathrm {E}}^{2}(\xi) = (0 \times P_{\xi}(0) + 1 \times P_{\xi}(1))^{2} = p^{2}},\mathop {\mathrm {Var}}(\xi) = p - p^{2} = p(1 - p) = pq. 顯然, 對於任意 i = 1, 2, ..., n, 都有 \displaystyle {\mathop {\mathrm {Var}}(\xi_{i}) = pq}. 由於 \mathop {\mathrm {Var}}(\xi + \eta) = \mathop {\mathrm {Var}}(\xi) + \mathop {\mathrm {Var}}(\eta) + 2\mathop {\mathrm {E}}(\xi\eta) - 2\mathop {\mathrm {E}}(\xi)\mathop {\mathrm {E}}(\eta), 當隨機變數 \xi\eta 相互獨立時, 有 \mathop {\mathrm {Var}}(\xi + \eta) = \mathop {\mathrm {Var}}(\xi) + \mathop {\mathrm {Var}}(\eta). 於是, \displaystyle {\mathop {\mathrm {Var}}(\xi_{1} + \xi_{2} + ... + \xi_{n}) = \mathop {\mathrm {Var}} \left ( \sum \limits_{i = 1}^{n}\xi_{i} \right ) = \sum \limits_{i = 1}^{n}\mathop {\mathrm {Var}}(\xi_{i})}.

綜上所述, \mathop {\mathrm {Var}}(S_{n}) = npq.

\blacksquare

結合引理 1 的推導和引理 2, 設隨機變數 \xi = \frac {S_{n}}{n}, 有 \displaystyle {\begin {aligned} \mathop {\mathbf {P}} \left \{ \left | \frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} &\leq \frac {\mathop {\mathrm {Var}} \left ( \frac {S_{n}}{n} \right )}{\varepsilon^{2}} = \frac {\mathop {\mathrm {Var}}(S_{n})}{n^{2}\varepsilon^{2}} = \frac {npq}{n^{2}\varepsilon^{2}} = \frac {pq}{n\varepsilon^{2}} \\ &= \frac {p(1 - p)}{n\varepsilon^{2}} = \frac {p - p^{2}}{n\varepsilon^{2}} \leq \frac {p - p^{2}}{n\varepsilon^{2}} \\ &\leq \frac {1}{4n\varepsilon^{2}} \ \left ( \text {函數 } f(p) = p - p^{2} \text { 在 } p = \frac {1}{2} \text { 時取得最大值} \frac {1}{4} \right ). \end {aligned}} 由此可見, 當 n 充分大的時候, 儘管無法保證 "成功" 頻率 \frac {S_{n}}{n} 對 "成功" 機率 p 的絕對偏差小於任意充分小的 \varepsilon > 0, 但是 "成功" 頻率 \frac {S_{n}}{n} 對 "成功" 機率 p 的絕對偏差大於任意給定的 \varepsilon > 0 這個事件的機率充分小.

對於一切的 nk (1 \leq k \leq n), 記 \displaystyle {P_{n}(k) = \binom {k}{n}p^{k}q^{n - k}},\displaystyle {\mathop {\mathbf {P}} \left \{ \left | \frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} = \sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \leq \frac {pq}{n\varepsilon^{2}} \leq \frac {1}{4n\varepsilon^{2}}}. 我們視 n 為試驗次數, k 為 "成功" 次數. 由此可見, 我們運用機率論中的知識進行分析, 同樣得到了 \mathop {\mathbf {P}} \left \{ \left |\frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} \leq \frac {1}{4n\varepsilon^{2}}. 於是, 我們可以得到, \displaystyle {\sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \to 0 \ (n \to \infty).\ \ \ \ \ \ \ \ \ \ (\mathrm {II})}

對於二項分佈 \left \{ P_{n}(k), 0 \leq k \leq n \right \} (p = \frac {1}{2}), 作圖可知

Figure 1. [np - n\varepsilon, np + n\varepsilon]

結合《【機率論】初等機率論——某些經典模型和分佈》中的例題 1, 我們可以得到機率 P_{n}(k)k = np 處達到最大值 P_{m} = \frac {1}{\sqrt {\frac {n}{2}\pi}}. 另外, Figure 1 還顯示 : 若將機率 P_{n}(k)k 求和, 對於 n(p - \varepsilon) \leq k \leq n(p + \varepsilon), 其機率接近 1. 我們把一系列隨機變數 S_{0}, S_{1}, S_{2}, ..., S_{n} 視為某游動的質點, 對於式 (\mathrm {II}) 可以作如下解釋 : 過原點引入三條直線 : k(p - \varepsilon), kp, k(p + \varepsilon), 那麼質點軌道總的趨勢是沿直線運動. 對於任意 \varepsilon > 0, 可以斷定對於充分大的 n, 表示質點在時刻 n 位置的點 S_{n} 位於區間 [n(p - \varepsilon), n(p + \varepsilon)].

根據之前的討論, 我們將 (\mathrm {II}) 又可以表示為 \displaystyle {\mathop {\mathbf {P}} \left \{ \left | \frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} \to 0\ (n \to \infty). \ \ \ \ \ \ \ \ \ \ (\mathrm {III})} 此處存在一個細節, 若機率 \mathop {\mathbf {P}} 在某空間 (\Omega, \mathscr {A}) 上, 空間 (\Omega, \mathscr {A}) 上定義了無窮多個獨立的 Bernoulli 隨機變數 \xi_{1}, \xi_{2}, ..., 那麼 (\mathrm {III}) 式依然正確.

\left ( \Omega^{(n)}, \mathscr {A}^{(n)}, \mathop {\mathbf {P}}^{(n)} \right ), n \geq 1 是 Bernoulli 概型序列 : \displaystyle {\begin {aligned} &\Omega^{(n)} = \left \{ \omega^{(n)} : \omega^{(n)} = \left ( a_{1}^{(n)}, a_{2}^{(n)}, ..., a_{n}^{(n)} \right ), a_{i}^{(n)} = 0, 1 \ (i = 1, 2, ..., n) \right \}, \\ &\ \ \ \ \mathscr {A}^{(n)} = \left \{ A : A \subseteq \Omega^{(n)} \right \}, \mathop {\mathbf {P}}^{(n)} \left (\left \{ \omega^{(n)} \right \} \right) = p^{\sum \limits_{i}a_{i}^{(n)}}q^{n - \sum \limits_{i}a_{i}^{(n)}}. \end {aligned}}\displaystyle {S_{k}^{(n)} \left ( \omega^{(n)} \right ) = \left ( \xi_{1}^{(n)}(\omega), \xi_{2}^{(n)}(\omega), ..., \xi_{k}^{(n)}(\omega) \right )}. 其中, 對於 n \geq 1, \xi_{1}^{(n)}, \xi_{2}^{(n)}, ..., \xi_{n}^{(n)} 是獨立同分佈的 Bernoulli 隨機變數序列, 則 \displaystyle {\begin {aligned}&\mathop {\mathbf {P}}^{(n)} \left \{ \omega^{(n)} : \left | \frac {S_{n}^{(n)}(\omega^{(n)})}{n} - p \right | \geq \varepsilon \right \} \\ &= \sum \limits_{\left \{ k : \left |\frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \to 0\ (n \to \infty). \end {aligned}} \ \ \ \ \ \ \ \ \ \ (\mathrm {IV}) 我們統稱式 (\mathrm {II}), (\mathrm {III})(\mathrm {IV}) 的命題為 Bernoulli 大數法則 (Bernoulli’s law of large numbers).

對於充分大的 n, 二項分佈 "尾部" 機率 \sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) 的計算相當困難, 況且所得 "頻率 \frac {S_{n}}{p} 對機率 \mathop {\mathbf {P}} 的絕對偏差小於任意給定的 \varepsilon > 0" 事件的機率估計式也難以實際應用. 我們指出, 對於充分大的 n 和至少滿足了 k \doteq npk, 有 \displaystyle {P_{n}(k) \doteq \frac {1}{\sqrt {2\pi npq}}\mathrm {e}^{-\frac {(k - np)^{2}}{2npq}}},\displaystyle {\sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \doteq \frac {1}{\sqrt {2\pi}} \int_{-\varepsilon\sqrt {\frac {n}{pq}}}^{\varepsilon\sqrt {\frac {n}{pq}}}\mathrm {e}^{-\frac {x^{2}}{2}}\mathrm {d}{x}}.

2. 大數法則的意義

假設進行大量例如 N 系列試驗的試驗, 而每一系列試驗包括 "n 次獨立試驗, 而每次試驗都以機率 p 出現事件 C". 設 \frac {S_{n}^{i}}{n} 是事件 C 在第 i 系列試驗中出現的頻率, N_{\varepsilon} 是 "頻率對機率的絕對偏差不大於 \varepsilon" 系列數, 即 N_{\varepsilon} 等於使得 \left | \frac {S_{n}^{i}}{n} - p \right | \leq \varepsiloni 個數, 亦即滿足 \left | \frac {S_{n}^{i}}{n} - p \right | \leq \varepsiloni 的數量. 那麼, 由大數法則可見 \displaystyle {\frac {N_{\varepsilon}}{N} \doteq P_{\varepsilon}}. 其中, P_{\varepsilon} = \mathop {\mathbf {P}} \left \{ \left | \frac {S_{n}^{1}}{n} - p \right | \leq \varepsilon \right \}. 這便是大數法則的意義.

3. 觀測次數

考慮上面得到的估計 \displaystyle {\mathop {\mathbf {P}} \left \{ \left | \frac {S_{n}^{i}}{n} - p \right | \geq \varepsilon \right \} = \sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \leq \frac {1}{4n\varepsilon^{2}}. \ \ \ \ \ \ \ \ \ \ (\mathrm {V})} 我們由此產生一個問題 : 對於任意 0 < p < 1, 保證不等式 \displaystyle {\mathop {\mathbf {P}} \left \{ \left | \frac {S_{n}}{n} - p \right | \leq \varepsilon \right \} \geq 1 - \alpha. \ \ \ \ \ \ \ \ \ \ (\mathrm {VI})} 成立的最小觀測次數 n 如何? 其中, \alpha 是給定的通常較小的常數.

給定式 (\mathrm {V})(\mathrm {VI}), 我們可以得到, 當 n \geq \frac {1}{4\varepsilon^{2}\alpha} 時, 我們便可以得到最小觀測次數 \left \lceil \frac {1}{4\varepsilon^{2}\alpha} \right \rceil. 上面的估計是基於 Chebyshev 不等式的. 需要指出的是, 基於 Chebyshev 不等式的估計較為粗略.

4. 熵

\displaystyle {C(n, \varepsilon) = \left \{ \omega : \left | \frac {S_{n}(\omega)}{n} - p \right | \leq \varepsilon \right \}}, 由大數法則可見, 對於任意 \varepsilon > 0, 當 n 充分大時, \mathop {\mathbf {P}}(C(n, \varepsilon)) 接近於 1. 這時, C(n, \varepsilon) 中的軌道實現的 \omega 稱作經典的或者 C(n, \varepsilon) -典型的. 那麼典型實現的條數 \mathop {\mathrm {card}}{C(n, \varepsilon)} 以及每一條經典實現的權 p(\omega) 如何?

顯然, 基本事件空間 \Omega 中的事件總數為 2^{n} 個, 即 \mathop {\mathrm {card}}{\Omega} = 2^{n}. 對於 p = 0 或者 p = 1, 典型軌道分別有且唯有一條 : (1, 1, ..., 1)(0, 0, ..., 0). 此時, \mathop {\mathrm {card}}{C(n, \varepsilon)} = 1. 但是, 假如 p = \frac {1}{2}, 則直觀上顯然, 幾乎一切軌道 (除了上面提到的兩條之外) 都是經典的. 因此, 直觀上來說, \mathop {\mathrm {card}}{C(n, \varepsilon)} 接近於 2^{n}.

我們指出, 對於 0 < p < 1, 無論是典型軌道數量還是權重 p(\omega), 都取決於 p 的某一特定函數—— (entropy).

(p_{1}, p_{2}, ..., p_{r}) 是一有限機率分佈, 即滿足條件 p_{1} + p_{2} + ... + p_{r} = 1, 且 p_{i} 為非負實數. 其中, i = 1, 2, ..., r. 稱 \displaystyle {H = -\sum \limits_{i = 1}^{r}p_{i}\ln {p_{i}}} 為機率分佈 (p_{1}, p_{2}, ..., p_{r}) 的熵. 同時我們規定當 p_{i} = 0 時, 令 p_{i}\ln {p_{i}} = 0 (i = 1, 2, …, r).

顯然, H \geq 0, 且 H = 0 若且唯若 p_{1}, p_{2}, ..., p_{r} 中有一個值為 1, 其餘值為 0. 記函數 f(x) = -x\ln {x}\ (0 < x < 1), 則根據 f''(x) = -\frac {1}{x} 可知 f(x)(0, 1) 上時凸函數. 由凸函數的性質, 有 \displaystyle {\frac {f(x_{1}) + f(x_{2}) + ... + f(x_{r})}{r} \leq f \left ( \frac {x_{1} + x_{2} + ... + x_{r}}{r} \right )}. 從而有 \displaystyle {\begin {aligned} H &= -\sum \limits_{i = 1}^{r}p_{i} \ln {p_{i}} = -p_{1}\ln {p_{1}} - p_{2}\ln {p_{2}} - ... - p_{r}\ln {p_{r}} \\ &= r \cdot \frac {-p_{1}\ln {p_{1}} - p_{2}\ln {p_{2}} - ... - p_{r}\ln {p_{r}}}{r} \\ &= r \cdot \frac {f(p_{1}) + f(p_{2}) + ... + f(p_{r})}{r} \leq r \cdot f \left ( \frac {p_{1} + p_{2} + ... + p_{r}}{r} \right ) \\ &= -r \cdot \frac {p_{1} + p_{2} + ... + p_{r}}{r} \ln {\frac {p_{1} + p_{2} + ... + p_{r}}{r}} \\ &= -(p_{1} + p_{2} + ... + p_{r})\ln {\frac {p_{1} + p_{2} + ... + p_{r}}{r}}. \end {aligned}} 由於 p_{1} + p_{2} + ... + p_{r} = 1, 於是有 H \leq \ln {r}. 要使得熵取到最大值, 即 H = \ln {r}, 若且唯若 p_{1} = p_{2} = ... = p_{r} = \frac {1}{r} 時成立.

如果把 p_{1}, p_{2}, ..., p_{r} 視為事件 A_{1}, A_{2}, ..., A_{r} 出現的機率, 那麼某事件發生的不確定性程度對於不同的分佈來說是不同的. 例如 p_{1} = 1, p_{2} = p_{3} = ... = p_{r} = 0, 那麼我們可以說事件 A_{1} 必然發生. 對於 p_{1} = p_{2} = ... = p_{r} = \frac {1}{r}, 我們沒辦法肯定某個事件必然發生, 這樣的分佈具有最大的不確定性. 為了比較不同分佈的不確定性, 需要有不同的不確定性的數字度量, 這便是熵.

假設 \displaystyle {\Omega = \left \{ \omega : \omega = (a_{1}, a_{2}, ..., a_{n}), a_{i} = 1, 2, ..., r \ (i = 1, 2, ..., n) \right \}} 是基本事件空間, 其中 p(\omega) = p_{1}^{\upsilon_{1}(\omega)}p_{2}^{\upsilon_{2}(\omega)}...p_{r}^{\upsilon_{r}(\omega)}, \upsilon_{i}(\omega) 是序列 \omega 中第 i 個元素 a_{i} 的數量, i = 1, 2, ..., r, 而 (p_{1}, p_{2}, ..., p_{r}) 是某一機率分佈. 對於任意 \varepsilon > 0, 設 \displaystyle {C(n, \varepsilon) = \left \{ \omega : \left | \frac {\upsilon_{i}(\omega)}{n} - p_{i} \right | < \varepsilon, i = 1, 2, ..., r \right \}}. 顯然, \displaystyle {\mathop {\mathbf {P}}(C(n, \varepsilon)) \geq 1 - \sum \limits_{i = 1}^{r}\mathop {\mathbf {P}} \left \{ \omega : \left | \frac {\upsilon_{i}(\omega)}{n} - p_{i} \right | \geq \varepsilon, i = 1, 2, ..., r \right \}}. 並且, 由大數法則可知, 該式也適用於隨機變數 \displaystyle {\xi_{k}(\omega) = \begin {cases} 1 & {a_{k} = i} \\ 0 & {a_{k} \neq i} \end {cases}, k = 1, 2, ..., n}. 機率 \mathop {\mathbf {P}} \left \{ \omega : \left |\frac {\upsilon_{i}(\omega)}{n} - p_{i} \right | \geq \varepsilon, i = 1, 2, ..., r \right \} 充分地小. 因此, 對於充分大的 n, C(n, \varepsilon) 的機率接近於 1. 進入 C(n, \varepsilon) 的軌道也被稱為典型的.

如果對於所有 p_{i} > 0\ (i = 1, 2, ..., r), 則對於任何 \omega \in \Omega, 權重 p(\omega) 被定義為 \displaystyle {p(\omega) = \exp \left \{ -n\sum \limits_{k = 1}^{r} \left ( -\frac {\upsilon_{k}(\omega)}{n}\ln {p_{k}} \right ) \right \}}. 其中, \exp \left \{ \cdot \right \} = \mathrm {e}^{\cdot}. 因此, 如果 \omega 是典型軌道, 由熵的定義, 有 \displaystyle {\left | \sum \limits_{i = 1}^{r} \left ( -\frac {\upsilon_{i}(\omega)}{n} \ln {p_{i}} \right ) - H \right | \leq -\sum \limits_{i = 1}^{r}\left | \frac {\upsilon_{i}(\omega)}{n} - p_{i} \right |\ln {p_{i}} \leq -\varepsilon\sum \limits_{i = 1}^{r}\ln {p_{i}}}. 由此可見, 典型軌道的機率 p(\omega) 接近於 \mathrm {e}^{-nH}. 因為由於大數法則當 n 充分大的時候, 典型軌道的條數幾乎尋訪了 \Omega 中所有的點, 而 \Omega 中軌道的條數是 \mathrm {e}^{nH} 數量級的. 我們將上述討論歸納一下.

定理 1. (B. McMillan 定理) 設 p_{i} > 0\ (i = 1, 2, ..., r), 0 < \varepsilon < 1, 則存在一個自然數 n_{0} = n_{0}(\varepsilon_{i}p_{1}, p_{r}, ..., p_{r}), 使得對於一切的 n > n_{0}, 有

  1. \mathrm {e}^{n(H - \varepsilon)} \leq \mathop {\mathrm {card}}{C(n, \varepsilon_{1})} \leq \mathrm {e}^{n(H + \varepsilon)};
  2. \mathrm {e}^{-n(H + \varepsilon)} \leq p(\omega) \leq \mathrm {e}^{-n(H - \varepsilon)}, 其中, \omega \in C(n, \varepsilon_{1});
  3. \mathop {\mathbf {P}}(C(n, \varepsilon)) = \sum \limits_{\left \{ \omega \in C(n, \varepsilon_{1}) \right \}}p(\omega) \to 1. 其中 n \to \infty.

其中, \varepsilon_{1} = \min \left \{ \varepsilon, -\frac {\varepsilon}{2\sum \limits_{k = 1}^{r}\ln {p_{k}}} \right \}.

證明 :

大數法則顯示, (3) 顯然正確.

(3) \square

注意到, 若 \omega \in C(n, \varepsilon_{1}), 則 \displaystyle {np_{k} - \varepsilon_{1}n < \upsilon_{k}(\omega) < np_{k} + \varepsilon_{1}n \ (k = 1, 2, ..., r)} 因此, \displaystyle {\begin {aligned} p(\omega) &= \exp \left \{ -\sum \limits_{k}\upsilon_{k}\ln {p_{k}} \right \} \\ &< \exp \left \{ -n\sum \limits_{k}\upsilon_{k}\ln {p_{k}} - \varepsilon_{1}n\sum \limits_{k}\ln {p_{k}} \right \} \\ &\leq \exp \left \{ -n \left ( H - \frac {\varepsilon}{2} \right ) \right \}. \end {aligned}} 同理, 有 \displaystyle {p(\omega) \geq \exp \left \{ -n \left ( H + \frac {\varepsilon}{2} \right ) \right \}}. 綜上, 於是有 \mathrm {e}^{-n(H + \varepsilon)} \leq p(\omega) \leq \mathrm {e}^{-n(H - \varepsilon)}, \omega \in C(n, \varepsilon_{1}).

(2) \square

由於 \mathop {\mathbf {P}}(C(n, \varepsilon_{1})) \geq \mathop {\mathrm {card}}{C(n, \varepsilon_{1})} \times \min \limits_{\left \{ \omega \in C(n, \varepsilon_{1}) \right \}}p(\omega), 則 \displaystyle {\mathop {\mathrm {card}}{C(n, \varepsilon_{1})} \leq \frac {\mathop {\mathbf {P}}(C(n, \varepsilon_{1}))}{\min \limits_{\left \{ \omega \in C(n, \varepsilon_{1}) \right \}}p(\omega)} < \frac {1}{\mathrm {e}^{-n \left ( H + \frac {\varepsilon}{2} \right )}} = \mathrm {e}^{n \left ( H + \frac {\varepsilon}{2} \right )}}. 類似地, \displaystyle {\mathop {\mathrm {card}}C(n, \varepsilon_{1}) \geq \frac {\mathop {\mathbf {P}}(C(n, \varepsilon_{1}))}{\max \limits_{\left \{ \omega \in C(n, \varepsilon_{1}) \right \}}p(\omega)} > \mathop {\mathbf {P}}(C(n, \varepsilon_{1}))\mathrm {e}^{n \left ( H - \frac {\varepsilon}{2} \right )}}. 由於 \mathop {\mathbf {P}}(C(n, \varepsilon_{1})) \to 1 \ (n \to \infty), 可見, 存在 n 使得當 n > n_{1} 時, 有 \displaystyle {\mathop {\mathbf {P}}(C(n, \varepsilon_{1})) > 1 - \varepsilon}.\displaystyle {\mathop {\mathrm {card}}{C(n, \varepsilon_{1})} \geq (1 - \varepsilon)\mathrm {e}^{n \left ( H - \frac {\varepsilon}{2} \right )} = \mathrm {e}^{n(H - \varepsilon) + \left ( \frac {n\varepsilon}{2} + \ln {(1 - \varepsilon)} \right )}}.n_{2} 滿足對於 n > n_{2}, 有 \frac {n\varepsilon}{2} + \ln {(1 - \varepsilon)} > 0, 則對於 n \geq n_{0} = \max \left \{ n_{1}, n_{2} \right \}, 有 \displaystyle {\mathop {\mathrm {card}}{C(n, \varepsilon_{1})} \geq \mathrm {e}^{n(H - \varepsilon)}}. 綜上, \mathrm {e}^{n(H - \varepsilon)} \leq \mathop {\mathrm {card}}{C(n, \varepsilon_{1})} \leq \mathrm {e}^{n(H + \varepsilon)} 成立.

(3) \square

\blacksquare

利用 Bernoulli 概型的大數法則, 可以給予 K. T. W. Wierstrass 定理 "以多項式逼近連續函數" 以簡單雅致的證明 :

證明 :

f(p) 是線段 [0, 1] 上的連續函數. 引入 Bernstein 多項式 \displaystyle {B_{n}(p) = \sum \limits_{k = 0}^{n}f \left ( \frac {k}{n} \right )\binom {k}{n}p^{k}(1 - p)^{n - k}, 0 \leq p \leq 1, n \geq 0}.\xi_{1}, \xi_{2}, ..., \xi_{n} 是獨立 Bernoulli 隨機變速序列, 且 \mathop {\mathbf {P}} \left \{ \xi_{i} = 1 \right \} = p, \mathop {\mathbf {P}} \left \{ \xi_{1} = 0 \right \} = q. 設 S_{n} = \xi_{1} + \xi_{2} + ... + \xi_{n}, 則 \displaystyle {\mathop {\mathrm {E}}\left ( f \left ( \frac {S_{n}}{n} \right ) \right ) = B_{n}(p)}.

由於在閉區間 [0, 1] 上的連續函數 f = f(p) 一致連續, 可見對於任意 \varepsilon > 0, 存在 \delta > 0, 使得當 \left | x - y \right | \leq \delta 時, \left | f(x) - f(y) \right | \leq \varepsilon. 顯然, 這樣的函數有界 : |f(x)| \leq M. 其中, M 為常數且 M \geq 0. 由不等式 \mathop {\mathbf {P}} \left \{ \left |\frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} \leq \frac {p(1 - p)}{n\varepsilon^{2}} \leq \frac {1}{4n\varepsilon^{2}} 可知, \displaystyle {\begin {aligned} \left | f(p) - B_{n}(p) \right | &= \left | \sum \limits_{k = 0}^{n} \left ( f(p) - f \left ( \frac {k}{n} \right ) \right )\binom {k}{n}p^{k}(1 - p)^{n - k} \right | \\ &\leq \sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | \leq \delta \right \}}\left | f(p) - f \left ( \frac {k}{n} \right ) \right | \binom {k}{n}p^{k}(1 - p)^{n - k} + \\ &\ \ \ \ \ \sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | > \delta \right \}}\left | f(p) - f \left ( \frac {k}{n} \right ) \right | \binom {k}{n}p^{k}(1 - p)^{n - k} \\ &\leq \varepsilon + 2M\sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | > \delta \right \}}\binom {k}{n}p^{k}(1 - p)^{n - k} \\ &\leq \varepsilon + \frac {2M}{4n\varepsilon^{2}} = \varepsilon + \frac {M}{2n\delta^{2}}. \end {aligned}}

於是有 \lim \limits_{n \to \infty} \max \limits_{0 \leq p \leq 1} \left | f(p) - B_{n}(p) \right | = 0.

\blacksquare

5. 練習題

自主習題 1. 設隨機變數 \xi\eta 的相關係數為 \rho. 證明 : 對於任意 \varepsilon > 0, 有 \displaystyle {\mathop {\mathbf {P}} \left \{ \left | \xi - \mathop {\mathrm {E}}(\xi) \right | \geq \varepsilon\sqrt {\text {Var}(\xi)} \text { 或 } \left | \eta - \mathop {\mathrm {E}}(\eta) \right | \geq \varepsilon\sqrt {\mathop {\mathrm {Var}}(\eta)} \right \}}.

自主習題 2.f = f(x) 為非負偶函數, 且當 x > 0 時單調非減. 設 \xi = \xi(\omega) 是非負隨機變數, 且 \left | \xi(\omega) \right | \leq C. 證明 : 對於任意 \varepsilon > 0, 有 \displaystyle {\mathop {\mathbf {P}} \left \{ | \xi| \geq \varepsilon \right \} \geq \frac {\mathop {\mathrm {E}}(f(\xi)) - f(\varepsilon)}{f(C)}}. 其中, C 是任意正數. 特別地, 對於 f(x) = x^{2}, 有 \displaystyle {\frac {\mathop {\mathrm {E}}(\xi^{2}) - \varepsilon^{2}}{C^{2}} \leq \mathop {\mathbf {P}} \left \{ \left | \xi - \mathop {\mathrm {E}}(\xi) \right | \geq \varepsilon \right \} \leq \frac {\mathop {\mathrm {Var}}(\xi)}{\varepsilon^{2}}}.

自主習題 3.\xi_{1}, \xi_{2}, ..., \xi_{n} 是獨立隨機變數序列, 且 \mathop {\mathrm {Var}}(\xi_{i}) \leq C. 證明 : \displaystyle {\mathop {\mathbf {P}} \left \{ \left | \frac {\xi_{1} + \xi_{2} + ... + \xi_{n}}{n} - \frac {\mathop {\mathrm {E}}(\xi_{1} + \xi_{2} + ... + \xi_{n})}{n} \right | \geq \varepsilon \right \} \leq \frac {C}{n\varepsilon^{2}}}. 其中, C 是任意正數.

自主習題 4.\xi_{1}, \xi_{2}, ..., \xi_{n} 是獨立的 Bernoulli 隨機變數, 且 \mathop {\mathbf {P}} \left \{ \xi_{1} = 1 \right \} = p, \mathop {\mathbf {P}} \left \{ \xi = -1 \right \} = q. 證明 : 對於任意 a > 0, 有 \displaystyle {\mathop {\mathbf {P}} \left \{ \left | \frac {S_{n}}{n} - (2p - 1) \right | \geq \varepsilon \right \} \leq 2\mathrm {e}^{-a\varepsilon^{2}n}}. 其中, S_{n} = \xi_{1} + \xi_{2} + ... + \xi_{n}, \varepsilon > 0.

自主習題 5.\xi 是非負的隨機變數, 而 a > 0. 若

  1. \mathop {\mathrm {E}}(\xi) = 20;
  2. \mathop {\mathrm {E}}(\xi) = 20, \mathop {\mathrm {Cov}}(\xi) = 20;
  3. \mathop {\mathrm {E}}(\xi) = 20, \mathop {\mathrm {Cov}}(\xi) = 25, 且 \xi 關於期望對稱;

在上述三種情況下, 機率 \mathop {\mathbf {P}} \left \{ \xi \leq a \right \} 的上確界分別如何?