大數法則

我們稱 (\Omega, \mathscr {A}, P) 為 Bernoulli 概型. 其中,

\Omega = \left \{ \omega : \omega = (a_{1}, a_{2}, ..., a_{n}), a_{i} = 0, 1\ (i = 1, 2, ..., n) \right \}

\mathscr {A} = \left \{ A : A \subseteq \Omega \right \}, P(\left \{ \omega \right \}) = p(\omega) = p^{\sum \limits_{i}a_{i}}(1 - p)^{n - \sum \limits_{i}a_{i}}

為了探詢 Bernoulli 概型的某些性質, 我們引入隨機變數 \xi_{1}, \xi_{2}, ..., \xi_{n}. 其中, \xi_{i} = \xi_{i}(\omega) = a_{i}, i = 1, 2, ..., n, 而 \omega = (a_{1}, a_{2}, ..., a_{n}). 顯然,

P \left \{ \xi_{i} = 1 \right \} = p, P \left \{ \xi_{i} = 0 \right \} = 1 - p = q, i = 1, 2, ..., n

隨機變數 \xi_{i} 表示了在時刻 i 時的 Bernoulli 試驗結果

S_{0}(\omega) = 0,

S_{k} = \xi_{1} + \xi_{2} + ... + \xi_{k}, k = 1, 2, ..., n

我們已經知道, E(S_{n}) = np, 根據期望的性質, 有

\frac {1}{n}E(S_{n}) = E(\frac {S_{n}}{n}) = p

換句話說, "成功" 的頻率 \frac {S_{n}}{n} 的平均值等於成功的機率 p. 由此自然產生了一個問題 : "成功" 的頻率 \frac {S_{n}}{n} 對 "成功" 的機率 p 的絕對偏差的大小如何?

我們首先指出, 對於充分小的 \varepsilon > 0 和充分大的 n, 都不能使得對於任意事件 \omega, 頻率 \frac {S_{n}}{n} 對 "成功" 機率 p 的絕對偏差都小於 \varepsilon. 即對於任意事件 \omega,

\left |\frac {S_{n}(\omega)}{n} - p \right | < \varepsilon, \omega \in \Omega \ \ \ \ \ \ \ \ \ \ (I)

不一定成立

事實上, 對於 0 < p < 1, 由

P \left \{ \frac {S_{n}}{n} = 1 \right \} = P \left \{ \xi_{1} = 1, \xi_{2} = 1, ..., \xi_{n} = 1 \right \} = p^{n}

P \left \{ \frac {S_{n}}{n} = 0 \right \} = P \left \{ \xi_{1} = 0, \xi_{2} = 0 ..., \xi_{n} = 0 \right \} = q^{n}

可見, p^{n}q^{n} 都是固定的值, 對於充分小的 \varepsilon > 0, \left |\frac {S_{n}(\omega)}{n} - p \right | 是一個常數, 並不能使其任意小. 此時, 不等式 (I) 不成立. 但是, 從直觀上來看, \left |\frac {S_{n}(\omega)}{n} - p \right | < \varepsilon應該成立的 (實際不成立). 因為當 n 很大的時候, 事件 \left \{ \frac {S_{n}}{n} = 1 \right \}\left \{ \frac {S_{n}}{n} = 0 \right \} 發生的機率都非常小. 但是, 這仍然沒有辦法證明 \left |\frac {S_{n}(\omega)}{n} - p \right | < \varepsilon 的成立, 因為數學是嚴謹的. 因此, 我們自然想到, 當 n 充分大的時候, 使得

\left |\frac {S_{n}(\omega)}{n} - p \right | \geq \varepsilon

成立的 "結局 \omega 的全體" 的機率也比較小. 故我們設法估計事件

\left \{ \omega : \left |\frac {S_{n}(\omega)}{n} - p \right | \geq \varepsilon \right \}

的機率 P \left \{ \omega : \left |\frac {S_{n}(\omega)}{n} - p \right | \geq \varepsilon \right \}

引理 1. (P. L. Chebyshev 不等式) 設 (\Omega, \mathscr {A}, P) 是某一機率空間, \xi = \xi(\omega) 是非負隨機變數. 那麼對於任意 \varepsilon > 0, 有

P \left \{ \xi \geq \varepsilon \right \} \leq \frac {1}{\varepsilon}E(\xi)

:

我們首先注意到 :

\begin {aligned} \xi &= \xi\mu_{A \subseteq \mathscr {A}}(\xi \geq \varepsilon) + \xi\mu_{A \subseteq \mathscr {A}}(\xi < \varepsilon) \\ &\geq \xi\mu_{A \subseteq \mathscr {A}}(\xi \geq \varepsilon) \geq \varepsilon\mu_{A \subseteq \mathscr {A}}(\xi \geq \varepsilon) \end {aligned}

於是, 根據期望的性質和定義, 有

E(\xi) \geq \varepsilon E(\mu_{A \subseteq \mathscr {A}}(\xi \geq \varepsilon)) = \varepsilon P \left \{ \xi \geq \varepsilon \right \}

變換後可得

P \left \{ \xi \geq \varepsilon \right \} \leq \frac {1}{\varepsilon}E(\xi)

\blacksquare

另外, 設 \xi 是任意隨機變數, 則對任意 \varepsilon > 0, 我們可以根據引理 1 作出如下推導 :

\begin {aligned} P \left \{ \xi \geq  \varepsilon \right \} \leq \frac {1}{\varepsilon}E(\xi) &\Rightarrow P \left \{ |\xi| \geq \varepsilon \right \} \leq \frac {1}{\varepsilon}E(|\xi|) \\ &\Rightarrow P \left \{ |\xi| \geq |\varepsilon| \right \} = P \left \{ \xi^{2} \geq \varepsilon^{2} \right \} \leq \frac {1}{\varepsilon^{2}}E(\xi^{2}) \\ &\Rightarrow P \left \{ |\xi - E(\xi)| \geq \varepsilon \right \} = P \left \{ (\xi - E(\xi))^{2} \geq \varepsilon^{2} \right \} \\ &\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \leq \frac {1}{\varepsilon^{2}}E((\xi - E(\xi))^{2}) = \frac {1}{\varepsilon^{2}}\text {Var}(\xi) \end {aligned}

引理 2.\xi_{1}, \xi_{2}, ..., \xi_{n} 是獨立的 Bernoulli 隨機變數, 且 S_{n} = \xi_{1} + \xi_{2} + ... + \xi_{n}, 則

\text {Var}(S_{n}) = npq

其中, \xi_{i}pq 的機率分別取 10 為值, i = 1, 2, ..., n

:

\xi 是 Bernoulli 隨機變數, 以 pq 的機率分別取 10 為值. 則

\text {Var}(\xi) = E(\xi^{2}) - E^{2}(\xi)

根據期望的定義,

E(\xi^{2}) = \sum \limits_{i = 1}^{k}x_{i}^{2}P_{\xi}(x_{i}) = 0^{2} \times P_{\xi}(0) + 1^{2} \times P_{\xi}(1) = p

E^{2}(\xi) = (0 \times P_{\xi}(0) + 1 \times P_{\xi}(1))^{2} = p^{2}

\text {Var}(\xi) = p - p^{2} = p(1 - p) = pq. 顯然, 對於任意 i = 1, 2, ..., n, 都有

\text {Var}(\xi_{i}) = pq

由於 \text {Var}(\xi + \eta) = \text {Var}(\xi) + \text {Var}(\eta) + 2E(\xi\eta) - 2E(\xi)E(\eta), 當隨機變數 \xi\eta 相互獨立時, 有 \text {Var}(\xi + \eta) = \text {Var}(\xi) + \text {Var}(\eta). 於是,

\text {Var}(\xi_{1} + \xi_{2} + ... + \xi_{n}) = \text {Var}(\sum \limits_{i = 1}^{n}\xi_{i}) = \sum \limits_{i = 1}^{n}\text {Var}(\xi_{i})

故有 \text {Var}(S_{n}) = npq

\blacksquare

結合引理 1 的推導和引理 2, 設隨機變數 \xi = \frac {S_{n}}{n}, 有

\begin {aligned} P \left \{ \left |\frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} &\leq \frac {\text {Var}(\frac {S_{n}}{n})}{\varepsilon^{2}} = \frac {\text {Var}(S_{n})}{n^{2}\varepsilon^{2}} = \frac {npq}{n^{2}\varepsilon^{2}} = \frac {pq}{n\varepsilon^{2}} \\ &= \frac {p(1 - p)}{n\varepsilon^{2}} = \frac {p - p^{2}}{n\varepsilon^{2}} \leq \frac {p - p^{2}}{n\varepsilon^{2}} \\ &\leq \frac {1}{4n\varepsilon^{2}}\ (\text {函數}\ f(p) = p - p^{2}\ \text {在}\ p = \frac {1}{2}\ \text {時取得最大值}\ \frac {1}{4}) \end {aligned}

由此可見, 當 n 充分大的時候, 儘管無法保證 "成功" 頻率 \frac {S_{n}}{n} 對 "成功" 機率 p 的絕對偏差小於任意充分小的 \varepsilon > 0, 但是 "成功" 頻率 \frac {S_{n}}{n} 對 "成功" 機率 p 的絕對偏差大於任意給定的 \varepsilon > 0 這個事件的機率充分小

對於一切的 nk\ (1 \leq k \leq n), 記

\displaystyle {P_{n}(k) = \binom {k}{n}p^{k}q^{n - k}}

\displaystyle {P \left \{ \left |\frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} = \sum \limits_{\left \{ k : \left |\frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \leq \frac {pq}{n\varepsilon^{2}} \leq \frac {1}{4n\varepsilon^{2}}}

我們視 n 為試驗次數, k 為 "成功" 次數. 由此可見, 我們運用機率論中的知識進行分析, 同樣得到了 P \left \{ \left |\frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} \leq \frac {1}{4n\varepsilon^{2}}. 於是, 我們可以得到,

\displaystyle {\sum \limits_{\left \{ k : \left |\frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \to 0\ (n \to \infty)\ \ \ \ \ \ \ \ \ \ (II)}

對於二項分佈 \left \{ P_{n}(k), 0 \leq k \leq n \right \}\ (p = \frac {1}{2}), 作圖可知

 

結合文章《【機率論】初等機率論 – 某些經典模型和分佈》中的分析, 我們得到 : 機率 P_{n}(k)k = np 處達到最大值 P_{m} = \frac {1}{\sqrt {\frac {n}{2}\pi}}. 另外, 二項分佈 \left \{ P_{n}(k), 0 \leq k \leq n \right \}\ (p = \frac {1}{2}) 的示意圖還顯示, 若將機率 P_{n}(k)k 求和, 對於 n(p - \varepsilon) \leq k \leq n(p + \varepsilon), 其機率接近 1. 我們把一系列隨機變數 S_{0}, S_{1}, S_{2}, ..., S_{n} 視為某游動的質點, 對於式 (II) 可以作如下解釋 :

說明:

過原點引入三條直線 : k(p - \varepsilon), kp, k(p + \varepsilon), 那麼質點軌道總的趨勢是沿直線運動. 對於任意 \varepsilon > 0, 可以斷定對於充分大的 n, 表示質點在時刻 n 位置的點 S_{n} 位於區間 [n(p - \varepsilon), n(p + \varepsilon)]

\blacksquare

根據之前的討論, 我們將 (II) 又可以表示為

P \left \{ \left |\frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} \to 0\ (n \to \infty)\ \ \ \ \ \ \ \ \ \ (III)

此處存在一個細節, 若機率 P 在某空間 (\Omega, \mathscr {A}) 上, 空間 (\Omega, \mathscr {A}) 上定義了無窮多個獨立的 Bernoulli 隨機變數 \xi_{1}, \xi_{2}, ..., 那麼 (III) 式依然正確

(\Omega^{(n)}, \mathscr {A}^{(n)}, P^{(n)}), n \geq 1 是 Bernoulli 概型序列 :

\Omega^{(n)} = \left \{ \omega^{(n)} : \omega^{(n)} = (a_{1}^{(n)}, a_{2}^{(n)}, ..., a_{n}^{(n)}), a_{i}^{(n)} = 0, 1\ (i = 1, 2, ..., n) \right \},

\mathscr {A}^{(n)} = \left \{ A : A \subseteq \Omega^{(n)} \right \}, P^{(n)} \left (\left \{ \omega^{(n)} \right \} \right) = p^{\sum \limits_{i}a_{i}^{(n)}}q^{n - \sum \limits_{i}a_{i}^{(n)}}

S_{k}^{(n)}(\omega^{(n)}) = (\xi_{1}^{(n)}(\omega), \xi_{2}^{(n)}(\omega), ..., \xi_{k}^{(n)}(\omega))

其中, 對於 n \geq 1, \xi_{1}^{(n)}, \xi_{2}^{(n)}, ..., \xi_{n}^{(n)} 是獨立同分佈的 Bernoulli 隨機變數序列, 則

\begin {aligned}&P^{(n)} \left \{ \omega^{(n)} : \left | \frac {S_{n}^{(n)}(\omega^{(n)})}{n} - p \right | \geq \varepsilon \right \} \\ &= \sum \limits_{\left \{ k : \left |\frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \to 0\ (n \to \infty) \end {aligned} \ \ \ \ \ \ \ \ \ \ (IV)

我們統稱式 (II), (III)(IV) 的命題為 Bernoulli 大數法則

對於充分大的 n, 二項分佈 "尾部" 機率 \sum \limits_{\left \{ k : \left |\frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) 的計算相當困難, 況且所得 "頻率 \frac {S_{n}}{p} 對機率 P 的絕對偏差小於任意給定的 \varepsilon > 0" 事件的機率估計式也難以實際應用. 我們指出, 對於充分大的 n 和至少滿足了 k \doteq npk, 有

P_{n}(k) \doteq \frac {1}{\sqrt {2\pi npq}}e^{-\frac {(k - np)^{2}}{2npq}}

\displaystyle {\sum \limits_{\left \{ k : \left |\frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \doteq \frac {1}{\sqrt {2\pi}} \int_{-\varepsilon\sqrt {\frac {n}{pq}}}^{\varepsilon\sqrt {\frac {n}{pq}}}e^{-\frac {x^{2}}{2}}dx}

大數法則的意義

假設進行大量例如 N 系列試驗的試驗, 而每一系列試驗包括 "n 次獨立試驗, 而每次試驗都以機率 p 出現事件 C". 設 \frac {S_{n}^{i}}{n} 是事件 C 在第 i 系列試驗中出現的頻率, N_{\varepsilon} 是 "頻率對機率的絕對偏差不大於 \varepsilon" 系列數, 即 N_{\varepsilon} 等於使得 \left | \frac {S_{n}^{i}}{n} - p \right | \leq \varepsiloni 個數, 亦即滿足 \left | \frac {S_{n}^{i}}{n} - p \right | \leq \varepsiloni 的數量. 那麼, 由大數法則可見

\frac {N_{\varepsilon}}{N} \doteq P_{\varepsilon}

其中, P_{\varepsilon} = P \left \{ \left |\frac {S_{n}^{1}}{n} - p \right | \leq \varepsilon \right \}. 這便是大數法則的意義

觀測次數

考慮上面得到的估計

P \left \{ \left |\frac {S_{n}^{i}}{n} - p \right | \geq \varepsilon \right \} = \sum \limits_{\left \{ k : \left |\frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \leq \frac {1}{4n\varepsilon^{2}}\ \ \ \ \ \ \ \ \ \ (V)

我們由此產生一個問題 : 對於任意 0 < p < 1, 保證不等式

P \left \{ \left |\frac {S_{n}}{n} - p \right | \leq \varepsilon \right \} \geq 1 - \alpha\ \ \ \ \ \ \ \ \ \ (VI)

成立的最小觀測次數 n 如何? 其中, \alpha 是給定的通常較小的常數

給定式 (V)(VI), 我們可以得到, 當 n \geq \frac {1}{4\varepsilon^{2}\alpha} 時, 我們便可以得到最小觀測次數 \left \lceil \frac {1}{4\varepsilon^{2}\alpha} \right \rceil. 上面的估計是基於 Chebyshev 不等式的. 需要指出的是, 基於 Chebyshev 不等式的估計較為粗略

C(n, \varepsilon) = \left \{ \omega : \left |\frac {S_{n}(\omega)}{n} - p \right | \leq \varepsilon \right \}

由大數法則可見, 對於任意 \varepsilon > 0, 當 n 充分大時, P(C(n, \varepsilon)) 接近於 1. 這時, C(n, \varepsilon) 中的軌道實現的 \omega 稱作經典的或者 C(n, \varepsilon) -典型的. 那麼典型實現的條數 \text {card} {C(n, \varepsilon)} 以及每一條經典實現的權 p(\omega) 如何?

顯然, 基本事件空間 \Omega 中的事件總數為 2^{n} 個, 即 \text {card} {\Omega} = 2^{n}. 對於 p = 0 或者 p = 1, 典型軌道分別有且唯有一條 : (1, 1, ..., 1)(0, 0, ..., 0). 此時, \text {card} {C(n, \varepsilon)} = 1. 但是, 假如 p = \frac {1}{2}, 則直觀上顯然, 幾乎一切軌道 (除了上面提到的兩條之外) 都是經典的. 因此, 直觀上來說, \text {card} {C(n, \varepsilon)} 接近於 2^{n}

我們指出, 對於 0 < p < 1, 無論是典型軌道數量還是權重 p(\omega), 都取決於 p 的某一特定函數 - 熵

(p_{1}, p_{2}, ..., p_{r}) 是一有限機率分佈, 即滿足條件 p_{1} + p_{2} + ... + p_{r} = 1, 且 p_{i} 為非負實數. 其中, i = 1, 2, ..., r. 稱

H = -\sum \limits_{i = 1}^{r}p_{i}\ln {p_{i}}

為機率分佈 (p_{1}, p_{2}, ..., p_{r}) 的熵, 且規定當 p_{i} = 0 時, p_{i}\ln {p_{i}} = 0\ (i = 1, 2, ..., r)

顯然, H \geq 0, 且 H = 0 若且唯若 p_{1}, p_{2}, ..., p_{r} 中有一個值為 1, 其餘值為 0. 記函數 f(x) = -x\ln {x}\ (0 < x < 1), 則根據 f''(x) = -\frac {1}{x} 可知 f(x)(0, 1) 上時凸函數. 由凸函數的性質, 有

\frac {f(x_{1}) + f(x_{2}) + ... + f(x_{r})}{r} \leq f(\frac {x_{1} + x_{2} + ... + x_{r}}{r})

從而有

\begin {aligned} H &= -\sum \limits_{i = 1}^{r}p_{i} \ln {p_{i}} = -p_{1}\ln {p_{1}} - p_{2}\ln {p_{2}} - ... - p_{r}\ln {p_{r}} \\ &= r \cdot \frac {-p_{1}\ln {p_{1}} - p_{2}\ln {p_{2}} - ... - p_{r}\ln {p_{r}}}{r} \\ &= r \cdot \frac {f(p_{1}) + f(p_{2}) + ... + f(p_{r})}{r} \leq r \cdot f(\frac {p_{1} + p_{2} + ... + p_{r}}{r}) \\ &= -r \cdot \frac {p_{1} + p_{2} + ... + p_{r}}{r} \ln {\frac {p_{1} + p_{2} + ... + p_{r}}{r}} \\ &= -(p_{1} + p_{2} + ... + p_{r})\ln {\frac {p_{1} + p_{2} + ... + p_{r}}{r}} \end {aligned}

由於 p_{1} + p_{2} + ... + p_{r} = 1, 於是有 H \leq \ln {r}. 要使得熵取到最大值, 即 H = \ln {r}, 若且唯若 p_{1} = p_{2} = ... = p_{r} = \frac {1}{r} 時成立

如果把 p_{1}, p_{2}, ..., p_{r} 視為事件 A_{1}, A_{2}, ..., A_{r} 出現的機率, 那麼某事件發生的不確定性程度對於不同的分佈來說是不同的. 例如 p_{1} = 1, p_{2} = p_{3} = ... = p_{r} = 0, 那麼我們可以說事件 A_{1} 必然發生. 對於 p_{1} = p_{2} = ... = p_{r} = \frac {1}{r}, 我們沒辦法肯定某個事件必然發生, 這樣的分佈具有最大的不確定性. 為了比較不同分佈的不確定性, 需要有不同的不確定性的數字度量, 這便是熵

假設

\Omega = \left \{ \omega : \omega = (a_{1}, a_{2}, ..., a_{n}), a_{i} = 1, 2, ..., r\ (i = 1, 2, ..., n) \right \}

是基本事件空間, 其中 p(\omega) = p_{1}^{\upsilon_{1}(\omega)}p_{2}^{\upsilon_{2}(\omega)}...p_{r}^{\upsilon_{r}(\omega)}, \upsilon_{i}(\omega) 是序列 \omega 中第 i 個元素 a_{i} 的數量, i = 1, 2, ..., r, 而 (p_{1}, p_{2}, ..., p_{r}) 是某一機率分佈. 對於任意 \varepsilon > 0, 設

C(n, \varepsilon) = \left \{ \omega : \left |\frac {\upsilon_{i}(\omega)}{n} - p_{i} \right | < \varepsilon, i = 1, 2, ..., r \right \}

顯然,

P(C(n, \varepsilon)) \geq 1 - \sum \limits_{i = 1}^{r}P \left \{ \omega : \left |\frac {\upsilon_{i}(\omega)}{n} - p_{i} \right | \geq \varepsilon, i = 1, 2, ..., r \right \}

並且, 由大數法則可知, 該式也適用於隨機變數

\xi_{k}(\omega) = \begin {cases} 1 & {a_{k} = i} \\ 0 & {a_{k} \neq i} \end {cases}, k = 1, 2, ..., n

機率 P \left \{ \omega : \left |\frac {\upsilon_{i}(\omega)}{n} - p_{i} \right | \geq \varepsilon, i = 1, 2, ..., r \right \} 充分地小. 因此, 對於充分大的 n, C(n, \varepsilon) 的機率接近於 1. 進入 C(n, \varepsilon) 的軌道也被稱為典型的

如果對於所有 p_{i} > 0\ (i = 1, 2, ..., r), 則對於任何 \omega \in \Omega, 權重 p(\omega) 被定義為

p(\omega) = \exp \left \{ -n\sum \limits_{k = 1}^{r} \left ( -\frac {\upsilon_{k}(\omega)}{n}\ln {p_{k}} \right ) \right \}

其中, \exp \left \{ \cdot \right \} = e^{\cdot}. 因此, 如果 \omega 是典型軌道, 由熵的定義, 有

\left |\sum \limits_{i = 1}^{r} \left (-\frac {\upsilon_{i}(\omega)}{n} \ln {p_{i}} \right ) - H \right | \leq -\sum \limits_{i = 1}^{r}\left |\frac {\upsilon_{i}(\omega)}{n} - p_{i} \right |\ln {p_{i}} \leq -\varepsilon\sum \limits_{i = 1}^{r}\ln {p_{i}}

由此可見, 典型軌道的機率 p(\omega) 接近於 e^{-nH}. 因為由於大數法則當 n 充分大的時候, 典型軌道的條數幾乎尋訪了 \Omega 中所有的點, 而 \Omega 中軌道的條數是 e^{nH} 數量級的. 我們將上述討論歸納為下列定理 :

定理 1. (B. McMillan 定理) 設 p_{i} > 0\ (i = 1, 2, ..., r), 0 < \varepsilon < 1, 則存在一個自然數 n_{0} = n_{0}(\varepsilon_{i}p_{1}, p_{r}, ..., p_{r}), 使得對於一切的 n > n_{0}, 有

  1. e^{n(H - \varepsilon)} \leq \text {card} {C(n, \varepsilon_{1})} \leq e^{n(H + \varepsilon)}
  2. e^{-n(H + \varepsilon)} \leq p(\omega) \leq e^{-n(H - \varepsilon)}, \omega \in C(n, \varepsilon_{1})
  3. P(C(n, \varepsilon)) = \sum \limits_{\left \{ \omega \in C(n, \varepsilon_{1}) \right \}}p(\omega) \to 1\ (n \to \infty)

其中, \varepsilon_{1} = \min \left \{ \varepsilon, -\frac {\varepsilon}{2\sum \limits_{k = 1}^{r}\ln {p_{k}}} \right \}

:

大數法則顯示, (3) 顯然正確

(3) \blacksquare

注意到, 若 \omega \in C(n, \varepsilon_{1}), 則

np_{k} - \varepsilon_{1}n < \upsilon_{k}(\omega) < np_{k} + \varepsilon_{1}n\ (k = 1, 2, ..., r)

因此,

\begin {aligned} p(\omega) &= \exp \left \{ -\sum \limits_{k}\upsilon_{k}\ln {p_{k}} \right \} < \exp \left \{ -n\sum \limits_{k}\upsilon_{k}\ln {p_{k}} - \varepsilon_{1}n\sum \limits_{k}\ln {p_{k}} \right \} \\ &\leq \exp \left \{ -n(H - \frac {\varepsilon}{2}) \right \} \end {aligned}

同理, 有 p(\omega) \geq \exp \left \{ -n(H + \frac {\varepsilon}{2}) \right \}

綜上, 於是有 e^{-n(H + \varepsilon)} \leq p(\omega) \leq e^{-n(H - \varepsilon)}, \omega \in C(n, \varepsilon_{1})

(2) \blacksquare

由於 P(C(n, \varepsilon_{1})) \geq \text {card} {C(n, \varepsilon_{1})} \times \min \limits_{\left \{ \omega \in C(n, \varepsilon_{1}) \right \}}p(\omega), 則

\text {card} {C(n, \varepsilon_{1})} \leq \frac {P(C(n, \varepsilon_{1}))}{\min \limits_{\left \{ \omega \in C(n, \varepsilon_{1}) \right \}}p(\omega)} < \frac {1}{e^{-n(H + \frac {\varepsilon}{2})}} = e^{n(H + \frac {\varepsilon}{2})}

類似地,

\text {card} {C(n, \varepsilon_{1})} \geq \frac {P(C(n, \varepsilon_{1}))}{\max \limits_{\left \{ \omega \in C(n, \varepsilon_{1}) \right \}}p(\omega)} > P(C(n, \varepsilon_{1}))e^{n(H - \frac {\varepsilon}{2})}

由於 P(C(n, \varepsilon_{1})) \to 1\ (n \to \infty), 可見, 存在 n 使得當 n > n_{1} 時, 有

P(C(n, \varepsilon_{1})) > 1 - \varepsilon

\text {card} {C(n, \varepsilon_{1})} \geq (1 - \varepsilon)e^{n(H - \frac {\varepsilon}{2})} = e^{n(H - \varepsilon) + (\frac {n\varepsilon}{2} + \ln {(1 - \varepsilon)})}

n_{2} 滿足對於 n > n_{2}, 有 \frac {n\varepsilon}{2} + \ln {(1 - \varepsilon)} > 0, 則對於 n \geq n_{0} = \max \left \{ n_{1}, n_{2} \right \}, 有

\text {card} {C(n, \varepsilon_{1})} \geq e^{n(H - \varepsilon)}

綜上, e^{n(H - \varepsilon)} \leq \text {card} {C(n, \varepsilon_{1})} \leq e^{n(H + \varepsilon)}

(1) \blacksquare

\blacksquare

利用 Bernoulli 概型的大數法則, 可以給予 K. T. W. Wierstrass 定理 "以多項式逼近連續函數" 以簡單雅致的證明 :

:

f(p) 是線段 [0, 1] 上的連續函數. 引入 Bernstein 多項式

B_{n}(p) = \sum \limits_{k = 0}^{n}f(\frac {k}{n})\binom {k}{n}p^{k}(1 - p)^{n - k}, 0 \leq p \leq 1, n \geq 0

\xi_{1}, \xi_{2}, ..., \xi_{n} 是獨立 Bernoulli 隨機變速序列, 且 P \left \{ \xi_{i} = 1 \right \} = p, P \left \{ \xi_{1} = 0 \right \} = q, 設 S_{n} = \xi_{1} + \xi_{2} + ... + \xi_{n}, 則

E(f(\frac {S_{n}}{n})) = B_{n}(p)

由於在閉區間 [0, 1] 上的連續函數 f = f(p) 一致連續, 可見對於任意 \varepsilon > 0, 存在 \delta > 0, 使得當 |x - y| \leq \delta 時, |f(x) - f(y)| \leq \varepsilon. 顯然, 這樣的函數有界 : |f(x)| \leq M. 其中, M 為常數且 M \geq 0. 由不等式 P \left \{ \left |\frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} \leq \frac {p(1 - p)}{n\varepsilon^{2}} \leq \frac {1}{4n\varepsilon^{2}} 可知,

\begin {aligned} |f(p) - B_{n}(p)| &= \left | \sum \limits_{k = 0}^{n} \left ( f(p) - f(\frac {k}{n}) \right )\binom {k}{n}p^{k}(1 - p)^{n - k} \right | \\ &\leq \sum \limits_{\left \{ k : \left |\frac {k}{n} - p \right | \leq \delta \right \}}\left |f(p) - f(\frac {k}{n}) \right | \binom {k}{n}p^{k}(1 - p)^{n - k} + \\ &\ \ \ \ \ \sum \limits_{\left \{ k : \left |\frac {k}{n} - p \right | > \delta \right \}}\left |f(p) - f(\frac {k}{n}) \right | \binom {k}{n}p^{k}(1 - p)^{n - k} \\ &\leq \varepsilon + 2M\sum \limits_{\left \{ k : \left |\frac {k}{n} - p \right | > \delta \right \}}\binom {k}{n}p^{k}(1 - p)^{n - k} \\ &\leq \varepsilon + \frac {2M}{4n\varepsilon^{2}} = \varepsilon + \frac {M}{2n\delta^{2}} \end {aligned}

於是有 \lim \limits_{n \to \infty} \max \limits_{0 \leq p \leq 1}|f(p) - B_{n}(p)| = 0

\blacksquare

練習題

自主習題 1. 設隨機變數 \xi\eta 的相關係數為 \rho. 證明 : 對於任意 \varepsilon > 0, 有

P \left \{ \left |\xi - E(\xi)  \right | \geq \varepsilon\sqrt {\text {Var}(\xi)}\ \text {或}\ \left |\eta - E(\eta) \right | \geq \varepsilon\sqrt {\text {Var}(\eta)} \right \}

自主習題 2.f = f(x) 為非負偶函數, 且當 x > 0 時單調非減. 設 \xi = \xi(\omega) 是非負隨機變數, 且 |\xi(\omega)| \leq C. 證明 : 對於任意 \varepsilon > 0, 有

P \left \{ |\xi| \geq \varepsilon \right \} \geq \frac {E(f(\xi)) - f(\varepsilon)}{f(C)}

其中, C 是任意正數. 特別地, 對於 f(x) = x^{2},

\frac {E(\xi^{2}) - \xi^{2}}{C^{2}} \leq P \left \{ \left |\xi - E(\xi) \right | \geq \varepsilon \right \} \leq \frac {\text {Var}(\xi)}{\varepsilon^{2}}

自主習題 3.\xi_{1}, \xi_{2}, ..., \xi_{n} 是獨立隨機變數序列, 且 \text {Var}(\xi_{i}) \leq C. 證明 :

P \left \{ \left |\frac {\xi_{1} + \xi_{2} + ... + \xi_{n}}{n} - \frac {E(\xi_{1} + \xi_{2} + ... + \xi_{n})}{n}  \right | \geq \varepsilon \right \} \leq \frac {C}{n\varepsilon^{2}}

其中, C 是任意正數

自主習題 4.\xi_{1}, \xi_{2}, ..., \xi_{n} 是獨立的 Bernoulli 隨機變數, 且 P \left \{ \xi_{1} = 1 \right \} = p, P \left \{ \xi = -1 \right \} = q. 證明 : 對於任意 a > 0, 有

P \left \{ \left | \frac {S_{n}}{n} - (2p - 1) \right | \geq \varepsilon \right \} \leq 2e^{-a\varepsilon^{2}n}

其中, S_{n} = \xi_{1} + \xi_{2} + ... + \xi_{n}, \varepsilon > 0

自主習題 5.\xi 是非負的隨機變數, 而 a > 0. 若

  1. E(\xi) = 20
  2. E(\xi) = 20, \text {Cov}(\xi) = 20
  3. E(\xi) = 20, \text {Cov}(\xi) = 25, 且 \xi 關於期望對稱

在上述三種情況下, 機率 P \left \{ \xi \leq a \right \} 的上確界分別如何?