摘要訊息 : 在進行大量試驗的情況下, 試驗結果的平均值大致等於其期望.

0. 前言

《【機率論】初等機率論——條件機率與獨立性》中我們介紹了 Bernoulli 概型, 在本節中我們將要分析 Bernoulli 概型的性質, 並且導出在機率論中非常重要的大數法則.

更新紀錄 :

  • 2022 年 6 月 9 日進行第一次更新和修正.

1. 大數法則

對於 Bernoulli 概型 Ω={ω:ω=(a1,a2,...,an),ai=0,1 (i=1,2,...,n)},A={A:AΩ},P({ω})=p(ω)=piai(1p)niai,\displaystyle {\begin {aligned} &\Omega = \left \{ \omega : \omega = (a_{1}, a_{2}, ..., a_{n}), a_{i} = 0, 1 \ (i = 1, 2, ..., n) \right \}, \\ &\mathscr {A} = \left \{ A : A \subseteq \Omega \right \}, \mathop {\mathbf {P}}(\left \{ \omega \right \}) = p(\omega) = p^{\sum \limits_{i}a_{i}}(1 - p)^{n - \sum \limits_{i}a_{i}}, \end {aligned}} 我們引入隨機變數 ξ1,ξ2,...,ξn\xi_{1}, \xi_{2}, ..., \xi_{n}. 其中, ξi=ξi(ω)=ai,i=1,2,...,n\xi_{i} = \xi_{i}(\omega) = a_{i}, i = 1, 2, ..., n, 而 ω=(a1,a2,...,an)\omega = (a_{1}, a_{2}, ..., a_{n}). 顯然, P{ξi=1}=p 且 P{ξi=0}=1p=q,i=1,2,...,n,\displaystyle {\mathop {\mathbf {P}} \left \{ \xi_{i} = 1 \right \} = p \text { 且 } \mathop {\mathbf {P}} \left \{ \xi_{i} = 0 \right \} = 1 - p = q, i = 1, 2, ..., n,} 隨機變數 ξi\xi_{i} 表示了在時刻 ii 時的 Bernoulli 試驗結果.

S0(ω)=0S_{0}(\omega) = 0, Sk=ξ1+ξ2+...+ξk.\displaystyle {S_{k} = \xi_{1} + \xi_{2} + ... + \xi_{k}.} 其中, k=1,2,,nk = 1, 2, …, n. 由《【機率論】初等機率論——隨機變數及其特徵》例題 5, 我們已經知道 E(Sn)=np\mathop {\mathrm {E}}(S_{n}) = np. 那麼根據期望的性質, 有 1nE(Sn)=E(Snn)=p.\displaystyle {\frac {1}{n}\mathop {\mathrm {E}}(S_{n}) = \mathop {\mathrm {E}} \left ( \frac {S_{n}}{n} \right ) = p}. 換句話說, "成功" 的頻率 Snn\frac {S_{n}}{n} 的平均值等於成功的機率 pp. 由此自然產生了一個問題 : "成功" 的頻率 Snn\frac {S_{n}}{n} 對 "成功" 的機率 pp 的絕對偏差的大小如何?

我們首先指出, 對於充分小的 ε>0\varepsilon > 0 和充分大的 nn, 都不能使得對於任意事件 ω\omega, 頻率 Snn\frac {S_{n}}{n} 對 "成功" 機率 pp 的絕對偏差都小於 ε\varepsilon. 即對於任意事件 ω\omega, Sn(ω)np<ε,ωΩ          (I)\displaystyle {\left |\frac {S_{n}(\omega)}{n} - p \right | < \varepsilon, \omega \in \Omega \ \ \ \ \ \ \ \ \ \ (\mathrm {I})} 並不一定成立. 事實上, 對於 0<p<10 < p < 1, 由 P{Snn=1}=P{ξ1=1,ξ2=1,...,ξn=1}=pn\displaystyle {\mathop {\mathbf {P}} \left \{ \frac {S_{n}}{n} = 1 \right \} = \mathop {\mathbf {P}} \left \{ \xi_{1} = 1, \xi_{2} = 1, ..., \xi_{n} = 1 \right \} = p^{n}}P{Snn=0}=P{ξ1=0,ξ2=0,ξn=0}=qn\displaystyle {\mathop {\mathbf {P}} \left \{ \frac {S_{n}}{n} = 0 \right \} = \mathop {\mathbf {P}} \left \{ \xi_{1} = 0, \xi_{2} = 0 …, \xi_{n} = 0 \right \} = q^{n}} 可見, pnp^{n}qnq^{n} 都是固定的值, 對於充分小的 ε>0\varepsilon > 0, Sn(ω)np\left | \frac {S_{n}(\omega)}{n} - p \right | 是一個常數, 並不能使其任意小. 此時, 不等式 (I)(\mathrm {I}) 不成立. 但是, 從直觀上來看, Sn(ω)np<ε\left | \frac {S_{n}(\omega)}{n} - p \right | < \varepsilon應當成立的 (雖然實際不成立). 因為當 nn 很大的時候, 事件 {Snn=1}\left \{ \frac {S_{n}}{n} = 1 \right \}{Snn=0}\left \{ \frac {S_{n}}{n} = 0 \right \} 發生的機率都非常小. 但是, 這仍然沒有辦法證明 Sn(ω)np<ε\left | \frac {S_{n}(\omega)}{n} - p \right | < \varepsilon 的成立, 因為數學是嚴謹的. 因此, 我們自然想到, 當 nn 充分大的時候, 使得 Sn(ω)npε\displaystyle {\left | \frac {S_{n}(\omega)}{n} - p \right | \geq \varepsilon} 成立的 "結局 ω\omega 的全體" 的機率也比較小. 故實際上我們可以設法估計事件 {ω:Sn(ω)npε}\displaystyle {\left \{ \omega : \left | \frac {S_{n}(\omega)}{n} - p \right | \geq \varepsilon \right \}} 的機率 P{ω:Sn(ω)npε}\mathop {\mathbf {P}} \left \{ \omega : \left | \frac {S_{n}(\omega)}{n} - p \right | \geq \varepsilon \right \}.

引理 1. (P. L. Chebyshev 不等式) 設 (Ω,A,P)(\Omega, \mathscr {A}, \mathbf {P}) 是某一機率空間, ξ=ξ(ω)\xi = \xi(\omega) 是非負隨機變數. 那麼對於任意 ε>0\varepsilon > 0, 有 P{ξε}1εE(ξ).\displaystyle {\mathop {\mathbf {P}} \left \{ \xi \geq \varepsilon \right \} \leq \frac {1}{\varepsilon}\mathop {\mathrm {E}}(\xi)}.

證明證明 :

我們首先注意到 ξ=ξμAA(ξε)+ξμAA(ξ<ε)ξμAA(ξε)εμAA(ξε).\displaystyle {\begin {aligned} \xi &= \xi\mu_{A \subseteq \mathscr {A}}(\xi \geq \varepsilon) + \xi\mu_{A \subseteq \mathscr {A}}(\xi < \varepsilon) \\ &\geq \xi\mu_{A \subseteq \mathscr {A}}(\xi \geq \varepsilon) \\ &\geq \varepsilon\mu_{A \subseteq \mathscr {A}}(\xi \geq \varepsilon). \end {aligned}} 於是, 根據期望的性質和定義, 有 E(ξ)εE(μAA(ξε))=εP{ξε}.\displaystyle {\mathop {\mathrm {E}}(\xi) \geq \varepsilon \mathop {\mathrm {E}}(\mu_{A \subseteq \mathscr {A}}(\xi \geq \varepsilon)) = \varepsilon \mathop {\mathbf {P}} \left \{ \xi \geq \varepsilon \right \}}. 變換後可得 P{ξε}1εE(ξ).\displaystyle {\mathop {\mathbf {P}} \left \{ \xi \geq \varepsilon \right \} \leq \frac {1}{\varepsilon}\mathop {\mathrm {E}}(\xi)}.

\blacksquare

另外, 設 ξ\xi 是任意隨機變數, 則對任意 ε>0\varepsilon > 0, 我們可以根據引理 1 作出如下推導 : P{ξε}1εE(ξ)P{ξε}1εE(ξ)P{ξε}=P{ξ2ε2}1ε2E(ξ2)P{ξE(ξ)ε}=P{(ξE(ξ))2ε2}                                       1ε2E((ξE(ξ))2)=1ε2Var(ξ).\displaystyle {\begin {aligned} \mathop {\mathbf {P}} \left \{ \xi \geq \varepsilon \right \} \leq \frac {1}{\varepsilon}\mathop {\mathrm {E}}(\xi) &\Rightarrow \mathop {\mathbf {P}} \left \{ |\xi| \geq \varepsilon \right \} \leq \frac {1}{\varepsilon}\mathop {\mathrm {E}}(|\xi|) \\ &\Rightarrow \mathop {\mathbf {P}} \left \{ |\xi| \geq |\varepsilon| \right \} = \mathop {\mathbf {P}} \left \{ \xi^{2} \geq \varepsilon^{2} \right \} \leq \frac {1}{\varepsilon^{2}}\mathop {\mathrm {E}}(\xi^{2}) \\ &\Rightarrow \mathop {\mathbf {P}} \left \{ |\xi - \mathop {\mathrm {E}}(\xi)| \geq \varepsilon \right \} = \mathop {\mathbf {P}} \left \{ (\xi - \mathop {\mathrm {E}}(\xi))^{2} \geq \varepsilon^{2} \right \} \\ &\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \leq \frac {1}{\varepsilon^{2}}\mathop {\mathrm {E}} \left ( (\xi - \mathop {\mathrm {E}}(\xi))^{2} \right ) = \frac {1}{\varepsilon^{2}}\mathop {\mathrm {Var}}(\xi). \end {aligned}}

引理 2.ξ1,ξ2,...,ξn\xi_{1}, \xi_{2}, ..., \xi_{n} 是獨立的 Bernoulli 隨機變數, 且 Sn=ξ1+ξ2+...+ξnS_{n} = \xi_{1} + \xi_{2} + ... + \xi_{n}, 則 Var(Sn)=npq.\displaystyle {\mathop {\mathrm {Var}}(S_{n}) = npq}. 其中, ξi\xi_{i}ppqq 的機率分別取 1100 為值, i=1,2,...,ni = 1, 2, ..., n.

證明證明 :

ξ\xi 是 Bernoulli 隨機變數, 以 ppqq 的機率分別取 1100 為值. 則 Var(ξ)=E(ξ2)E2(ξ).\displaystyle {\mathop {\mathrm {Var}}(\xi) = \mathop {\mathrm {E}}(\xi^{2}) - \mathop {\mathrm {E}}^{2}(\xi)}. 根據期望的定義, 有 E(ξ2)=i=1kxi2Pξ(xi)=02×Pξ(0)+12×Pξ(1)=p\displaystyle {\mathop {\mathrm {E}}(\xi^{2}) = \sum \limits_{i = 1}^{k}x_{i}^{2}P_{\xi}(x_{i}) = 0^{2} \times P_{\xi}(0) + 1^{2} \times P_{\xi}(1) = p}E2(ξ)=(0×Pξ(0)+1×Pξ(1))2=p2,\displaystyle {\mathop {\mathrm {E}}^{2}(\xi) = (0 \times P_{\xi}(0) + 1 \times P_{\xi}(1))^{2} = p^{2}},Var(ξ)=pp2=p(1p)=pq\mathop {\mathrm {Var}}(\xi) = p - p^{2} = p(1 - p) = pq. 顯然, 對於任意 i=1,2,...,ni = 1, 2, ..., n, 都有 Var(ξi)=pq.\displaystyle {\mathop {\mathrm {Var}}(\xi_{i}) = pq}. 由於 Var(ξ+η)=Var(ξ)+Var(η)+2E(ξη)2E(ξ)E(η)\mathop {\mathrm {Var}}(\xi + \eta) = \mathop {\mathrm {Var}}(\xi) + \mathop {\mathrm {Var}}(\eta) + 2\mathop {\mathrm {E}}(\xi\eta) - 2\mathop {\mathrm {E}}(\xi)\mathop {\mathrm {E}}(\eta), 當隨機變數 ξ\xiη\eta 相互獨立時, 有 Var(ξ+η)=Var(ξ)+Var(η)\mathop {\mathrm {Var}}(\xi + \eta) = \mathop {\mathrm {Var}}(\xi) + \mathop {\mathrm {Var}}(\eta). 於是, Var(ξ1+ξ2+...+ξn)=Var(i=1nξi)=i=1nVar(ξi).\displaystyle {\mathop {\mathrm {Var}}(\xi_{1} + \xi_{2} + ... + \xi_{n}) = \mathop {\mathrm {Var}} \left ( \sum \limits_{i = 1}^{n}\xi_{i} \right ) = \sum \limits_{i = 1}^{n}\mathop {\mathrm {Var}}(\xi_{i})}.

綜上所述, Var(Sn)=npq\mathop {\mathrm {Var}}(S_{n}) = npq.

\blacksquare

結合引理 1 的推導和引理 2, 設隨機變數 ξ=Snn\xi = \frac {S_{n}}{n}, 有 P{Snnpε}Var(Snn)ε2=Var(Sn)n2ε2=npqn2ε2=pqnε2=p(1p)nε2=pp2nε2pp2nε214nε2 (函數 f(p)=pp2 在 p=12 時取得最大值14).\displaystyle {\begin {aligned} \mathop {\mathbf {P}} \left \{ \left | \frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} &\leq \frac {\mathop {\mathrm {Var}} \left ( \frac {S_{n}}{n} \right )}{\varepsilon^{2}} = \frac {\mathop {\mathrm {Var}}(S_{n})}{n^{2}\varepsilon^{2}} = \frac {npq}{n^{2}\varepsilon^{2}} = \frac {pq}{n\varepsilon^{2}} \\ &= \frac {p(1 - p)}{n\varepsilon^{2}} = \frac {p - p^{2}}{n\varepsilon^{2}} \leq \frac {p - p^{2}}{n\varepsilon^{2}} \\ &\leq \frac {1}{4n\varepsilon^{2}} \ \left ( \text {函數 } f(p) = p - p^{2} \text { 在 } p = \frac {1}{2} \text { 時取得最大值} \frac {1}{4} \right ). \end {aligned}} 由此可見, 當 nn 充分大的時候, 儘管無法保證 "成功" 頻率 Snn\frac {S_{n}}{n} 對 "成功" 機率 pp 的絕對偏差小於任意充分小的 ε>0\varepsilon > 0, 但是 "成功" 頻率 Snn\frac {S_{n}}{n} 對 "成功" 機率 pp 的絕對偏差大於任意給定的 ε>0\varepsilon > 0 這個事件的機率充分小.

對於一切的 nnkk (1kn1 \leq k \leq n), 記 Pn(k)=(kn)pkqnk,\displaystyle {P_{n}(k) = \binom {k}{n}p^{k}q^{n - k}},P{Snnpε}={k:knpε}Pn(k)pqnε214nε2.\displaystyle {\mathop {\mathbf {P}} \left \{ \left | \frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} = \sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \leq \frac {pq}{n\varepsilon^{2}} \leq \frac {1}{4n\varepsilon^{2}}}. 我們視 nn 為試驗次數, kk 為 "成功" 次數. 由此可見, 我們運用機率論中的知識進行分析, 同樣得到了 P{Snnpε}14nε2\mathop {\mathbf {P}} \left \{ \left |\frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} \leq \frac {1}{4n\varepsilon^{2}}. 於是, 我們可以得到, {k:knpε}Pn(k)0 (n).          (II)\displaystyle {\sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \to 0 \ (n \to \infty).\ \ \ \ \ \ \ \ \ \ (\mathrm {II})}

對於二項分佈 {Pn(k),0kn}\left \{ P_{n}(k), 0 \leq k \leq n \right \} (p=12p = \frac {1}{2}), 作圖可知

Figure 1. [npnε,np+nε][np - n\varepsilon, np + n\varepsilon]

結合《【機率論】初等機率論——某些經典模型和分佈》中的例題 1, 我們可以得到機率 Pn(k)P_{n}(k)k=npk = np 處達到最大值 Pm=1n2πP_{m} = \frac {1}{\sqrt {\frac {n}{2}\pi}}. 另外, Figure 1 還顯示 : 若將機率 Pn(k)P_{n}(k)kk 求和, 對於 n(pε)kn(p+ε)n(p - \varepsilon) \leq k \leq n(p + \varepsilon), 其機率接近 11. 我們把一系列隨機變數 S0,S1,S2,...,SnS_{0}, S_{1}, S_{2}, ..., S_{n} 視為某游動的質點, 對於式 (II)(\mathrm {II}) 可以作如下解釋 : 過原點引入三條直線 : k(pε),kp,k(p+ε)k(p - \varepsilon), kp, k(p + \varepsilon), 那麼質點軌道總的趨勢是沿直線運動. 對於任意 ε>0\varepsilon > 0, 可以斷定對於充分大的 nn, 表示質點在時刻 nn 位置的點 SnS_{n} 位於區間 [n(pε),n(p+ε)][n(p - \varepsilon), n(p + \varepsilon)].

根據之前的討論, 我們將 (II)(\mathrm {II}) 又可以表示為 P{Snnpε}0 (n).          (III)\displaystyle {\mathop {\mathbf {P}} \left \{ \left | \frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} \to 0\ (n \to \infty). \ \ \ \ \ \ \ \ \ \ (\mathrm {III})} 此處存在一個細節, 若機率 P\mathop {\mathbf {P}} 在某空間 (Ω,A)(\Omega, \mathscr {A}) 上, 空間 (Ω,A)(\Omega, \mathscr {A}) 上定義了無窮多個獨立的 Bernoulli 隨機變數 ξ1,ξ2,...\xi_{1}, \xi_{2}, ..., 那麼 (III)(\mathrm {III}) 式依然正確.

(Ω(n),A(n),P(n))\left ( \Omega^{(n)}, \mathscr {A}^{(n)}, \mathop {\mathbf {P}}^{(n)} \right ), n1n \geq 1 是 Bernoulli 概型序列 : Ω(n)={ω(n):ω(n)=(a1(n),a2(n),...,an(n)),ai(n)=0,1 (i=1,2,...,n)},    A(n)={A:AΩ(n)},P(n)({ω(n)})=piai(n)qniai(n).\displaystyle {\begin {aligned} &\Omega^{(n)} = \left \{ \omega^{(n)} : \omega^{(n)} = \left ( a_{1}^{(n)}, a_{2}^{(n)}, ..., a_{n}^{(n)} \right ), a_{i}^{(n)} = 0, 1 \ (i = 1, 2, ..., n) \right \}, \\ &\ \ \ \ \mathscr {A}^{(n)} = \left \{ A : A \subseteq \Omega^{(n)} \right \}, \mathop {\mathbf {P}}^{(n)} \left (\left \{ \omega^{(n)} \right \} \right) = p^{\sum \limits_{i}a_{i}^{(n)}}q^{n - \sum \limits_{i}a_{i}^{(n)}}. \end {aligned}}Sk(n)(ω(n))=(ξ1(n)(ω),ξ2(n)(ω),...,ξk(n)(ω)).\displaystyle {S_{k}^{(n)} \left ( \omega^{(n)} \right ) = \left ( \xi_{1}^{(n)}(\omega), \xi_{2}^{(n)}(\omega), ..., \xi_{k}^{(n)}(\omega) \right )}. 其中, 對於 n1n \geq 1, ξ1(n),ξ2(n),...,ξn(n)\xi_{1}^{(n)}, \xi_{2}^{(n)}, ..., \xi_{n}^{(n)} 是獨立同分佈的 Bernoulli 隨機變數序列, 則 P(n){ω(n):Sn(n)(ω(n))npε}={k:knpε}Pn(k)0 (n).          (IV)\displaystyle {\begin {aligned}&\mathop {\mathbf {P}}^{(n)} \left \{ \omega^{(n)} : \left | \frac {S_{n}^{(n)}(\omega^{(n)})}{n} - p \right | \geq \varepsilon \right \} \\ &= \sum \limits_{\left \{ k : \left |\frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \to 0\ (n \to \infty). \end {aligned}} \ \ \ \ \ \ \ \ \ \ (\mathrm {IV}) 我們統稱式 (II),(III)(\mathrm {II}), (\mathrm {III})(IV)(\mathrm {IV}) 的命題為 Bernoulli 大數法則 (Bernoulli’s law of large numbers).

對於充分大的 nn, 二項分佈 "尾部" 機率 {k:knpε}Pn(k)\sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) 的計算相當困難, 況且所得 "頻率 Snp\frac {S_{n}}{p} 對機率 P\mathop {\mathbf {P}} 的絕對偏差小於任意給定的 ε>0\varepsilon > 0" 事件的機率估計式也難以實際應用. 我們指出, 對於充分大的 nn 和至少滿足了 knpk \doteq npkk, 有 Pn(k)12πnpqe(knp)22npq,\displaystyle {P_{n}(k) \doteq \frac {1}{\sqrt {2\pi npq}}\mathrm {e}^{-\frac {(k - np)^{2}}{2npq}}},{k:knpε}Pn(k)12πεnpqεnpqex22dx.\displaystyle {\sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \doteq \frac {1}{\sqrt {2\pi}} \int_{-\varepsilon\sqrt {\frac {n}{pq}}}^{\varepsilon\sqrt {\frac {n}{pq}}}\mathrm {e}^{-\frac {x^{2}}{2}}\mathrm {d}{x}}.

2. 大數法則的意義

假設進行大量例如 NN 系列試驗的試驗, 而每一系列試驗包括 "nn 次獨立試驗, 而每次試驗都以機率 pp 出現事件 CC". 設 Snin\frac {S_{n}^{i}}{n} 是事件 CC 在第 ii 系列試驗中出現的頻率, NεN_{\varepsilon} 是 "頻率對機率的絕對偏差不大於 ε\varepsilon" 系列數, 即 NεN_{\varepsilon} 等於使得 Sninpε\left | \frac {S_{n}^{i}}{n} - p \right | \leq \varepsilonii 個數, 亦即滿足 Sninpε\left | \frac {S_{n}^{i}}{n} - p \right | \leq \varepsilonii 的數量. 那麼, 由大數法則可見 NεNPε.\displaystyle {\frac {N_{\varepsilon}}{N} \doteq P_{\varepsilon}}. 其中, Pε=P{Sn1npε}P_{\varepsilon} = \mathop {\mathbf {P}} \left \{ \left | \frac {S_{n}^{1}}{n} - p \right | \leq \varepsilon \right \}. 這便是大數法則的意義.

3. 觀測次數

考慮上面得到的估計 P{Sninpε}={k:knpε}Pn(k)14nε2.          (V)\displaystyle {\mathop {\mathbf {P}} \left \{ \left | \frac {S_{n}^{i}}{n} - p \right | \geq \varepsilon \right \} = \sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | \geq \varepsilon \right \}}P_{n}(k) \leq \frac {1}{4n\varepsilon^{2}}. \ \ \ \ \ \ \ \ \ \ (\mathrm {V})} 我們由此產生一個問題 : 對於任意 0<p<10 < p < 1, 保證不等式 P{Snnpε}1α.          (VI)\displaystyle {\mathop {\mathbf {P}} \left \{ \left | \frac {S_{n}}{n} - p \right | \leq \varepsilon \right \} \geq 1 - \alpha. \ \ \ \ \ \ \ \ \ \ (\mathrm {VI})} 成立的最小觀測次數 nn 如何? 其中, α\alpha 是給定的通常較小的常數.

給定式 (V)(\mathrm {V})(VI)(\mathrm {VI}), 我們可以得到, 當 n14ε2αn \geq \frac {1}{4\varepsilon^{2}\alpha} 時, 我們便可以得到最小觀測次數 14ε2α\left \lceil \frac {1}{4\varepsilon^{2}\alpha} \right \rceil. 上面的估計是基於 Chebyshev 不等式的. 需要指出的是, 基於 Chebyshev 不等式的估計較為粗略.

4. 熵

C(n,ε)={ω:Sn(ω)npε},\displaystyle {C(n, \varepsilon) = \left \{ \omega : \left | \frac {S_{n}(\omega)}{n} - p \right | \leq \varepsilon \right \}}, 由大數法則可見, 對於任意 ε>0\varepsilon > 0, 當 nn 充分大時, P(C(n,ε))\mathop {\mathbf {P}}(C(n, \varepsilon)) 接近於 11. 這時, C(n,ε)C(n, \varepsilon) 中的軌道實現的 ω\omega 稱作經典的或者 C(n,ε)C(n, \varepsilon) -典型的. 那麼典型實現的條數 cardC(n,ε)\mathop {\mathrm {card}}{C(n, \varepsilon)} 以及每一條經典實現的權 p(ω)p(\omega) 如何?

顯然, 基本事件空間 Ω\Omega 中的事件總數為 2n2^{n} 個, 即 cardΩ=2n\mathop {\mathrm {card}}{\Omega} = 2^{n}. 對於 p=0p = 0 或者 p=1p = 1, 典型軌道分別有且唯有一條 : (1,1,...,1)(1, 1, ..., 1)(0,0,...,0)(0, 0, ..., 0). 此時, cardC(n,ε)=1\mathop {\mathrm {card}}{C(n, \varepsilon)} = 1. 但是, 假如 p=12p = \frac {1}{2}, 則直觀上顯然, 幾乎一切軌道 (除了上面提到的兩條之外) 都是經典的. 因此, 直觀上來說, cardC(n,ε)\mathop {\mathrm {card}}{C(n, \varepsilon)} 接近於 2n2^{n}.

我們指出, 對於 0<p<10 < p < 1, 無論是典型軌道數量還是權重 p(ω)p(\omega), 都取決於 pp 的某一特定函數—— (entropy).

(p1,p2,...,pr)(p_{1}, p_{2}, ..., p_{r}) 是一有限機率分佈, 即滿足條件 p1+p2+...+pr=1p_{1} + p_{2} + ... + p_{r} = 1, 且 pip_{i} 為非負實數. 其中, i=1,2,...,ri = 1, 2, ..., r. 稱 H=i=1rpilnpi\displaystyle {H = -\sum \limits_{i = 1}^{r}p_{i}\ln {p_{i}}} 為機率分佈 (p1,p2,...,pr)(p_{1}, p_{2}, ..., p_{r}) 的熵. 同時我們規定當 pi=0p_{i} = 0 時, 令 pilnpi=0p_{i}\ln {p_{i}} = 0 (i=1,2,,ri = 1, 2, …, r).

顯然, H0H \geq 0, 且 H=0H = 0 若且唯若 p1,p2,...,prp_{1}, p_{2}, ..., p_{r} 中有一個值為 11, 其餘值為 00. 記函數 f(x)=xlnx (0<x<1)f(x) = -x\ln {x}\ (0 < x < 1), 則根據 f(x)=1xf''(x) = -\frac {1}{x} 可知 f(x)f(x)(0,1)(0, 1) 上時凸函數. 由凸函數的性質, 有 f(x1)+f(x2)+...+f(xr)rf(x1+x2+...+xrr).\displaystyle {\frac {f(x_{1}) + f(x_{2}) + ... + f(x_{r})}{r} \leq f \left ( \frac {x_{1} + x_{2} + ... + x_{r}}{r} \right )}. 從而有 H=i=1rpilnpi=p1lnp1p2lnp2...prlnpr=rp1lnp1p2lnp2...prlnprr=rf(p1)+f(p2)+...+f(pr)rrf(p1+p2+...+prr)=rp1+p2+...+prrlnp1+p2+...+prr=(p1+p2+...+pr)lnp1+p2+...+prr.\displaystyle {\begin {aligned} H &= -\sum \limits_{i = 1}^{r}p_{i} \ln {p_{i}} = -p_{1}\ln {p_{1}} - p_{2}\ln {p_{2}} - ... - p_{r}\ln {p_{r}} \\ &= r \cdot \frac {-p_{1}\ln {p_{1}} - p_{2}\ln {p_{2}} - ... - p_{r}\ln {p_{r}}}{r} \\ &= r \cdot \frac {f(p_{1}) + f(p_{2}) + ... + f(p_{r})}{r} \leq r \cdot f \left ( \frac {p_{1} + p_{2} + ... + p_{r}}{r} \right ) \\ &= -r \cdot \frac {p_{1} + p_{2} + ... + p_{r}}{r} \ln {\frac {p_{1} + p_{2} + ... + p_{r}}{r}} \\ &= -(p_{1} + p_{2} + ... + p_{r})\ln {\frac {p_{1} + p_{2} + ... + p_{r}}{r}}. \end {aligned}} 由於 p1+p2+...+pr=1p_{1} + p_{2} + ... + p_{r} = 1, 於是有 HlnrH \leq \ln {r}. 要使得熵取到最大值, 即 H=lnrH = \ln {r}, 若且唯若 p1=p2=...=pr=1rp_{1} = p_{2} = ... = p_{r} = \frac {1}{r} 時成立.

如果把 p1,p2,...,prp_{1}, p_{2}, ..., p_{r} 視為事件 A1,A2,...,ArA_{1}, A_{2}, ..., A_{r} 出現的機率, 那麼某事件發生的不確定性程度對於不同的分佈來說是不同的. 例如 p1=1,p2=p3=...=pr=0p_{1} = 1, p_{2} = p_{3} = ... = p_{r} = 0, 那麼我們可以說事件 A1A_{1} 必然發生. 對於 p1=p2=...=pr=1rp_{1} = p_{2} = ... = p_{r} = \frac {1}{r}, 我們沒辦法肯定某個事件必然發生, 這樣的分佈具有最大的不確定性. 為了比較不同分佈的不確定性, 需要有不同的不確定性的數字度量, 這便是熵.

假設 Ω={ω:ω=(a1,a2,...,an),ai=1,2,...,r (i=1,2,...,n)}\displaystyle {\Omega = \left \{ \omega : \omega = (a_{1}, a_{2}, ..., a_{n}), a_{i} = 1, 2, ..., r \ (i = 1, 2, ..., n) \right \}} 是基本事件空間, 其中 p(ω)=p1υ1(ω)p2υ2(ω)...prυr(ω)p(\omega) = p_{1}^{\upsilon_{1}(\omega)}p_{2}^{\upsilon_{2}(\omega)}...p_{r}^{\upsilon_{r}(\omega)}, υi(ω)\upsilon_{i}(\omega) 是序列 ω\omega 中第 ii 個元素 aia_{i} 的數量, i=1,2,...,ri = 1, 2, ..., r, 而 (p1,p2,...,pr)(p_{1}, p_{2}, ..., p_{r}) 是某一機率分佈. 對於任意 ε>0\varepsilon > 0, 設 C(n,ε)={ω:υi(ω)npi<ε,i=1,2,...,r}.\displaystyle {C(n, \varepsilon) = \left \{ \omega : \left | \frac {\upsilon_{i}(\omega)}{n} - p_{i} \right | < \varepsilon, i = 1, 2, ..., r \right \}}. 顯然, P(C(n,ε))1i=1rP{ω:υi(ω)npiε,i=1,2,...,r}.\displaystyle {\mathop {\mathbf {P}}(C(n, \varepsilon)) \geq 1 - \sum \limits_{i = 1}^{r}\mathop {\mathbf {P}} \left \{ \omega : \left | \frac {\upsilon_{i}(\omega)}{n} - p_{i} \right | \geq \varepsilon, i = 1, 2, ..., r \right \}}. 並且, 由大數法則可知, 該式也適用於隨機變數 ξk(ω)={1ak=i0aki,k=1,2,...,n.\displaystyle {\xi_{k}(\omega) = \begin {cases} 1 & {a_{k} = i} \\ 0 & {a_{k} \neq i} \end {cases}, k = 1, 2, ..., n}. 機率 P{ω:υi(ω)npiε,i=1,2,...,r}\mathop {\mathbf {P}} \left \{ \omega : \left |\frac {\upsilon_{i}(\omega)}{n} - p_{i} \right | \geq \varepsilon, i = 1, 2, ..., r \right \} 充分地小. 因此, 對於充分大的 nn, C(n,ε)C(n, \varepsilon) 的機率接近於 11. 進入 C(n,ε)C(n, \varepsilon) 的軌道也被稱為典型的.

如果對於所有 pi>0 (i=1,2,...,r)p_{i} > 0\ (i = 1, 2, ..., r), 則對於任何 ωΩ\omega \in \Omega, 權重 p(ω)p(\omega) 被定義為 p(ω)=exp{nk=1r(υk(ω)nlnpk)}.\displaystyle {p(\omega) = \exp \left \{ -n\sum \limits_{k = 1}^{r} \left ( -\frac {\upsilon_{k}(\omega)}{n}\ln {p_{k}} \right ) \right \}}. 其中, exp{}=e\exp \left \{ \cdot \right \} = \mathrm {e}^{\cdot}. 因此, 如果 ω\omega 是典型軌道, 由熵的定義, 有 i=1r(υi(ω)nlnpi)Hi=1rυi(ω)npilnpiεi=1rlnpi.\displaystyle {\left | \sum \limits_{i = 1}^{r} \left ( -\frac {\upsilon_{i}(\omega)}{n} \ln {p_{i}} \right ) - H \right | \leq -\sum \limits_{i = 1}^{r}\left | \frac {\upsilon_{i}(\omega)}{n} - p_{i} \right |\ln {p_{i}} \leq -\varepsilon\sum \limits_{i = 1}^{r}\ln {p_{i}}}. 由此可見, 典型軌道的機率 p(ω)p(\omega) 接近於 enH\mathrm {e}^{-nH}. 因為由於大數法則當 nn 充分大的時候, 典型軌道的條數幾乎尋訪了 Ω\Omega 中所有的點, 而 Ω\Omega 中軌道的條數是 enH\mathrm {e}^{nH} 數量級的. 我們將上述討論歸納一下.

定理 1. (B. McMillan 定理) 設 pi>0 (i=1,2,...,r),0<ε<1p_{i} > 0\ (i = 1, 2, ..., r), 0 < \varepsilon < 1, 則存在一個自然數 n0=n0(εip1,pr,...,pr)n_{0} = n_{0}(\varepsilon_{i}p_{1}, p_{r}, ..., p_{r}), 使得對於一切的 n>n0n > n_{0}, 有

  1. en(Hε)cardC(n,ε1)en(H+ε)\mathrm {e}^{n(H - \varepsilon)} \leq \mathop {\mathrm {card}}{C(n, \varepsilon_{1})} \leq \mathrm {e}^{n(H + \varepsilon)};
  2. en(H+ε)p(ω)en(Hε)\mathrm {e}^{-n(H + \varepsilon)} \leq p(\omega) \leq \mathrm {e}^{-n(H - \varepsilon)}, 其中, ωC(n,ε1)\omega \in C(n, \varepsilon_{1});
  3. P(C(n,ε))={ωC(n,ε1)}p(ω)1\mathop {\mathbf {P}}(C(n, \varepsilon)) = \sum \limits_{\left \{ \omega \in C(n, \varepsilon_{1}) \right \}}p(\omega) \to 1. 其中 nn \to \infty.

其中, ε1=min{ε,ε2k=1rlnpk}\varepsilon_{1} = \min \left \{ \varepsilon, -\frac {\varepsilon}{2\sum \limits_{k = 1}^{r}\ln {p_{k}}} \right \}.

證明證明 :

大數法則顯示, (3) 顯然正確.

(3) \square

注意到, 若 ωC(n,ε1)\omega \in C(n, \varepsilon_{1}), 則 npkε1n<υk(ω)<npk+ε1n (k=1,2,...,r)\displaystyle {np_{k} - \varepsilon_{1}n < \upsilon_{k}(\omega) < np_{k} + \varepsilon_{1}n \ (k = 1, 2, ..., r)} 因此, p(ω)=exp{kυklnpk}<exp{nkυklnpkε1nklnpk}exp{n(Hε2)}.\displaystyle {\begin {aligned} p(\omega) &= \exp \left \{ -\sum \limits_{k}\upsilon_{k}\ln {p_{k}} \right \} \\ &< \exp \left \{ -n\sum \limits_{k}\upsilon_{k}\ln {p_{k}} - \varepsilon_{1}n\sum \limits_{k}\ln {p_{k}} \right \} \\ &\leq \exp \left \{ -n \left ( H - \frac {\varepsilon}{2} \right ) \right \}. \end {aligned}} 同理, 有 p(ω)exp{n(H+ε2)}.\displaystyle {p(\omega) \geq \exp \left \{ -n \left ( H + \frac {\varepsilon}{2} \right ) \right \}}. 綜上, 於是有 en(H+ε)p(ω)en(Hε),ωC(n,ε1)\mathrm {e}^{-n(H + \varepsilon)} \leq p(\omega) \leq \mathrm {e}^{-n(H - \varepsilon)}, \omega \in C(n, \varepsilon_{1}).

(2) \square

由於 P(C(n,ε1))cardC(n,ε1)×min{ωC(n,ε1)}p(ω)\mathop {\mathbf {P}}(C(n, \varepsilon_{1})) \geq \mathop {\mathrm {card}}{C(n, \varepsilon_{1})} \times \min \limits_{\left \{ \omega \in C(n, \varepsilon_{1}) \right \}}p(\omega), 則 cardC(n,ε1)P(C(n,ε1))min{ωC(n,ε1)}p(ω)<1en(H+ε2)=en(H+ε2).\displaystyle {\mathop {\mathrm {card}}{C(n, \varepsilon_{1})} \leq \frac {\mathop {\mathbf {P}}(C(n, \varepsilon_{1}))}{\min \limits_{\left \{ \omega \in C(n, \varepsilon_{1}) \right \}}p(\omega)} < \frac {1}{\mathrm {e}^{-n \left ( H + \frac {\varepsilon}{2} \right )}} = \mathrm {e}^{n \left ( H + \frac {\varepsilon}{2} \right )}}. 類似地, cardC(n,ε1)P(C(n,ε1))max{ωC(n,ε1)}p(ω)>P(C(n,ε1))en(Hε2).\displaystyle {\mathop {\mathrm {card}}C(n, \varepsilon_{1}) \geq \frac {\mathop {\mathbf {P}}(C(n, \varepsilon_{1}))}{\max \limits_{\left \{ \omega \in C(n, \varepsilon_{1}) \right \}}p(\omega)} > \mathop {\mathbf {P}}(C(n, \varepsilon_{1}))\mathrm {e}^{n \left ( H - \frac {\varepsilon}{2} \right )}}. 由於 P(C(n,ε1))1 (n)\mathop {\mathbf {P}}(C(n, \varepsilon_{1})) \to 1 \ (n \to \infty), 可見, 存在 nn 使得當 n>n1n > n_{1} 時, 有 P(C(n,ε1))>1ε.\displaystyle {\mathop {\mathbf {P}}(C(n, \varepsilon_{1})) > 1 - \varepsilon}.cardC(n,ε1)(1ε)en(Hε2)=en(Hε)+(nε2+ln(1ε)).\displaystyle {\mathop {\mathrm {card}}{C(n, \varepsilon_{1})} \geq (1 - \varepsilon)\mathrm {e}^{n \left ( H - \frac {\varepsilon}{2} \right )} = \mathrm {e}^{n(H - \varepsilon) + \left ( \frac {n\varepsilon}{2} + \ln {(1 - \varepsilon)} \right )}}.n2n_{2} 滿足對於 n>n2n > n_{2}, 有 nε2+ln(1ε)>0\frac {n\varepsilon}{2} + \ln {(1 - \varepsilon)} > 0, 則對於 nn0=max{n1,n2}n \geq n_{0} = \max \left \{ n_{1}, n_{2} \right \}, 有 cardC(n,ε1)en(Hε).\displaystyle {\mathop {\mathrm {card}}{C(n, \varepsilon_{1})} \geq \mathrm {e}^{n(H - \varepsilon)}}. 綜上, en(Hε)cardC(n,ε1)en(H+ε)\mathrm {e}^{n(H - \varepsilon)} \leq \mathop {\mathrm {card}}{C(n, \varepsilon_{1})} \leq \mathrm {e}^{n(H + \varepsilon)} 成立.

(3) \square

\blacksquare

利用 Bernoulli 概型的大數法則, 可以給予 K. T. W. Wierstrass 定理 "以多項式逼近連續函數" 以簡單雅致的證明 :

證明證明 :

f(p)f(p) 是線段 [0,1][0, 1] 上的連續函數. 引入 Bernstein 多項式 Bn(p)=k=0nf(kn)(kn)pk(1p)nk,0p1,n0.\displaystyle {B_{n}(p) = \sum \limits_{k = 0}^{n}f \left ( \frac {k}{n} \right )\binom {k}{n}p^{k}(1 - p)^{n - k}, 0 \leq p \leq 1, n \geq 0}.ξ1,ξ2,...,ξn\xi_{1}, \xi_{2}, ..., \xi_{n} 是獨立 Bernoulli 隨機變速序列, 且 P{ξi=1}=p\mathop {\mathbf {P}} \left \{ \xi_{i} = 1 \right \} = p, P{ξ1=0}=q\mathop {\mathbf {P}} \left \{ \xi_{1} = 0 \right \} = q. 設 Sn=ξ1+ξ2+...+ξnS_{n} = \xi_{1} + \xi_{2} + ... + \xi_{n}, 則 E(f(Snn))=Bn(p).\displaystyle {\mathop {\mathrm {E}}\left ( f \left ( \frac {S_{n}}{n} \right ) \right ) = B_{n}(p)}.

由於在閉區間 [0,1][0, 1] 上的連續函數 f=f(p)f = f(p) 一致連續, 可見對於任意 ε>0\varepsilon > 0, 存在 δ>0\delta > 0, 使得當 xyδ\left | x - y \right | \leq \delta 時, f(x)f(y)ε\left | f(x) - f(y) \right | \leq \varepsilon. 顯然, 這樣的函數有界 : f(x)M|f(x)| \leq M. 其中, MM 為常數且 M0M \geq 0. 由不等式 P{Snnpε}p(1p)nε214nε2\mathop {\mathbf {P}} \left \{ \left |\frac {S_{n}}{n} - p \right | \geq \varepsilon \right \} \leq \frac {p(1 - p)}{n\varepsilon^{2}} \leq \frac {1}{4n\varepsilon^{2}} 可知, f(p)Bn(p)=k=0n(f(p)f(kn))(kn)pk(1p)nk{k:knpδ}f(p)f(kn)(kn)pk(1p)nk+     {k:knp>δ}f(p)f(kn)(kn)pk(1p)nkε+2M{k:knp>δ}(kn)pk(1p)nkε+2M4nε2=ε+M2nδ2.\displaystyle {\begin {aligned} \left | f(p) - B_{n}(p) \right | &= \left | \sum \limits_{k = 0}^{n} \left ( f(p) - f \left ( \frac {k}{n} \right ) \right )\binom {k}{n}p^{k}(1 - p)^{n - k} \right | \\ &\leq \sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | \leq \delta \right \}}\left | f(p) - f \left ( \frac {k}{n} \right ) \right | \binom {k}{n}p^{k}(1 - p)^{n - k} + \\ &\ \ \ \ \ \sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | > \delta \right \}}\left | f(p) - f \left ( \frac {k}{n} \right ) \right | \binom {k}{n}p^{k}(1 - p)^{n - k} \\ &\leq \varepsilon + 2M\sum \limits_{\left \{ k : \left | \frac {k}{n} - p \right | > \delta \right \}}\binom {k}{n}p^{k}(1 - p)^{n - k} \\ &\leq \varepsilon + \frac {2M}{4n\varepsilon^{2}} = \varepsilon + \frac {M}{2n\delta^{2}}. \end {aligned}}

於是有 limnmax0p1f(p)Bn(p)=0\lim \limits_{n \to \infty} \max \limits_{0 \leq p \leq 1} \left | f(p) - B_{n}(p) \right | = 0.

\blacksquare

5. 練習題

自主習題 1. 設隨機變數 ξ\xiη\eta 的相關係數為 ρ\rho. 證明 : 對於任意 ε>0\varepsilon > 0, 有 P{ξE(ξ)εVar(ξ) 或 ηE(η)εVar(η)}.\displaystyle {\mathop {\mathbf {P}} \left \{ \left | \xi - \mathop {\mathrm {E}}(\xi) \right | \geq \varepsilon\sqrt {\text {Var}(\xi)} \text { 或 } \left | \eta - \mathop {\mathrm {E}}(\eta) \right | \geq \varepsilon\sqrt {\mathop {\mathrm {Var}}(\eta)} \right \}}.

自主習題 2.f=f(x)f = f(x) 為非負偶函數, 且當 x>0x > 0 時單調非減. 設 ξ=ξ(ω)\xi = \xi(\omega) 是非負隨機變數, 且 ξ(ω)C\left | \xi(\omega) \right | \leq C. 證明 : 對於任意 ε>0\varepsilon > 0, 有 P{ξε}E(f(ξ))f(ε)f(C).\displaystyle {\mathop {\mathbf {P}} \left \{ | \xi| \geq \varepsilon \right \} \geq \frac {\mathop {\mathrm {E}}(f(\xi)) - f(\varepsilon)}{f(C)}}. 其中, CC 是任意正數. 特別地, 對於 f(x)=x2f(x) = x^{2}, 有 E(ξ2)ε2C2P{ξE(ξ)ε}Var(ξ)ε2.\displaystyle {\frac {\mathop {\mathrm {E}}(\xi^{2}) - \varepsilon^{2}}{C^{2}} \leq \mathop {\mathbf {P}} \left \{ \left | \xi - \mathop {\mathrm {E}}(\xi) \right | \geq \varepsilon \right \} \leq \frac {\mathop {\mathrm {Var}}(\xi)}{\varepsilon^{2}}}.

自主習題 3.ξ1,ξ2,...,ξn\xi_{1}, \xi_{2}, ..., \xi_{n} 是獨立隨機變數序列, 且 Var(ξi)C\mathop {\mathrm {Var}}(\xi_{i}) \leq C. 證明 : P{ξ1+ξ2+...+ξnnE(ξ1+ξ2+...+ξn)nε}Cnε2.\displaystyle {\mathop {\mathbf {P}} \left \{ \left | \frac {\xi_{1} + \xi_{2} + ... + \xi_{n}}{n} - \frac {\mathop {\mathrm {E}}(\xi_{1} + \xi_{2} + ... + \xi_{n})}{n} \right | \geq \varepsilon \right \} \leq \frac {C}{n\varepsilon^{2}}}. 其中, CC 是任意正數.

自主習題 4.ξ1,ξ2,...,ξn\xi_{1}, \xi_{2}, ..., \xi_{n} 是獨立的 Bernoulli 隨機變數, 且 P{ξ1=1}=p,P{ξ=1}=q\mathop {\mathbf {P}} \left \{ \xi_{1} = 1 \right \} = p, \mathop {\mathbf {P}} \left \{ \xi = -1 \right \} = q. 證明 : 對於任意 a>0a > 0, 有 P{Snn(2p1)ε}2eaε2n.\displaystyle {\mathop {\mathbf {P}} \left \{ \left | \frac {S_{n}}{n} - (2p - 1) \right | \geq \varepsilon \right \} \leq 2\mathrm {e}^{-a\varepsilon^{2}n}}. 其中, Sn=ξ1+ξ2+...+ξnS_{n} = \xi_{1} + \xi_{2} + ... + \xi_{n}, ε>0\varepsilon > 0.

自主習題 5.ξ\xi 是非負的隨機變數, 而 a>0a > 0. 若

  1. E(ξ)=20\mathop {\mathrm {E}}(\xi) = 20;
  2. E(ξ)=20\mathop {\mathrm {E}}(\xi) = 20, Cov(ξ)=20\mathop {\mathrm {Cov}}(\xi) = 20;
  3. E(ξ)=20,Cov(ξ)=25\mathop {\mathrm {E}}(\xi) = 20, \mathop {\mathrm {Cov}}(\xi) = 25, 且 ξ\xi 關於期望對稱;

在上述三種情況下, 機率 P{ξa}\mathop {\mathbf {P}} \left \{ \xi \leq a \right \} 的上確界分別如何?