摘要訊息 : 在進行大量試驗的情況下, 試驗結果的平均值大致等於其期望.
0. 前言
在《【機率論】初等機率論——條件機率與獨立性》中我們介紹了 Bernoulli 概型, 在本節中我們將要分析 Bernoulli 概型的性質, 並且導出在機率論中非常重要的大數法則.
更新紀錄 :
- 2022 年 6 月 9 日進行第一次更新和修正.
1. 大數法則
對於 Bernoulli 概型 Ω={ω:ω=(a1,a2,...,an),ai=0,1 (i=1,2,...,n)},A={A:A⊆Ω},P({ω})=p(ω)=pi∑ai(1−p)n−i∑ai, 我們引入隨機變數 ξ1,ξ2,...,ξn. 其中, ξi=ξi(ω)=ai,i=1,2,...,n, 而 ω=(a1,a2,...,an). 顯然, P{ξi=1}=p 且 P{ξi=0}=1−p=q,i=1,2,...,n, 隨機變數 ξi 表示了在時刻 i 時的 Bernoulli 試驗結果.
設 S0(ω)=0, Sk=ξ1+ξ2+...+ξk. 其中, k=1,2,…,n. 由《【機率論】初等機率論——隨機變數及其特徵》例題 5, 我們已經知道 E(Sn)=np. 那麼根據期望的性質, 有 n1E(Sn)=E(nSn)=p. 換句話說, "成功" 的頻率 nSn 的平均值等於成功的機率 p. 由此自然產生了一個問題 : "成功" 的頻率 nSn 對 "成功" 的機率 p 的絕對偏差的大小如何?
我們首先指出, 對於充分小的 ε>0 和充分大的 n, 都不能使得對於任意事件 ω, 頻率 nSn 對 "成功" 機率 p 的絕對偏差都小於 ε. 即對於任意事件 ω, ∣∣∣∣∣nSn(ω)−p∣∣∣∣∣<ε,ω∈Ω (I) 並不一定成立. 事實上, 對於 0<p<1, 由 P{nSn=1}=P{ξ1=1,ξ2=1,...,ξn=1}=pn 和 P{nSn=0}=P{ξ1=0,ξ2=0…,ξn=0}=qn 可見, pn 和 qn 都是固定的值, 對於充分小的 ε>0, ∣∣∣∣nSn(ω)−p∣∣∣∣ 是一個常數, 並不能使其任意小. 此時, 不等式 (I) 不成立. 但是, 從直觀上來看, ∣∣∣∣nSn(ω)−p∣∣∣∣<ε 是應當成立的 (雖然實際不成立). 因為當 n 很大的時候, 事件 {nSn=1} 和 {nSn=0} 發生的機率都非常小. 但是, 這仍然沒有辦法證明 ∣∣∣∣nSn(ω)−p∣∣∣∣<ε 的成立, 因為數學是嚴謹的. 因此, 我們自然想到, 當 n 充分大的時候, 使得 ∣∣∣∣∣nSn(ω)−p∣∣∣∣∣≥ε 成立的 "結局 ω 的全體" 的機率也比較小. 故實際上我們可以設法估計事件 {ω:∣∣∣∣∣nSn(ω)−p∣∣∣∣∣≥ε} 的機率 P{ω:∣∣∣∣nSn(ω)−p∣∣∣∣≥ε}.
引理 1. (P. L. Chebyshev 不等式) 設 (Ω,A,P) 是某一機率空間, ξ=ξ(ω) 是非負隨機變數. 那麼對於任意 ε>0, 有 P{ξ≥ε}≤ε1E(ξ).
證明 :我們首先注意到 ξ=ξμA⊆A(ξ≥ε)+ξμA⊆A(ξ<ε)≥ξμA⊆A(ξ≥ε)≥εμA⊆A(ξ≥ε). 於是, 根據期望的性質和定義, 有 E(ξ)≥εE(μA⊆A(ξ≥ε))=εP{ξ≥ε}. 變換後可得 P{ξ≥ε}≤ε1E(ξ).
■
另外, 設 ξ 是任意隨機變數, 則對任意 ε>0, 我們可以根據引理 1 作出如下推導 : P{ξ≥ε}≤ε1E(ξ)⇒P{∣ξ∣≥ε}≤ε1E(∣ξ∣)⇒P{∣ξ∣≥∣ε∣}=P{ξ2≥ε2}≤ε21E(ξ2)⇒P{∣ξ−E(ξ)∣≥ε}=P{(ξ−E(ξ))2≥ε2} ≤ε21E((ξ−E(ξ))2)=ε21Var(ξ).
引理 2. 若 ξ1,ξ2,...,ξn 是獨立的 Bernoulli 隨機變數, 且 Sn=ξ1+ξ2+...+ξn, 則 Var(Sn)=npq. 其中, ξi 以 p 和 q 的機率分別取 1 和 0 為值, i=1,2,...,n.
證明 :設 ξ 是 Bernoulli 隨機變數, 以 p 和 q 的機率分別取 1 和 0 為值. 則 Var(ξ)=E(ξ2)−E2(ξ). 根據期望的定義, 有 E(ξ2)=i=1∑kxi2Pξ(xi)=02×Pξ(0)+12×Pξ(1)=p 和 E2(ξ)=(0×Pξ(0)+1×Pξ(1))2=p2, 故 Var(ξ)=p−p2=p(1−p)=pq. 顯然, 對於任意 i=1,2,...,n, 都有 Var(ξi)=pq. 由於 Var(ξ+η)=Var(ξ)+Var(η)+2E(ξη)−2E(ξ)E(η), 當隨機變數 ξ 和 η 相互獨立時, 有 Var(ξ+η)=Var(ξ)+Var(η). 於是, Var(ξ1+ξ2+...+ξn)=Var(i=1∑nξi)=i=1∑nVar(ξi).
綜上所述, Var(Sn)=npq.
■
結合引理 1 的推導和引理 2, 設隨機變數 ξ=nSn, 有 P{∣∣∣∣∣nSn−p∣∣∣∣∣≥ε}≤ε2Var(nSn)=n2ε2Var(Sn)=n2ε2npq=nε2pq=nε2p(1−p)=nε2p−p2≤nε2p−p2≤4nε21 (函數 f(p)=p−p2 在 p=21 時取得最大值41). 由此可見, 當 n 充分大的時候, 儘管無法保證 "成功" 頻率 nSn 對 "成功" 機率 p 的絕對偏差小於任意充分小的 ε>0, 但是 "成功" 頻率 nSn 對 "成功" 機率 p 的絕對偏差大於任意給定的 ε>0 這個事件的機率充分小.
對於一切的 n 和 k (1≤k≤n), 記 Pn(k)=(nk)pkqn−k, 則 P{∣∣∣∣∣nSn−p∣∣∣∣∣≥ε}={k:∣nk−p∣≥ε}∑Pn(k)≤nε2pq≤4nε21. 我們視 n 為試驗次數, k 為 "成功" 次數. 由此可見, 我們運用機率論中的知識進行分析, 同樣得到了 P{∣∣∣nSn−p∣∣∣≥ε}≤4nε21. 於是, 我們可以得到, {k:∣nk−p∣≥ε}∑Pn(k)→0 (n→∞). (II)
對於二項分佈 {Pn(k),0≤k≤n} (p=21), 作圖可知
Figure 1. [np−nε,np+nε]
結合《【機率論】初等機率論——某些經典模型和分佈》中的例題 1, 我們可以得到機率 Pn(k) 在 k=np 處達到最大值 Pm=2nπ1. 另外, Figure 1 還顯示 : 若將機率 Pn(k) 對 k 求和, 對於 n(p−ε)≤k≤n(p+ε), 其機率接近 1. 我們把一系列隨機變數 S0,S1,S2,...,Sn 視為某游動的質點, 對於式 (II) 可以作如下解釋 : 過原點引入三條直線 : k(p−ε),kp,k(p+ε), 那麼質點軌道總的趨勢是沿直線運動. 對於任意 ε>0, 可以斷定對於充分大的 n, 表示質點在時刻 n 位置的點 Sn 位於區間 [n(p−ε),n(p+ε)].
根據之前的討論, 我們將 (II) 又可以表示為 P{∣∣∣∣∣nSn−p∣∣∣∣∣≥ε}→0 (n→∞). (III) 此處存在一個細節, 若機率 P 在某空間 (Ω,A) 上, 空間 (Ω,A) 上定義了無窮多個獨立的 Bernoulli 隨機變數 ξ1,ξ2,..., 那麼 (III) 式依然正確.
設 (Ω(n),A(n),P(n)), n≥1 是 Bernoulli 概型序列 : Ω(n)={ω(n):ω(n)=(a1(n),a2(n),...,an(n)),ai(n)=0,1 (i=1,2,...,n)}, A(n)={A:A⊆Ω(n)},P(n)({ω(n)})=pi∑ai(n)qn−i∑ai(n). 而 Sk(n)(ω(n))=(ξ1(n)(ω),ξ2(n)(ω),...,ξk(n)(ω)). 其中, 對於 n≥1, ξ1(n),ξ2(n),...,ξn(n) 是獨立同分佈的 Bernoulli 隨機變數序列, 則 P(n){ω(n):∣∣∣∣∣∣nSn(n)(ω(n))−p∣∣∣∣∣∣≥ε}={k:∣nk−p∣≥ε}∑Pn(k)→0 (n→∞). (IV) 我們統稱式 (II),(III) 和 (IV) 的命題為 Bernoulli 大數法則 (Bernoulli’s law of large numbers).
對於充分大的 n, 二項分佈 "尾部" 機率 {k:∣nk−p∣≥ε}∑Pn(k) 的計算相當困難, 況且所得 "頻率 pSn 對機率 P 的絕對偏差小於任意給定的 ε>0" 事件的機率估計式也難以實際應用. 我們指出, 對於充分大的 n 和至少滿足了 k≐np 的 k, 有 Pn(k)≐2πnpq1e−2npq(k−np)2, 而 {k:∣nk−p∣≥ε}∑Pn(k)≐2π1∫−εpqnεpqne−2x2dx.
2. 大數法則的意義
假設進行大量例如 N 系列試驗的試驗, 而每一系列試驗包括 "n 次獨立試驗, 而每次試驗都以機率 p 出現事件 C". 設 nSni 是事件 C 在第 i 系列試驗中出現的頻率, Nε 是 "頻率對機率的絕對偏差不大於 ε" 系列數, 即 Nε 等於使得 ∣∣∣∣nSni−p∣∣∣∣≤ε 的 i 個數, 亦即滿足 ∣∣∣∣nSni−p∣∣∣∣≤ε 的 i 的數量. 那麼, 由大數法則可見 NNε≐Pε. 其中, Pε=P{∣∣∣∣nSn1−p∣∣∣∣≤ε}. 這便是大數法則的意義.
3. 觀測次數
考慮上面得到的估計 P{∣∣∣∣∣nSni−p∣∣∣∣∣≥ε}={k:∣nk−p∣≥ε}∑Pn(k)≤4nε21. (V) 我們由此產生一個問題 : 對於任意 0<p<1, 保證不等式 P{∣∣∣∣∣nSn−p∣∣∣∣∣≤ε}≥1−α. (VI) 成立的最小觀測次數 n 如何? 其中, α 是給定的通常較小的常數.
給定式 (V) 和 (VI), 我們可以得到, 當 n≥4ε2α1 時, 我們便可以得到最小觀測次數 ⌈4ε2α1⌉. 上面的估計是基於 Chebyshev 不等式的. 需要指出的是, 基於 Chebyshev 不等式的估計較為粗略.
4. 熵
記 C(n,ε)={ω:∣∣∣∣∣nSn(ω)−p∣∣∣∣∣≤ε}, 由大數法則可見, 對於任意 ε>0, 當 n 充分大時, P(C(n,ε)) 接近於 1. 這時, C(n,ε) 中的軌道實現的 ω 稱作經典的或者 C(n,ε) -典型的. 那麼典型實現的條數 cardC(n,ε) 以及每一條經典實現的權 p(ω) 如何?
顯然, 基本事件空間 Ω 中的事件總數為 2n 個, 即 cardΩ=2n. 對於 p=0 或者 p=1, 典型軌道分別有且唯有一條 : (1,1,...,1) 或 (0,0,...,0). 此時, cardC(n,ε)=1. 但是, 假如 p=21, 則直觀上顯然, 幾乎一切軌道 (除了上面提到的兩條之外) 都是經典的. 因此, 直觀上來說, cardC(n,ε) 接近於 2n.
我們指出, 對於 0<p<1, 無論是典型軌道數量還是權重 p(ω), 都取決於 p 的某一特定函數——熵 (entropy).
設 (p1,p2,...,pr) 是一有限機率分佈, 即滿足條件 p1+p2+...+pr=1, 且 pi 為非負實數. 其中, i=1,2,...,r. 稱 H=−i=1∑rpilnpi 為機率分佈 (p1,p2,...,pr) 的熵. 同時我們規定當 pi=0 時, 令 pilnpi=0 (i=1,2,…,r).
顯然, H≥0, 且 H=0 若且唯若 p1,p2,...,pr 中有一個值為 1, 其餘值為 0. 記函數 f(x)=−xlnx (0<x<1), 則根據 f′′(x)=−x1 可知 f(x) 在 (0,1) 上時凸函數. 由凸函數的性質, 有 rf(x1)+f(x2)+...+f(xr)≤f(rx1+x2+...+xr). 從而有 H=−i=1∑rpilnpi=−p1lnp1−p2lnp2−...−prlnpr=r⋅r−p1lnp1−p2lnp2−...−prlnpr=r⋅rf(p1)+f(p2)+...+f(pr)≤r⋅f(rp1+p2+...+pr)=−r⋅rp1+p2+...+prlnrp1+p2+...+pr=−(p1+p2+...+pr)lnrp1+p2+...+pr. 由於 p1+p2+...+pr=1, 於是有 H≤lnr. 要使得熵取到最大值, 即 H=lnr, 若且唯若 p1=p2=...=pr=r1 時成立.
如果把 p1,p2,...,pr 視為事件 A1,A2,...,Ar 出現的機率, 那麼某事件發生的不確定性程度對於不同的分佈來說是不同的. 例如 p1=1,p2=p3=...=pr=0, 那麼我們可以說事件 A1 必然發生. 對於 p1=p2=...=pr=r1, 我們沒辦法肯定某個事件必然發生, 這樣的分佈具有最大的不確定性. 為了比較不同分佈的不確定性, 需要有不同的不確定性的數字度量, 這便是熵.
假設 Ω={ω:ω=(a1,a2,...,an),ai=1,2,...,r (i=1,2,...,n)} 是基本事件空間, 其中 p(ω)=p1υ1(ω)p2υ2(ω)...prυr(ω), υi(ω) 是序列 ω 中第 i 個元素 ai 的數量, i=1,2,...,r, 而 (p1,p2,...,pr) 是某一機率分佈. 對於任意 ε>0, 設 C(n,ε)={ω:∣∣∣∣∣nυi(ω)−pi∣∣∣∣∣<ε,i=1,2,...,r}. 顯然, P(C(n,ε))≥1−i=1∑rP{ω:∣∣∣∣∣nυi(ω)−pi∣∣∣∣∣≥ε,i=1,2,...,r}. 並且, 由大數法則可知, 該式也適用於隨機變數 ξk(ω)={10ak=iak=i,k=1,2,...,n. 機率 P{ω:∣∣∣∣nυi(ω)−pi∣∣∣∣≥ε,i=1,2,...,r} 充分地小. 因此, 對於充分大的 n, C(n,ε) 的機率接近於 1. 進入 C(n,ε) 的軌道也被稱為典型的.
如果對於所有 pi>0 (i=1,2,...,r), 則對於任何 ω∈Ω, 權重 p(ω) 被定義為 p(ω)=exp{−nk=1∑r(−nυk(ω)lnpk)}. 其中, exp{⋅}=e⋅. 因此, 如果 ω 是典型軌道, 由熵的定義, 有 ∣∣∣∣∣∣i=1∑r(−nυi(ω)lnpi)−H∣∣∣∣∣∣≤−i=1∑r∣∣∣∣∣nυi(ω)−pi∣∣∣∣∣lnpi≤−εi=1∑rlnpi. 由此可見, 典型軌道的機率 p(ω) 接近於 e−nH. 因為由於大數法則當 n 充分大的時候, 典型軌道的條數幾乎尋訪了 Ω 中所有的點, 而 Ω 中軌道的條數是 enH 數量級的. 我們將上述討論歸納一下.
定理 1. (B. McMillan 定理) 設 pi>0 (i=1,2,...,r),0<ε<1, 則存在一個自然數 n0=n0(εip1,pr,...,pr), 使得對於一切的 n>n0, 有
- en(H−ε)≤cardC(n,ε1)≤en(H+ε);
- e−n(H+ε)≤p(ω)≤e−n(H−ε), 其中, ω∈C(n,ε1);
- P(C(n,ε))={ω∈C(n,ε1)}∑p(ω)→1. 其中 n→∞.
其中, ε1=min⎩⎪⎨⎪⎧ε,−2k=1∑rlnpkε⎭⎪⎬⎪⎫.
證明 :大數法則顯示, (3) 顯然正確.
(3) □
注意到, 若 ω∈C(n,ε1), 則 npk−ε1n<υk(ω)<npk+ε1n (k=1,2,...,r) 因此, p(ω)=exp{−k∑υklnpk}<exp{−nk∑υklnpk−ε1nk∑lnpk}≤exp{−n(H−2ε)}. 同理, 有 p(ω)≥exp{−n(H+2ε)}. 綜上, 於是有 e−n(H+ε)≤p(ω)≤e−n(H−ε),ω∈C(n,ε1).
(2) □
由於 P(C(n,ε1))≥cardC(n,ε1)×{ω∈C(n,ε1)}minp(ω), 則 cardC(n,ε1)≤{ω∈C(n,ε1)}minp(ω)P(C(n,ε1))<e−n(H+2ε)1=en(H+2ε). 類似地, cardC(n,ε1)≥{ω∈C(n,ε1)}maxp(ω)P(C(n,ε1))>P(C(n,ε1))en(H−2ε). 由於 P(C(n,ε1))→1 (n→∞), 可見, 存在 n 使得當 n>n1 時, 有 P(C(n,ε1))>1−ε. 故 cardC(n,ε1)≥(1−ε)en(H−2ε)=en(H−ε)+(2nε+ln(1−ε)). 若 n2 滿足對於 n>n2, 有 2nε+ln(1−ε)>0, 則對於 n≥n0=max{n1,n2}, 有 cardC(n,ε1)≥en(H−ε). 綜上, en(H−ε)≤cardC(n,ε1)≤en(H+ε) 成立.
(3) □
■
利用 Bernoulli 概型的大數法則, 可以給予 K. T. W. Wierstrass 定理 "以多項式逼近連續函數" 以簡單雅致的證明 :
證明 :設 f(p) 是線段 [0,1] 上的連續函數. 引入 Bernstein 多項式 Bn(p)=k=0∑nf(nk)(nk)pk(1−p)n−k,0≤p≤1,n≥0. 若 ξ1,ξ2,...,ξn 是獨立 Bernoulli 隨機變速序列, 且 P{ξi=1}=p, P{ξ1=0}=q. 設 Sn=ξ1+ξ2+...+ξn, 則 E(f(nSn))=Bn(p).
由於在閉區間 [0,1] 上的連續函數 f=f(p) 一致連續, 可見對於任意 ε>0, 存在 δ>0, 使得當 ∣x−y∣≤δ 時, ∣f(x)−f(y)∣≤ε. 顯然, 這樣的函數有界 : ∣f(x)∣≤M. 其中, M 為常數且 M≥0. 由不等式 P{∣∣∣nSn−p∣∣∣≥ε}≤nε2p(1−p)≤4nε21 可知, ∣f(p)−Bn(p)∣=∣∣∣∣∣∣k=0∑n(f(p)−f(nk))(nk)pk(1−p)n−k∣∣∣∣∣∣≤{k:∣nk−p∣≤δ}∑∣∣∣∣∣f(p)−f(nk)∣∣∣∣∣(nk)pk(1−p)n−k+ {k:∣nk−p∣>δ}∑∣∣∣∣∣f(p)−f(nk)∣∣∣∣∣(nk)pk(1−p)n−k≤ε+2M{k:∣nk−p∣>δ}∑(nk)pk(1−p)n−k≤ε+4nε22M=ε+2nδ2M.
於是有 n→∞lim0≤p≤1max∣f(p)−Bn(p)∣=0.
■
5. 練習題
自主習題 1. 設隨機變數 ξ 和 η 的相關係數為 ρ. 證明 : 對於任意 ε>0, 有 P{∣ξ−E(ξ)∣≥εVar(ξ) 或 ∣η−E(η)∣≥εVar(η)}.
自主習題 2. 設 f=f(x) 為非負偶函數, 且當 x>0 時單調非減. 設 ξ=ξ(ω) 是非負隨機變數, 且 ∣ξ(ω)∣≤C. 證明 : 對於任意 ε>0, 有 P{∣ξ∣≥ε}≥f(C)E(f(ξ))−f(ε). 其中, C 是任意正數. 特別地, 對於 f(x)=x2, 有 C2E(ξ2)−ε2≤P{∣ξ−E(ξ)∣≥ε}≤ε2Var(ξ).
自主習題 3. 設 ξ1,ξ2,...,ξn 是獨立隨機變數序列, 且 Var(ξi)≤C. 證明 : P{∣∣∣∣∣nξ1+ξ2+...+ξn−nE(ξ1+ξ2+...+ξn)∣∣∣∣∣≥ε}≤nε2C. 其中, C 是任意正數.
自主習題 4. 設 ξ1,ξ2,...,ξn 是獨立的 Bernoulli 隨機變數, 且 P{ξ1=1}=p,P{ξ=−1}=q. 證明 : 對於任意 a>0, 有 P{∣∣∣∣∣nSn−(2p−1)∣∣∣∣∣≥ε}≤2e−aε2n. 其中, Sn=ξ1+ξ2+...+ξn, ε>0.
自主習題 5. 設 ξ 是非負的隨機變數, 而 a>0. 若
- E(ξ)=20;
- E(ξ)=20, Cov(ξ)=20;
- E(ξ)=20,Cov(ξ)=25, 且 ξ 關於期望對稱;
在上述三種情況下, 機率 P{ξ≤a} 的上確界分別如何?