摘要訊息 : 從結果來估計成功的機率.
0. 前言
在這篇文章中, 我們將基於大數法則 (《【機率論】初等機率論——Bernoulli 概型 : 大數法則》) 引入統計學中的幾個概念. 部分概念其實我們在《機器學習筆記》中已經解釋過了, 只不過這次我們從機率輪和統計學的角度更加嚴格地重新審視這些概念.
更新紀錄 :
- 2022 年 6 月 16 日進行第一次更新和修正.
1. "成功" 機率估計的概念及其性質
我們之前所討論的 Bernoulli 概型 (Ω,A,P) : Ω={ω:ω=(x1,x2,...,xn),xi∈{0,1},i=1,2,...,n},A={A:A⊆Ω},P({ω})=p(ω)=pi∑xi(1−p)n−i∑xi 都是假設 p 的值已知, 也就是我們已經知道試驗 "成功" 的機率. 現在假設 p 事先未知, 但是我們知道試驗結局的觀測結果, 或是對隨機變數 ξ1(ω),ξ2(ω),...,ξn(ω) 的觀測結果來確定機率 p. 其中, ξi(ω)=xi (i=1,2,...,n). 這便是統計學中的經典問題之一, 它有多種不同的提法.
在《機器學習筆記》中, 若只有一個參數, 那麼我們通常使用 θ, 這也是統計學中對未知參數慣用的記號. 我們沿用這個記號, 也就是把 p 記為 θ, 並且認為 θ 是事前的 (priori). 對於機率 p 來說, 必定有 p∈[0,1], 對於 θ 來說也是類似. 我們認為要估計的 θ 有 θ∈Θ=[0,1]. 通常來說, 我們可以將這樣的統計學模型寫為 E=(Ω,A,P,θ∈Θ),Pθ({ω})=θi∑xi(1−θ)n−i∑xi. 而任意在 Θ 中取值的函數, 即值域 RT 滿足 RT⊆Θ 的函數 Tn=Tn(ω) 稱為估計量 (estimator).
定義 1. 若對於任意 ε>0 和 θ∈Θ, 估計量 Tn∗ 滿足 Pθ{∣Tn∗−θ∣≥ε}→0 (n→∞), 我們稱估計量 Tn∗ 是相合的 (consistent).
如果設 Sn=ξ1+ξ2+...+ξn,Tn∗=nSn, 則由大數法則可知 Pθ{∣∣∣∣∣nSn−θ∣∣∣∣∣≥ε}→0 (n→∞). 顯然, Tn∗ 是相合的.
定義 2. 若對於任意 θ∈Θ, 估計量 Tn∗ 滿足 Eθ(Tn∗)=θ, 那麼我們稱估計量 Tn∗ 是無偏的 (unbiased).
估計量的無偏性是一條很自然的性質. 因為任何合理的估計量, 至少在平均意義下都應當得到期望的結果. 不過, 無偏的估計量並不是唯一的. 例如, 對於任意滿足 b1+b2+...+bn=n 的估計量 Tn=nb1ξ1+b2ξ2+...+bnξn 都是無偏的. 我們可以容易地從 Eθ(Tn)=Eθ(nb1ξ1+b2ξ2+...+bnξn)=n1Eθ(b1ξ1+b2ξ2+...+bnξn)=n1(Eθ(b1ξ1)+Eθ(b2ξ2)+...+Eθ(bnξn))=n1(b1Eθ(ξ1)+b2Eθ(ξ2)+...+bnEθ(ξn))=n1(b1θ+b2θ+...+bnθ)=nθ(b1+b2+...+bn)=θ 看出. 至少對於有限的 bi (i=1,2,...,n), 即 ∣bi∣≤K<+∞, 這些估計量都服從大數法則. 從而對於 Tn∗=nSn (因為 E(Sn)=np) 和 Tn 這兩個估計量, 它們都是無偏的估計量.
這樣, 就產生了一個問題 : 對於不同的無偏估計量, 哪一個是最好的, 最佳的? 不過, 根據估計量本身的含義, 自然是 Tn 和 θ 相差越小越好. 於是, 自然地, 我們想到了使用方差來度量.
定義 3. 考慮所有可能的無偏估計 Tn 的集合 {Tn}, 我們認為 Tn∈{Tn} 是有效的 (efficient), 若且唯若 Varθ(Tn)=Tninf{Varθ(Tn)} 成立. 其中, θ∈Θ.
斷言 1. 設 Sn=ξ1+ξ2+...+ξn, Tn∗=nSn, 則 Tn∗ 是關於未知參數 θ 的有效估計量.
證明 :事實上, 我們有 Varθ(Tn∗)=Varθ(nSn)=n2Varθ(Sn)=n2nθ(1−θ)=nθ(1−θ). 因此, 為了證明估計量 Tn∗ 是有效的, 只需要證明 Tninf{Varθ(Tn)}≥nθ(1−θ).
對於 θ=0 和 θ=1, 不等式顯然成立, 因為方差永遠不會小於零. 現在設 θ∈(0,1) 且 pθ(xi)=θxi(1−θ)1−xi. 顯然, Pθ({ω})=pθ(ω)=i=1∏npθ(xi).
記 Lθ(ω)=lnpθ(ω), 那麼有 Lθ(ω)=lnpθ(ω)=lnpθ(x1)⋅pθ(x2)⋅...⋅pθ(xn)=lnpθ(x1)+lnpθ(x2)+...+lnpθ(xn)=lnθx1(1−θ)1−x1+lnθx2(1−θ)1−x2+...+lnθxn(1−θ)1−xn=lnθx1+ln(1−θ)1−x1+lnθx2+ln(1−θ)1−x2+...+lnθxn+ln(1−θ)1−xn=x1lnθ+(1−x1)ln(1−θ)+x2lnθ+(1−x2)ln(1−θ)+...+xnlnθ+(1−xn)ln(1−θ)=(x1+x2+...+xn)lnθ+((1−x1)+(1−x2)+...+(1−xn))ln(1−θ)=i=1∑nxilnθ+i=1∑n(1−xi)ln(1−θ). 對 θ 求導數可得 ∂θ∂Lθ(ω)=θi=1∑nxi−1−θi=1∑n(1−xi)=θ(1−θ)i=1∑n(1−θ)−θi=1∑n(1−xi)=θ(1−θ)i=1∑nxi−θi=1∑nxi−θi=1∑n1+θi=1∑nxi=θ(1−θ)i=1∑nxi−i=1∑nθ=θ(1−θ)x1+x2+...+xn−θ−θ−...−θn 個 θ=θ(1−θ)(x1−θ)+(x2−θ)+...+(xn−θ)=θ(1−θ)i=1∑n(xi−θ).
我們注意到 1≡ω∑pθ(ω). 等式兩側對 θ 求導數可得 0=ω∑∂θ∂pθ(ω) (I). 另外, Lθ(ω)=lnpθ(ω) 對 θ 的偏導數可以表示為 ∂θ∂Lθ(ω)=pθ(ω)1⋅∂θ∂pθ(ω). 對式 (I) 進行變幻並且根據期望的定義可得 0=ω∑∂θ∂pθ(ω)=ω∑pθ(ω)∂θ(ω)∂pθ(ω)pθ(ω)=Eθ(∂θ∂Lθ(ω)). (II)
我們還注意到一個可以利用的信息, 即 Tn 都是無偏的, 亦即有 θ=Eθ(Tn). 根據期望的定義, 上式還可以進一步展開 : θ=Eθ(Tn)=ω∑Tn(ω)pθ(ω). 等式兩側對 θ 求導數可得 1=ω∑Tn(ω)∂θ∂pθ(ω)=ω∑Tn(ω)pθ(ω)∂θ∂pθ(ω)pθ(ω)=Eθ(Tn(ω)∂θ∂Lθ(ω)). (III)
我們再次對式 (II) 進行變換, 等式兩側乘以 θ, 得 0≡0⋅θ=θ⋅Eθ(∂θ∂Lθ(ω))=Eθ(θ⋅∂θ∂Lθ(ω)). 然後結合上式和式 (III), 就有 1≡1−0=Eθ(Tn∂θ∂Lθ(ω))−Eθ(∂θ∂Lθ(ω))=Eθ(Tn∂θ∂Lθ(ω))−Eθ(θ∂θ∂Lθ(ω))=Eθ(Tn∂θ∂Lθ(ω)−θ∂θ∂Lθ(ω))=Eθ((Tn−θ)∂θ∂Lθ(ω)). 那麼, 1=Eθ((Tn−θ)∂θ∂Lθ(ω))=∣∣∣∣∣Eθ((Tn−θ)∂θ∂Lθ(ω))∣∣∣∣∣=∣1∣. 結合《【機率論】初等機率論——隨機變數及其特徵》中期望的性質和 Cauchy-Schwarz 不等式的機率形式, 我們可以得到 1=Eθ((Tn−θ)∂θ∂Lθ(ω))=Eθ((Tn−θ)∂θ∂Lθ(ω))Eθ((Tn−θ)∂θ∂Lθ(ω))=∣∣∣∣∣Eθ((Tn−θ)∂θ∂Lθ(ω))∣∣∣∣∣⋅∣∣∣∣∣Eθ((Tn−θ)∂θ∂Lθ(ω))∣∣∣∣∣≤Eθ(∣∣∣∣∣(Tn−θ)∂θ∂Lθ(ω)∣∣∣∣∣)Eθ(∣∣∣∣∣(Tn−θ)∂θ∂Lθ(ω)∣∣∣∣∣)=(Eθ(∣∣∣∣∣(Tn−θ)∂θ∂Lθ(ω)∣∣∣∣∣))2≤Eθ((Tn−θ)2)Eθ((∂θ∂Lθ(ω))2). 記 In(θ)=Eθ((∂θ∂Lθ(ω))2), 有 1≤Eθ((Tn−θ)2)⋅In(θ)⇔Eθ((Tn−θ)2)≥In(θ)1.
總之, 我們可以得到 Varθ(Tn)=Eθ((Tn−θ)2)≥In(θ)1. 這是 C. R. Rao - G. Cramér 不等式的特殊形式, 對於我們所要討論的形式, 有 In(θ)=Eθ((∂θ∂Lθ(ω))2)=Eθ⎝⎜⎜⎜⎜⎛⎝⎜⎜⎜⎛θ(1−θ)i=1∑n(ξi(ω)−θ)⎠⎟⎟⎟⎞2⎠⎟⎟⎟⎟⎞=Eθ⎝⎜⎜⎜⎜⎜⎜⎜⎜⎛(θ(1−θ))2⎝⎜⎛ξ1(ω)+ξ2(ω)+...+ξn(ω)−n−n−...−nn 個 θ⎠⎟⎞2⎠⎟⎟⎟⎟⎟⎟⎟⎟⎞=Eθ((θ(1−θ))2(ξ1(ω)+ξ2(ω)+...+ξn(ω)−nθ)2)=(θ(1−θ))21Eθ((ξ1(ω)+ξ2(ω)+...+ξn(ω)+nθ)2)=(θ(1−θ))2n(θ(1−θ))=θ(1−θ)n. 最終, 我們有 Tninf{Varθ(Tn)}≥nθ(1−θ).
綜上所述, Tn∗ 是關於未知參數 θ 的有效估計量.
■
在斷言 1 的證明中, 我們所記的 In(θ)=Eθ((∂θ∂Lθ(ω))2) 被稱為 Fisher 信息量 (Fisher's information).
Tip : 至於斷言 1 證明中的最後部分 Eθ((ξ1(ω)+ξ2(ω)+...+ξn(ω)+nθ)2)=n(θ(1−θ)), 請讀者自行展開計算吧, 我實在是懶得算了...
2. "成功" 機率的信賴區間
如果將 Tn∗ 當作 θ 的某個值 (或者某個點), 那麼就會出現錯誤. 因為對於某些 ω, 很可能出現 Tn∗(ω) 的值對 θ 的偏差相當大. 因此, 我們還需要對估計的誤差進行衡量.
儘管我們不能指望對於所有基本事件 ω, Tn∗=Tn∗(ω) 都能與 θ 的值差異甚小, 這也是毫無意義的. 不過, 通過大數法則, 我們可以知道對於充分大的 n 和任意 δ>0, 事件 {∣θ−Tn∗∣>δ} 的機率都充分小.
根據 Chebyshev 不等式 (《【機率論】初等機率論——Bernoulli 概型 : 大數法則》引理 1), 我們有 Pθ{∣θ−Tn∗∣>δ}=Pθ{∣θ−Tn∗∣2>δ}≤δ2Eθ((θ−Tn∗)2)=δ2Varθ(Tn∗)=nδ2θ(1−θ). 對於 δ=λnθ(1−θ), 有 Pθ{∣θ−Tn∗∣>δ}=Pθ{∣θ−Tn∗∣>λnθ(1−θ)}≤λ21. 其中, λ>0. 相反地, 我們可以得到 Pθ{∣θ−Tn∗∣≤δ}=Pθ{∣θ−Tn∗∣≤λnθ(1−θ)}≤1−λ21. 例如, 取 λ=3, 那麼事件 {∣θ−Tn∗∣≤3nθ(1−θ)} 出現的機率為 98. 特別地, 若 θ(1−θ)≤41, 那麼事件 {∣θ−Tn∗∣≤2n3} 出現的機率為 98. 我們進行一些變換, Pθ{∣θ−Tn∗∣≤2n3}=Pθ{−(θ−Tn∗)≤2n3≤θ−Tn∗}=Pθ{Tn∗−θ≤2n3 且 2n3≤θ−Tn∗}=Pθ{θ≥Tn∗−2n3 且 θ≤Tn∗+2n3}=Pθ{Tn∗−2n3≤θ≤Tn∗+2n3}≥98. 換句話說, 未知參數 θ 屬於區間 [Tn∗−2n3,Tn∗+2n3] 的機率大於等於 98. 有時候, 我們可以記為 θ≃Tn∗±2n3(≥98). 通過上述分析, 我們可以對信賴區間進行定義.
定義 4. 若任意 θ∈Θ, 有 Pθ{ψ1(ω)≤θ≤ψ2(θ)}≥1−δ 成立, 那麼稱形如 [ψ1(ω),ψ2(ω)] 這樣的區間為可信度為 1−δ 的信賴區間或者稱為顯著性水平為 δ 的信賴區間. 其中, ψ1(ω) 和 ψ2(ω) 是關於基本事件 ω 的兩個函數.
我們在大數法則中就指出, 基於 Chebyshev 不等式的估計是粗略的. 此處同樣是這樣. 我們所得到的 θ∈[Tn∗−2nλ,Tn∗+2nλ] 的可信度為 1−λ21. 實際上, 可信度要比 1−λ21 要高得多.
為了得到更加精確的可信度, 我們注意到 {ω:∣θ−Tn∗∣≤λnθ(1−θ)}={ω:ψ1(Tn∗,n)≤θψ2(Tn∗,n)}. 其中, ψ1=ψ1(Tn∗,n) 和 ψ2=ψ2(Tn∗,n) 是橢圓方程式 (θ−Tn∗)2=nλ2θ(1−θ) (IV) 的根.
Figure 1. 橢圓方程 (IV)
現在記 Fθn(x)=Pθ{nθ(1−θ)Sn−nθ≤x}. 我們曾經在《【機率論】初等機率論 – Bernoulli 概型 : 極限定理》中得到 −∞<x<+∞sup∣Fθn(x)−Φ(x)∣≤nθ(1−θ)θ2+(1−θ)2. 其中, Φ(x)=2π1∫−∞xe−2t2dt. 由均值不等式, 我們可以得到 θ2+(1−θ)2=θ2+θ2−2θ+1≤θ2+θ2−(θ2+θ2)+1=1. 因此, 我們有 −∞<x<+∞sup∣Fθn(x)−Φ(x)∣≤nθ(1−θ)1. 如果我們事前已知 0<Δ≤θ≤1−Δ<1, 那麼自然地也有 0<1−Δ≤1−θ<Δ<1. 其中, Δ 是某一常數. 那麼 nθ(1−θ)1≤nΔ(1−θ)1≤nΔ⋅Δ1=Δn1, 則 −∞<x<+∞sup∣Fθn(x)−Φ(x)∣≤Δn1. 從而 Pθ{ψ1(Tn∗,n)≤θ≤ψ2(Tn∗,n)}=Pθ{∣θ−Tn∗∣≤λnθ(1−θ)}=Pθ{nθ(1−θ)∣Sn−nθ∣≤λ}≥(2Φ(λ)−1)−Δn2. 設 λ∗ 是滿足 (2Φ(λ)−1)−Δn2≤1−δ∗ 的最小 λ 值, 其中 δ∗ 是給定的顯著性水平. 記 δ=δ∗−Δn2, 則 λ∗ 是如下方程式的根 : Φ(λ)=1−2δ. 當 n 比較大的時候, 可以忽略項 Δn2, 於是可以認為 λ∗ 滿足關係式 Φ(λ∗)=1−2δ∗.
例如, 若 λ∗=3, 則 1−δ∗≐0.9973. 因此以近似的機率 0.9973, 我們有 Tn∗−3nθ(1−θ)≤θ≤Tn∗+3nθ(1−θ). 更進一步地, 經過迭代並且忽略量級為 O(n−43) 的項, 得到 Tn∗−3nTn∗(1−Tn∗)≤θ≤Tn∗+3nTn∗(1−Tn∗). 由此可見, 對於充分大的 n, 可信區間 [Tn∗−2n3,Tn∗+2n3] 的可信度高達 0.9973, 比通過 Chebyshev 不等式得到的可信度要高出近 11%.
由此可見, 加入進行大量 N-系列試驗, 每系列試驗根據 n 次觀測的結果估計參數 θ. 那麼平均情況下, 有 99.73% 的機率, 估計量和參數 θ 的差值不大於 2n3.