從突襲封城看香港政府官員的統計素養

Jan 27, 2021

佐敦7000人中有13人確診跟油麻地330人中有1人確診，油麻地真的比較危險嗎?

簡介

香港政務司司長張建宗在訪問中表示油麻地強制檢測330人中有1人確診(約0.3%)比佐敦7000人中有13人確診(約0.17%)高，認為突襲封城效果很好。這樣子的論述符合統計上是否成立呢?答案是否定的。這篇我們將用基礎的統計檢驗告訴大家在這樣稀少的樣本數下，單純只看數字很容易得到錯誤的結論

方法

我們用的是兩個樣本比例的假設檢定，我們從新聞中可以知道下列的資訊

佐敦強制檢測區域

樣本數(n₁): 7000
確診比例(p₁): 0.17%
變異數(var₁,p₁(1-p₁)/n₁): 0.00024%
95%信賴區間(Confidence interval):[0,0.4%]

油麻地強制檢測區域

樣本數(n₂): 330
確診比例(p₂): 0.3%
變異數(var₂,p₂(1-p₂)/n₂): 0.00096%
95%信賴區間: [0,0.9%]

總計

確診比例(p): 0.23%

統計檢定-基礎統計，檢驗兩個群體的比例

大學的基本統計課程一定都會有介紹兩個群體的比例的統計，這裡我們先用這個方法做統計檢定。這裡提醒大家這種方法會假設我們的抽樣會成常態分佈(Normal distribution)，我們會在下一小節提到這並不是一個合理的假設。

在常態分布的假設下，我們的虛無假設(H₀)兩地的確診比例並沒有不一樣(p₁ = p₂)，對立假說(Hₐ)則是兩地的確診比例是不一樣的 (p₁ ≠ p₂)。油麻地與佐敦的COVID-19確診者比例並沒有不同(檢定統計量(TS)=0.52, p-val為0.70)。

討論

在我們討論正確的統計方法之前(因為正確的方法也會得到相同的結論)，我們可以看到政府政務官員的敘述在統計上並不成立，我們可以很直接地發現兩者的信賴區間是重疊再一起的。當然，結論而言香港政府想要的是找到所有潛藏在社區的感染源，能檢測出越多越好；但在我們推行STEM教育的年代，用似是而非的數學結論作為一個政策執行效果的指標並不是一個好的典範。

如果你對下面的正確的數學沒有興趣，就可以看到這邊結束了。喜歡的話可以留言和拍手，有想要的知道的統計問題或是有趣的資料想要視覺化也可以留言。

統計檢定-正確的方法Fisher's exact test

只有一個確診那樣還算常態嗎?

在基礎的統計課程裡面我們會將這樣的情況假設是常態分佈，那是因為當隨機變數(random variable)服從二項分布(Binomial distribution), X~B(n,p),當n夠大的時候，隨機變數也趨近於常態分佈X~N(np,np(1-p))。一般的課本會告訴大家當 np,n(1-p) 大於五的時候就可以了。在我們的檢測案例中，這並不是一個恰當的假設。

Fisher’s exact test 方法

這種時候我們可以不用這種假設，我們可以直接計算以下這張表格出現的機率。

概念上來說，在我們知道7330人中有14人是確診者，而且油麻地的人數是330，佐敦人數是7000下有多少的機會我們可以產生下面的列聯表(Contingency table)

具體的方法如下:

分子是在油麻地330人選1人成為COVID19陽性的方法以及在佐敦7000人選13人成為COVID19陽性的方法所以是 C³³⁰₁ * C⁷⁰⁰⁰₁₃

我們的分母是7330(7000+330)人中選中14(13+1)個人是COVID-19陽性的方法。所以是 C⁷³³⁰₁₄

這樣我們可以直接得出我們產生這個列聯表的機率是 (C³³⁰₁ * C⁷⁰⁰⁰₁₃/ C⁷³³⁰₁₄) =0.34。

所以我們也可以發現其實有 0.34 以上的機率(實際的機率應該為Fisher’s exact test p=0.48)*我們是分辨不出來到兩邊是來自不同的樣本。

*:這裡我們只展示了Fisher’s exact test的第一步，實際的機率還要加上剩下更極端的contingency table出現的機率，但光是這一個情況都已經超過0.05就省略了