泊淞迴歸

泊淞迴歸（當中泊淞嘅粵語讀音為粵拼：paak3 sung1）係迴歸分析一種，特徵係假設咗要預測嘅變數跟從泊淞分佈，因而能夠處理數sou2次數嘅數據：科研上嘅好多現象，本質上就並非量度連續數值，而係數緊某啲事件發生咗幾多次，譬如係數一日入便有幾多單交通意外、某診所一個月內有幾多病人到診、或者某觀測點聽到幾多次雀仔叫聲等等；呢類數據具有特定嘅數學特徵，例如係冇得出現負數呀噉；由於佢哋有呢啲特徵，若果研究者就噉用普通嘅線性迴歸處理嚟預測呢啲變數，就好可能會扭曲分析嘅結果。

泊淞迴歸個泊淞嚟自英文：Poisson（近似粵拼：poi6 son1）。

泊淞分佈

泊淞迴歸基於泊淞分佈。泊淞分佈屬於概率分佈一種，用嚟描述喺某段固定時間或某笪空間區間入便，互相獨立嘅事件會發生幾多次。數學化啲講，其概率質量函數為^[1]^: 60：

\Pr(X=k)={\frac {e^{-\lambda }\lambda ^{k}}{k!}},\qquad k=0,1,2,\ldots

當中 e 係自然底數，k 係發生次數，k! 係 k 嘅階乘，而 Pr(X = k) 意思係指發生次數係 k 咁多嘅機率。λ 呢個參數係所謂嘅事件平均發生率，喺實際應用上，啲人成日會用過往數據搵到嘅平均值嚟估計 λ 嘅值。呢種分佈有幾個重要嘅數學特徵：

輸入 k 一定要係自然數，泊淞分佈先至有意義，而且負數嘅階乘係無定義，所以 k 唔可以係負數。亦即係話 k 就好似次數數據噉，只可以係自然數，冇得話某件事發生咗（例如）-3 次或者 2.5 次。
期望值同變異數都等於 λ： $\mathbb {E} [X]=\mathrm {Var} (X)=\lambda$ ^{[註 1]}^[2]

好多統計上會應付嘅數據，都屬於次數數據，譬如係：

醫療：瑪麗醫院急症室每個鐘頭處理幾多位心臟病發嘅病人；
生態學：某自然保護區嘅觀鳥站每十五分鐘聽到幾多次某水鳥物種嘅叫聲；
交通：紅磡海底隧道喺高峰時間每小時發生幾多單交通意外。

呢啲變數嘅概率分佈，都可以用唔同 λ 值嘅泊淞分佈嚟模擬。

迴歸模型

泊淞迴歸係基於泊淞分佈嘅廣義線性模型（GLM），可以用嚟由數據嗰度建立統計模型，即係透過已有數據中嘅規律，搵出一個數學模型嚟描述呢啲規律，而個模型第時可以攞嚟做預測。其基本模型寫成：

Y_{i}\sim \mathrm {Poisson} (\lambda _{i}),\qquad \log(\lambda _{i})=\beta _{0}+\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\log({\text{offset}}_{i})

，其中

$Y_{i}$ ：第 i 個觀測嘅事件次數，例如某時段內意外宗數。
啲 $x$ ：即係一眾自變數，可以包括一啲虛擬變數。
$\lambda _{i}$ ：該觀測嘅期望次數或者事件率。
連結函數，用對數 $\log(\cdot )$ ，確保 $\lambda _{i}>0$ ，因為 $\lambda _{i}$ 係預計會發生幾多次，而呢個數值最細只可以係 0。
offset，又有叫暴露量，係一個重要參數，用嚟控制觀察長度嘅影響： $\lambda _{i}$ 係預計嘅發生次數，但係研究者可能比較有興趣想知每月或者每日嘅發生次數，淨係提供預計發生幾多次嘅資訊未必咁有用；假如每個觀測嘅人口基數或者觀測長度唔同，通常就要放返個已知量 $\log({\text{offset}}_{i})$ 。

研究者攞住數據就可以建立泊淞迴歸，電腦會計數^{[註 2]}，然後俾出參數（啲 β）估計係咩值，噉嘅話：每個迴歸係數 $\beta _{j}$ 對應嘅率比為 $\exp(\beta _{j})$ ，即係話佢反映緊佢掕住嗰個自變數嘅值每上升一個單位，個應變數（ $\lambda _{i}$ ）嘅對數預計會升幾多^[3]。

睇埋

過度離勢：若果一個泊淞迴歸模型嘅變異數異常咁大，通常反映佢有景轟，譬如係冇考慮現實中存在嘅非線性關係。
迴歸模型
次數數據

文獻

（英文）Cameron, A. C.; Trivedi, P. K. (1998). Regression analysis of count data. Cambridge University Press.

引述

↑ Yates, Roy D.; Goodman, David J. (2014). Probability and Stochastic Processes: A Friendly Introduction for Electrical and Computer Engineers (2nd ed.). Hoboken, NJ: Wiley.
↑ Haight, Frank A. (1967). Handbook of the Poisson Distribution. New York, NY, US: John Wiley & Sons.
↑ Frome, Edward L. (1983). "The Analysis of Rates Using Poisson Regression Models". Biometrics. 39 (3): pp. 665-674.

註釋

↑ 因此，用泊淞迴歸嘅統計師會關注手上個模型有冇過度離勢嘅情況。
↑ 至於呢啲數點計，詳情可以睇睇最佳化同最大似然估計。

[1] Yates, Roy D.; Goodman, David J. (2014). Probability and Stochastic Processes: A Friendly Introduction for Electrical and Computer Engineers (2nd ed.). Hoboken, NJ: Wiley.

[3] Haight, Frank A. (1967). Handbook of the Poisson Distribution. New York, NY, US: John Wiley & Sons.

[5] Frome, Edward L. (1983). "The Analysis of Rates Using Poisson Regression Models". Biometrics. 39 (3): pp. 665-674.

[2] 因此，用泊淞迴歸嘅統計師會關注手上個模型有冇過度離勢嘅情況。

[4] 至於呢啲數點計，詳情可以睇睇最佳化同最大似然估計。

[1]

[註 1]

[2]

[註 2]

[3]