跳去內容

泊淞迴歸

出自維基百科,自由嘅百科全書
(由泊淞迴歸模型跳轉過嚟)

泊淞迴歸(當中泊淞粵語讀音為粵拼paak3 sung1)係迴歸分析一種,特徵係假設要預測嘅變數跟從泊淞分佈,因而能夠處理sou2次數數據科研上嘅好多現象,本質上就並非量度連續數值,而係數緊某啲事件發生咗幾多次,譬如係數一日入便有幾多單交通意外、某診所一個月內有幾多病人到診、或者某觀測點聽到幾多次雀仔叫聲等等;呢類數據具有特定嘅數學特徵,例如係冇得出現負數呀噉;由於佢哋有呢啲特徵,若果研究者就噉用普通嘅線性迴歸處理嚟預測呢啲變數,就好可能會扭曲分析嘅結果。

泊淞迴歸個泊淞嚟自英文Poisson(近似粵拼poi6 son1)。

泊淞分佈

[編輯]
呢幅圖,畫嘅係幾個 λ 值唔同嘅泊淞分佈。
内文:泊淞分佈

泊淞迴歸基於泊淞分佈泊淞分佈屬於概率分佈一種,用嚟描述喺某段固定時間或某笪空間區間入便,互相獨立嘅事件會發生幾多次數學化啲講,其概率質量函數[1]: 60 

當中 e自然底數,k 係發生次數,k! 係 k 嘅階乘,而 Pr(X = k) 意思係指發生次數係 k 咁多機率。λ 呢個參數係所謂嘅事件平均發生率,喺實際應用上,啲人成日會用過往數據搵到嘅平均值嚟估計 λ 嘅值。呢種分佈有幾個重要嘅數學特徵:

  • 輸入 k 一定要係自然數,泊淞分佈先至有意義,而且負數階乘無定義,所以 k 唔可以係負數。亦即係話 k 就好似次數數據噉,只可以係自然數,冇得話某件事發生咗(例如)-3 次或者 2.5 次。
  • 期望值變異數都等於 λ: [註 1][2]

好多統計上會應付嘅數據,都屬於次數數據,譬如係:

呢啲變數嘅概率分佈,都可以用唔同 λ 值嘅泊淞分佈嚟模擬。

迴歸模型

[編輯]

泊淞迴歸係基於泊淞分佈嘅廣義線性模型(GLM),可以用嚟由數據嗰度建立統計模型,即係透過已有數據中嘅規律,搵出一個數學模型嚟描述呢啲規律,而個模型第時可以攞嚟做預測。其基本模型寫成:

,其中
  • :第 i 個觀測嘅事件次數,例如某時段內意外宗數。
  • :即係一眾自變數,可以包括一啲虛擬變數
  • :該觀測嘅期望次數或者事件率。
  • 連結函數,用對數 ,確保 ,因為 係預計會發生幾多次,而呢個數值最細只可以係 0。
  • offset,又有叫暴露量,係一個重要參數,用嚟控制觀察長度嘅影響: 係預計嘅發生次數,但係研究者可能比較有興趣想知每月或者每日嘅發生次數,淨係提供預計發生幾多次嘅資訊未必咁有用;假如每個觀測嘅人口基數或者觀測長度唔同,通常就要放返個已知量

研究者攞住數據就可以建立泊淞迴歸,電腦會計數[註 2],然後俾出參數(啲 β)估計係咩值,噉嘅話:每個迴歸係數 對應嘅率比,即係話佢反映緊佢掕住嗰個自變數嘅值每上升一個單位,個應變數()嘅對數預計會升幾多[3]

睇埋

[編輯]

文獻

[編輯]

  • (英文)Cameron, A. C.; Trivedi, P. K. (1998). Regression analysis of count data. Cambridge University Press.

引述

[編輯]
  1. Yates, Roy D.; Goodman, David J. (2014). Probability and Stochastic Processes: A Friendly Introduction for Electrical and Computer Engineers (2nd ed.). Hoboken, NJ: Wiley.
  2. Haight, Frank A. (1967). Handbook of the Poisson Distribution. New York, NY, US: John Wiley & Sons.
  3. Frome, Edward L. (1983). "The Analysis of Rates Using Poisson Regression Models". Biometrics. 39 (3): pp. 665-674.

註釋

[編輯]
  1. 因此,用泊淞迴歸嘅統計師會關注手上個模型有冇過度離勢嘅情況。
  2. 至於呢啲數點計,詳情可以睇睇最佳化最大似然估計