廣義線性模型

廣義線性模型(參見英文:generalized linear model,glm)係統計分析一種,始於二十世紀。做研究嘅人靠住廣義線性模型,可以得知某個應變數同若干個自變數間有乜嘢關係。譬如依家做宏觀經濟學研究,研究者量度一個國家或地區嘅各種條件,包括係個國家地區嘅人口、利率以及失業率等,想知道呢啲自變數會點樣影響「笪地方嘅本地生產總值」呢個應變數。
一般認為,廣義線性模型有個好處,就係比較「有彈性」,唔使假設啲變數跟常態分佈。喺諸如經濟學、醫學、工程學等好多領域,研究緊嘅變數好多時都唔跟從常態分佈,而普通嘅迴歸分析假設咗啲變數跟常態分佈,就好多時都用唔著。喺呢啲情況下,研究者有必要用廣義線性模型,先可以解答手上嘅問題。
廣義線性模型係廣義化嘅模型。普通嘅迴歸分析可以當係廣義線性模型嘅一個「特殊個案」,係假設啲變數呈常態分佈嘅廣義線性模型。除此之外,廣義線性模型仲可以包含好多種統計模型,譬如係邏輯迴歸同埋泊淞迴歸呀噉。
基本概念
[編輯]迴歸分析[1]係統計學入便一種基礎嘅統計模型,用嚟剖析一個應變數 DV 同若干個自變數 IV 之間嘅關係。簡單嚟講,迴歸模型可以由數據當中搵出規律,建立一個類似噉嘅模型[2]:
- ;當中
- 代表咗截距;
- 、、同 分別代表咗三個 IV;
- 代表咗 呢個 IV 對個 DV 有幾大影響力,其他嗰兩個 同 都係同一道理。
由過往數據得出模型,研究者就可以更深入理解研究緊嘅現象(知道啲 IV 係咪真係能夠預測 DV [註 1])而且將來佢攞住個模型,仲可以透過量度 IV 值嚟預測 DV 值。舉個應用例子:想像依家要做營銷,一間企業睇吓過往嘅數據,建立迴歸模型描述廣告費用同營業額之間嘅關係,得出個模型之後,就可以得知
- 「廣告費用每增加 1,000 文,營業額平均會升 5,000 文」
噉嘅資訊,當中廣告費用係自變數(用嚟做預測)而營業額係應變數(被預測嗰個)。班研究者有咗個模型,第時就做預測同埋幫手制定營銷策略。
傳統上,迴歸分析會假設咗啲變數嘅量度誤差服從常態分佈[3],即係話呢啲變數理應係噉:大部分數值都集中喺平均值附近,極端數值較少出現。假如研究緊嘅變數唔服從常態分佈,又照用迴歸分析,就會搞到得出嘅模型唔準確[4]。

喺實際應用上,好多變數的確係大致跟常態分佈嘅,所以迴歸分析嘅假設冇問題,但又有多變數嘅數據明顯唔符合常態分佈,譬如
廣義線性模型有助應付呢個問題,因為呢種分析方法放寬咗對誤差嘅假設。
三大部份
[編輯]喺廣義線性模型入便,個應變數 Y 每個出到嘅數值都假設咗係由某種指數型分佈[7]產生嘅。指數型分佈包括好多種概率分佈,諸如常態分佈、二項分佈、泊淞分佈以及伽瑪分佈等等。噉:
呢度嘅 E(Y | X) 係 Y 喺 X 條件下嘅期望值;Xβ 係線性預測子[8],即係未知參數 β 嘅線性組合,最後 g 就係連結函數。未知參數 β 可以用最大似然估計或者貝葉斯式嘅技術嚟估計[9]。
誤差嘅分佈
[編輯]線性預測器
[編輯]連結函數
[編輯]睇埋
[編輯]註釋
[編輯]引述
[編輯]- ↑ 英文:regression
- ↑ Pearcey, S. M., & De Castro, J. M. (2002). Food intake and meal patterns of weight-stable and weight-gaining persons. The American journal of clinical nutrition, 76(1), 107-112.
- ↑ 英文:normal distribution
- ↑ What Are Degrees of Freedom in Statistics?.
- ↑ 10.1.1 The Poisson distribution
- ↑ 英文:outlier
- ↑ 英文:exponential distribution family
- ↑ 英文:linear predictor
- ↑ Madsen, Henrik; Thyregod, Poul (2011). Introduction to General and Generalized Linear Models. Chapman & Hall/CRCC.
外拎
[編輯]- (英文) 廣義線性模型,IBM SPSS
- (英文) SPSS 入便嘅廣義線性模型,SPSS analysis
- (英文) 廣義線性模型,全面入門簡介,Medium