跳去內容

多重共線性

出自維基百科,自由嘅百科全書
圖中嘅變數 1(打橫軸)同變數 2(打戙軸)有相當高嘅統計相關

多重共線性(參照英文multicollinearity)係多重迴歸模型裡便不時會出現嘅問題,講緊迴歸模型有多個自變數,而呢啲自變數之間有明顯嘅相關。呢點會令統計師憂慮-噉係因為喺迴歸模型入便,研究者預咗啲自變數係彼此間獨立嘅。呢個假設唔成立,分析結果就可能出現扭曲。

基本概念

[編輯]
睇埋:自變數

建立迴歸模型,研究者正常係想用若干個自變數嘅值,預測應變數嘅值。原則上,個模型係應該要做到「隔離」唔同自變數嘅影響-每個自變數掕住嘅系數,都係反映緊以下嘅資訊

如果其他自變數不變[註 1],呢個自變數每改變一個單位咁多,應變數會變幾多。

但係若果自變數之間有明顯嘅統計相關,就會有問題:兩個變數之間有統計相關就表示,其中一個升,另外嗰個都預咗佢會跟住升或者跌;兩個自變數之間有強嘅相關,就表示「如果其他自變數不變」呢點做唔到。[1][2]

一般嚟講,結構性質嘅多重共線性 (暫譯) [3]並唔係問題:結構性質意思係指源自模型結構嘅多重共線性,例如若果個迴歸模型中有 xx2(某個自變數同埋佢嘅平方項)呢兩個自變數,兩嚿嘢必定會有高度嘅相關;呢種多重共線性源自用其中一個自變數項嚟創建另一個。真正引起問題嘅,係數據中實際存在嘅多重共線性。[4]

因為噉,做統計嘅人郁手建模之前,通常都會 checkcek1 吓啲自變數之間嘅統計相關有幾強。假若某啲自變數之間嘅相關過強,佢哋可能會考慮放棄其中一啲自變數。

有咩問題

[編輯]

多重共線性會引起好多問題:

  • 係數嘅估計值會變得不穩,容易模型變咗少少係數就出現大變。譬如加多一個自變數入個模型,其中一啲係數就數值大變,甚至由正變負或者由負變正。呢種不穩嘅情況,會令好多研究者感到不安。
  • 削弱迴歸模型嘅統計功效

喺實際應用上,多重共線性有程度之分:假若啲自變數之間只有弱嘅相關(例如 .10 至 .15)研究者大可以忽視。

評估指標

[編輯]

喺現實應用中,多重共線性通常會用方差擴大因子(VIF)嚟衡量。假如方差擴大因子數值大過 5,通常就表示個模型有多重共線性方面嘅憂慮。

睇埋

[編輯]

引咗

[編輯]
  1. Kalnins, Arturs; Praitis Hill, Kendall (2023-12-13). "The VIF Score. What is it Good For? Absolutely Nothing". Organizational Research Methods (英文). 28: 58–75. doi:10.1177/10944281231216381. ISSN 1094-4281.
  2. Leamer, Edward E. (1973). "Multicollinearity: A Bayesian Interpretation". The Review of Economics and Statistics. 55 (3): 371–380. doi:10.2307/1927962. ISSN 0034-6535. JSTOR 1927962.
  3. 參見英文Structural multicollinearity
  4. 10.4 - Multicollinearity

註釋

[編輯]
  1. 可以睇睇最大似然估計嘅詳情。

連結

[編輯]