일반 선형 모형
일반 선형 모형(General linear model) 또는 일반 다변량 회귀 모형은 여러 다중 선형 회귀 모형을 동시에 작성하는 간결한 방법이다. 그런 의미에서 이는 별도의 통계 모형은 아니다. 다양한 다중 선형 회귀 모형은 다음과 같이 간결하게 쓸 수 있다.[1]
여기서 Y는 다변량 측정 시리즈를 포함하는 행렬 (각 열은 종속변수 중 하나에 대한 측정 세트임), X는 디자인 매트릭스일 수 있는 독립변수에 대한 관측 행렬(각 열은 독립변수 중 하나에 대한 관측 세트임), B는 일반적으로 추정해야 할 매개변수를 포함하는 행렬, 그리고 U는 오차 (노이즈)를 포함하는 행렬이다. 오차는 일반적으로 측정 전반에 걸쳐 상관 관계가 없으며 다변량 정규분포를 따른다고 가정한다. 오차가 다변량 정규분포를 따르지 않는 경우, Y와 U에 대한 가정을 완화하기 위해 일반화 선형 모형을 사용할 수 있다.
일반 선형 모형(GLM)은 ANOVA, ANCOVA, MANOVA, MANCOVA 및 일반 선형 회귀를 포함한 여러 통계 모델을 포괄한다. 이 프레임워크 내에서 T-검정과 F-검정을 모두 적용할 수 있다. 일반 선형 모형은 두 개 이상의 종속 변수가 있는 경우의 다중 선형 회귀를 일반화한 것이다. 만약 Y, B, U가 열 벡터였다면, 위의 행렬 방정식은 다중 선형 회귀를 나타냈을 것이다.
일반 선형 모형을 사용한 가설 검정은 두 가지 방식으로 수행할 수 있다. 다변량 또는 여러 독립적인 단변량 검정으로 수행할 수 있다. 다변량 검정에서는 Y의 열이 함께 검정되는 반면, 단변량 검정에서는 Y의 열이 독립적으로 검정된다. 즉, 동일한 디자인 행렬을 사용하여 여러 단변량 검정으로 수행된다.
다중 선형 회귀와의 비교
[편집]다중 선형 회귀는 단순회귀분석을 두 개 이상의 독립 변수 케이스로 일반화한 것이며, 하나의 종속 변수에 국한된 일반 선형 모형의 특수 사례이다. 다중 선형 회귀의 기본 모델은 다음과 같다.
- 또는 더 간결하게
각 관측치 i = 1, ... , n에 대해.
위의 공식에서 우리는 하나의 종속 변수에 대한 n개의 관측치와 p개의 독립 변수를 고려한다. 따라서 Yi는 종속 변수의 i번째 관측치이고, Xik는 k번째 독립 변수의 i번째 관측치이며, k = 1, 2, ..., p이다. βk 값은 추정할 매개변수를 나타내고, εi는 i번째 독립적이며 동일하게 분포된 정규 오차이다.
더 일반적인 다변량 선형 회귀에서는 m > 1개의 각 종속 변수에 대해 위 형식의 방정식이 하나씩 있으며, 이들은 동일한 설명 변수 세트를 공유하므로 서로 동시에 추정된다.
- 또는 더 간결하게
i = 1, ... , n으로 색인된 모든 관측치에 대해, 그리고 j = 1, ... , m으로 색인된 모든 종속 변수에 대해.
각 종속 변수에는 적합할 자체 회귀 매개변수 세트가 있으므로, 계산 관점에서 일반 다변량 회귀는 동일한 설명 변수를 사용하는 표준 다중 선형 회귀의 단순한 시퀀스라는 점에 유의해야 한다.
일반화 선형 모형과의 비교
[편집]일반 선형 모형과 일반화 선형 모형 (GLM)[2][3]은 연속형 및 범주형 예측 변수를 단일 결과 변수와 연관시키는 데 일반적으로 사용되는 통계 방법의 두 가지 계열이다.
두 접근 방식의 주요 차이점은 일반 선형 모형이 잔차가 조건부 정규 분포를 따를 것이라고 엄격하게 가정하는 반면,[4] GLM은 이 가정을 완화하고 잔차에 대해 지수족의 다양한 다른 분포를 허용한다는 점이다.[2] 일반 선형 모형은 잔차의 분포가 조건부 정규 분포를 따르는 GLM의 특수한 경우이다.
잔차의 분포는 결과 변수의 유형과 분포에 크게 의존한다. 결과 변수의 유형이 다르면 GLM 계열 내의 모델도 다양해진다. GLM 계열에서 일반적으로 사용되는 모델에는 이항 또는 이분형 결과에 대한 이항 로지스틱 회귀[5], 계수 결과에 대한 포아송 회귀[6], 연속형 정규 분포 결과에 대한 선형 회귀가 있다. 이는 GLM이 통계 모델의 일반적인 계열로 또는 특정 결과 유형에 대한 특정 모델로 언급될 수 있음을 의미한다.
| 일반 선형 모형 | 일반화 선형 모형 | |
|---|---|---|
| 일반적인 추정 방법 | 최소제곱법, 최량 선형 불편 예측 | 최대가능도 또는 베이즈 |
| 예시 | ANOVA, ANCOVA, 선형 회귀 | 선형 회귀, 로지스틱 회귀, 포아송 회귀, 감마 회귀,[7] 일반 선형 모형 |
| 확장 및 관련 방법 | MANOVA, MANCOVA, 선형 혼합 모형 | 일반화 선형 혼합 모형 (GLMM), 일반화 추정 방정식 (GEE) |
| R 패키지 및 함수 | lm() in stats package (base R) | glm() in stats package (base R) manova, |
| MATLAB 함수 | mvregress() | glmfit() |
| SAS 프로시저 | PROC GLM, PROC REG | PROC GENMOD, PROC LOGISTIC (for binary & ordered or unordered categorical outcomes) |
| Stata 명령어 | regress | glm |
| SPSS 명령어 | regression, glm | genlin, logistic |
| Wolfram Language & Mathematica 함수 | LinearModelFit[][8] | GeneralizedLinearModelFit[][9] |
| EViews 명령어 | ls[10] | glm[11] |
| statsmodels Python 패키지 | regression-and-linear-models | GLM |
응용
[편집]일반 선형 모형의 한 가지 응용은 뇌 스캔 과학 실험의 다중 뇌 스캔 분석에서 나타나는데, 여기서 Y는 뇌 스캐너의 데이터를 포함하고, X는 실험 설계 변수와 혼란 변수를 포함한다. 이는 일반적으로 단변량 방식으로 테스트되며 (이 설정에서는 일반적으로 대량 단변량으로 언급됨) 종종 통계적 매개변수 사상으로 언급된다.[12]
같이 보기
[편집]내용주
[편집]- ↑ Mardia, K. V.; Kent, J. T.; Bibby, J. M. (1979). 《Multivariate Analysis》. Academic Press. ISBN 0-12-471252-5.
- ↑ 가 나 McCullagh, P.; Nelder, J. A. (1983년 1월 1일). 〈An outline of generalized linear models〉. 《Generalized Linear Models》. Springer US. 21–47쪽. doi:10.1007/978-1-4899-3242-6_2 (년 이후로 접속 불가 2025-07-12). ISBN 9780412317606.
- ↑ Fox, J. (2015). Applied regression analysis and generalized linear models. Sage Publications.
- ↑ Cohen, J.; Cohen, P.; West, S. G.; Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences (보고서).
- ↑ Hosmer Jr, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (Vol. 398). John Wiley & Sons.
- ↑ Gardner, W.; Mulvey, E. P.; Shaw, E. C. (1995). 《Regression analyses of counts and rates: Poisson, overdispersed Poisson, and negative binomial models》. 《Psychological Bulletin》 118. 392–404쪽. doi:10.1037/0033-2909.118.3.392. PMID 7501743.
- ↑ McCullagh, Peter; Nelder, John (1989). 《Generalized Linear Models》 2판. Boca Raton: Chapman and Hall/CRC. ISBN 978-0-412-31760-6.
- ↑ LinearModelFit, Wolfram Language Documentation Center.
- ↑ GeneralizedLinearModelFit, Wolfram Language Documentation Center.
- ↑ ls, EViews Help.
- ↑ glm, EViews Help.
- ↑ Friston, K.J.; Holmes, A.P.; Worsley, K.J.; Poline, J.-B.; Frith, C.D.; Frackowiak, R.S.J. (1995). 《Statistical Parametric Maps in functional imaging: A general linear approach》. 《Human Brain Mapping》 2. 189–210쪽. doi:10.1002/hbm.460020402. S2CID 9898609.
각주
[편집]- Christensen, Ronald (2020). 《Plane Answers to Complex Questions: The Theory of Linear Models》 5판. New York: Springer. ISBN 978-3-030-32096-6.
- Wichura, Michael J. (2006). 《The coordinate-free approach to linear models》. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge: Cambridge University Press. xiv+199쪽. ISBN 978-0-521-86842-6. MR 2283455.
- Rawlings, John O.; Pantula, Sastry G.; Dickey, David A. 편집 (1998). 《Applied Regression Analysis》. Springer Texts in Statistics. doi:10.1007/b98890. ISBN 0-387-98454-2.