Vés al contingut

Model lineal general

De la Viquipèdia, l'enciclopèdia lliure

El model lineal general o model de regressió multivariant general és una manera compacta d'escriure simultàniament diversos models de regressió lineal múltiple. En aquest sentit, no és un model lineal estadístic separat. Els diversos models de regressió lineal múltiple es poden escriure de manera compacta com a[1]

on Y és una matriu amb una sèrie de mesures multivariants (cada columna és un conjunt de mesures sobre una de les variables dependents), X és una matriu d'observacions sobre variables independents que podria ser una matriu de disseny (cada columna és un conjunt d'observacions sobre una de les variables independents), B és una matriu que conté paràmetres que normalment s'han d'estimar i U és una matriu que conté errors (soroll). Normalment se suposa que els errors no estan correlacionats entre les mesures i segueixen una distribució normal multivariant. Si els errors no segueixen una distribució normal multivariant, es poden utilitzar models lineals generalitzats per relaxar les suposicions sobre Y i U.

El model lineal general (GLM) engloba diversos models estadístics, com ara ANOVA, ANCOVA, MANOVA, MANCOVA i la regressió lineal ordinària. Dins d'aquest marc, es poden aplicar tant la prova t com la prova F. El model lineal general és una generalització de la regressió lineal múltiple al cas de més d'una variable dependent. Si Y, B i U fossin vectors columna, l'equació matricial anterior representaria una regressió lineal múltiple.

Les proves d'hipòtesi amb el model lineal general es poden fer de dues maneres: multivariant o com a diverses proves univariants independents. En les proves multivariants, les columnes de Y es proven juntes, mentre que en les proves univariants les columnes de Y es proven independentment, és a dir, com a múltiples proves univariants amb la mateixa matriu de disseny.

Comparació amb la regressió lineal múltiple

[modifica]

La regressió lineal múltiple és una generalització de la regressió lineal simple al cas de més d'una variable independent, i un cas especial de models lineals generals, restringits a una variable dependent. El model bàsic per a la regressió lineal múltiple és

o de manera més compacta

per a cada observació i = 1,... , n.

A la fórmula anterior considerem n observacions d'una variable dependent i p variables independents. Així, Yi és l'observació i-èsima de la variable dependent, X ik és l'observació k-èsima de la variable independent k-èsima, k = 1, 2,... , p. Els valors βk representen els paràmetres a estimar, i εi és l'i-èsim error normal independent distribuït idènticament.

En la regressió lineal multivariant més general, hi ha una equació de la forma anterior per a cadascuna de les m > 1 variables dependents que comparteixen el mateix conjunt de variables explicatives i, per tant, s'estimen simultàniament entre si:

o de manera més compacta

per a totes les observacions indexades com a i = 1,... , n i per a totes les variables dependents indexades com a j = 1,... , m.

Cal tenir en compte que, com que cada variable dependent té el seu propi conjunt de paràmetres de regressió que s'han d'ajustar, des d'un punt de vista computacional, la regressió multivariant general és simplement una seqüència de regressions lineals múltiples estàndard que utilitzen les mateixes variables explicatives.

Comparació amb el model lineal generalitzat

[modifica]

El model lineal general i el model lineal generalitzat (GLM)[2] són dues famílies de mètodes estadístics que s'utilitzen habitualment per relacionar un cert nombre de predictors continus i/o categòrics amb una única variable de resultat.

La principal diferència entre els dos enfocaments és que el model lineal general assumeix estrictament que els residuals seguiran una distribució condicionalment normal, mentre que el GLM flexibilitza aquesta suposició i permet una varietat d'altres distribucions de la família exponencial per als residuals[3] El model lineal general és un cas especial del GLM en què la distribució dels residuals segueix una distribució condicionalment normal.

La distribució dels residuals depèn en gran manera del tipus i la distribució de la variable de resultat; els diferents tipus de variables de resultat donen lloc a la varietat de models dins de la família GLM. Els models més utilitzats de la família GLM inclouen la regressió logística binària per a resultats binaris o dicotòmics, la regressió de Poisson[4] per a resultats de recompte i la regressió lineal per a resultats continus i amb distribució normal. Això significa que es pot parlar del GLM com una família general de models estadístics o com a models específics per a tipus de resultats específics.

Model lineal general Model lineal generalitzat
Mètode d'estimació típic Mínims quadrats, millor predicció lineal sense biaix Màxima probabilitat o bayesiana
Exemples ANOVA, ANCOVA, regressió lineal regressió lineal, regressió logística, regressió de Poisson, regressió gamma,[5] model lineal general
Extensions i mètodes relacionats MANOVA, MANCOVA, model mixt lineal model mixt lineal generalitzat (GLMM), equacions d'estimació generalitzades (GEE)
Paquet i funció R lm() al paquet stats (base R) glm() al paquet d'estadístiques (base R) manova,
Funció MATLAB mvregress() glmfit()
Procediments SAS PROC GLM, PROC REG PROC GENMOD, PROC LOGISTIC (per a resultats categòrics binaris i ordenats o no ordenats)
Ordre Stata regressió glm
Ordre SPSS regressió, glm genlin, logística
Funció de Wolfram Language & Mathematica Ajust de model lineal[] Ajust de model lineal generalitzat[]
Ordre EViews ls glm
Paquet Python statsmodels models de regressió i lineals GLM

Aplicacions

[modifica]

Una aplicació del model lineal general apareix en l'anàlisi de múltiples escàners cerebrals en experiments científics on Y conté dades d'escàners cerebrals, X conté variables de disseny experimental i factors de confusió. Normalment es prova de manera univariant (normalment es coneix com a univariant de masses en aquest context) i sovint es coneix com a mapatge paramètric estadístic.[6]

Referències

[modifica]
  1. Mardia, K. V.. Multivariate Analysis (en anglès). Academic Press, 1979. ISBN 0-12-471252-5. 
  2. McCullagh, P. «An outline of generalized linear models». A: Generalized Linear Models (en anglès). Springer US, January 1, 1983, p. 21–47. DOI 10.1007/978-1-4899-3242-6_2. ISBN 9780412317606. 
  3. McCullagh, P. «An outline of generalized linear models». A: Generalized Linear Models (en anglès). Springer US, January 1, 1983, p. 21–47. DOI 10.1007/978-1-4899-3242-6_2. ISBN 9780412317606. 
  4. Gardner, W.; Mulvey, E. P.; Shaw, E. C. Psychological Bulletin, 118, 3, 1995, pàg. 392–404. DOI: 10.1037/0033-2909.118.3.392. PMID: 7501743.
  5. McCullagh, Peter. Generalized Linear Models (en anglès). 2a edició. Boca Raton: Chapman and Hall/CRC, 1989. ISBN 978-0-412-31760-6. 
  6. Friston, K.J.; Holmes, A.P.; Worsley, K.J.; Poline, J.-B.; Frith, C.D. Human Brain Mapping, 2, 4, 1995, pàg. 189–210. DOI: 10.1002/hbm.460020402.