본문으로 이동

변인통제

위키백과, 우리 모두의 백과사전.

인과 모델에서 변인통제(變因統制), 즉 변수를 제어하는 것은 변수의 측정된 값에 따라 데이터를 그룹화하는 것을 의미한다. 이는 일반적으로 변수가 예를 들어 관찰 연구실험에서 더 이상 교락 변수로 작용할 수 없도록 하기 위해 수행된다.

회귀에 의해 결과에 대한 설명 변수의 효과를 추정할 때, 제어 변수는 설명 변수의 효과와 분리하기 위해 입력으로 포함된다.[1]

변수 제어의 한계는 중요한 교락 변수를 식별하기 위해 인과 모델이 필요하다는 것이다 (식별에는 백도어 기준이 사용된다). 인과 모델이 없으면 가능한 교락 변수가 눈에 띄지 않게 될 수 있다. 또 다른 관련 문제는 실제 교락 변수가 아닌 변수를 제어하면 다른 변수 (아마도 고려되지 않은 변수)가 이전에는 교락 변수가 아니었더라도 교락 변수가 될 수 있다는 것이다. 다른 경우에는 교락 변수가 아닌 변수를 제어하면 설명 변수가 결과에 미치는 실제 인과 효과를 과소평가할 수 있다 (예: 매개 변수 또는 그 후손을 제어할 때).[2][3] 반사실 추론은 이러한 단점 없이 교락 변수의 영향을 완화한다.[3]

실험

[편집]

실험은 하나 이상의 독립 변수를 조작하는 것이 하나 이상의 종속 변수에 미치는 영향을 평가하려고 시도한다. 측정된 효과가 외부 요인에 의해 영향을 받지 않도록 다른 변수들은 일정하게 유지되어야 한다. 실험 중에 일정하게 유지되는 변수들을 통제변인이라고 한다.

예를 들어, 종이비행기의 다른 날개 디자인 (독립 변수)이 얼마나 멀리 날아갈 수 있는지 (종속 변수)를 비교하기 위해 야외 실험을 수행한다면, 날씨가 실험에 영향을 미치지 않도록 날씨가 같은 시간에 실험을 수행해야 한다. 이 경우 통제 변수는 바람의 속도, 방향 및 강수량일 수 있다. 바람이 불지 않고 맑을 때 실험을 수행했지만 날씨가 바뀌었다면, 통제 변수 (바람과 강수량)가 실험 시작 시와 같을 때까지 실험 완료를 연기해야 한다.

인간에 대한 의료 치료 옵션의 제어된 실험에서 연구자들은 개인을 치료군 또는 대조군에 무작위로 할당한다. 이는 플러시보 효과와 같이 연구되지 않는 관련 없는 변수의 교락 효과를 줄이기 위해 수행된다.

관찰 연구

[편집]

관찰 연구에서 연구자들은 누가 치료를 받는지와 같은 독립 변수의 값을 제어할 수 없다. 대신 통계학을 사용하여 변수를 제어해야 한다.

관찰 연구는 통제된 실험이 비윤리적이거나 비실용적일 때 사용된다. 예를 들어, 연구자가 실업 (독립 변수)이 건강 (종속 변수)에 미치는 영향을 연구하고자 한다면, 기관 감사 위원회는 일부 참가자에게는 일자리를, 일부 참가자에게는 일자리를 무작위로 할당하는 것을 비윤리적이라고 간주할 것이다. 대신 연구자는 일부 고용된 사람들과 일부 실업된 사람들을 포함하는 표본을 만들어야 할 것이다. 그러나 누군가 고용되었는지 여부와 그 사람이 얼마나 건강한지 모두에게 영향을 미치는 요인이 있을 수 있다. 독립 변수 (고용 상태)와 종속 변수 (건강) 간에 관찰된 연관성의 일부는 실제 연관성을 나타내는 것이 아니라 이러한 외부의 가짜 요인 때문일 수 있다. 이는 진정한 무작위 표본에서도 문제가 될 수 있다. 외부 변수를 제어함으로써 연구자는 독립 변수가 종속 변수에 미치는 진정한 효과를 더 잘 이해할 수 있다.

이러한 맥락에서 외부 변수는 다중회귀분석을 사용하여 제어할 수 있다. 회귀는 종속 변수에 대한 효과가 연구되는 변수뿐만 아니라 잠재적인 교락 변수도 독립 변수로 사용함으로써 결측 변수 편향을 피한다. 이 맥락에서 "교락 변수"는 종속 변수(결과)에 영향을 미칠 뿐만 아니라 주요 독립 변수에도 영향을 미치는 다른 요인을 의미한다.[3]

OLS 회귀 및 제어 변수

[편집]

회귀 분석에서 제어 변수의 가장 간단한 예는 정규방정식 (OLS) 추정기에서 나온다. OLS 프레임워크는 다음을 가정한다:

  • 선형 관계 - OLS 통계 모델은 선형이다. 따라서 설명 변수와 Y의 평균 간의 관계는 선형이어야 한다.
  • 등분산성 - 이는 분산의 동질성, 즉 데이터 전체에서 동일하거나 유사한 분산을 요구한다.
  • 독립성/자기상관 없음 - 하나 (또는 그 이상)의 관찰에서 발생하는 오차항은 다른 관찰의 오차항에 영향을 받을 수 없다.
  • 오차의 정규성 - 오차는 공동으로 정규 분포를 따르고 상관 관계가 없다. 이는 즉, 오차항이 독립적이고 동일하게 분포된 집합(iid)임을 의미한다. 이는 다른 그룹이나 관찰 간의 관찰 불가능한 값이 독립적임을 의미한다.
  • 다중공선성 없음 - 독립 변수는 서로 높은 상관 관계를 가져서는 안 된다. 행렬 표기법을 사용하는 회귀 분석의 경우 행렬은 완전 계수여야 한다. 즉, 는 역행렬이 존재해야 한다.

따라서 제어 변수는 Y의 평균값에 영향을 미치는 선형 설명 변수(가정 1)로 해석할 수 있지만, 주요 조사 변수는 아니며 위의 다른 가정도 충족한다.[4]

예시

[편집]

나이가 드는 것이 누군가의 삶의 만족도에 영향을 미치는지에 대한 연구를 고려해 보자. (일부 연구자들은 "U자형"을 인식한다: 삶의 만족도는 처음에 감소하다가 중년 이후에 상승하는 것으로 보인다.[5]) 여기서 필요한 통제 변수를 식별하기 위해, 누군가의 삶의 만족도뿐만 아니라 나이에도 영향을 미치는 다른 변수는 무엇인지 물어볼 수 있다. 많은 다른 변수들이 삶의 만족도를 결정한다. 그러나 다른 어떤 변수도 누군가의 나이 (그들이 살아 있는 한)를 결정하지 않는다. (모든 사람들은 다른 특성에 관계없이 같은 속도로 계속 나이가 든다.) 따라서 여기서는 통제 변수가 필요하지 않다.[6]

필요한 통제 변수를 결정하기 위해 유향 비순환 그래프를 구성하는 것이 유용할 수 있다.[3]

같이 보기

[편집]

각주

[편집]
  1. Frost, Jim. “A Tribute to Regression Analysis | Minitab”. 2015년 8월 4일에 확인함. 
  2. Streiner, David L (February 2016). 《Control or overcontrol for covariates?》. 《Evid Based Ment Health》 19. 4–5쪽. doi:10.1136/eb-2015-102294. PMC 10699339 |pmc= 값 확인 필요 (도움말). PMID 26755716. S2CID 11155639. 
  3. Pearl, Judea; Mackenzie, Dana (2018). 《The Book of Why: The New Science of Cause and Effect》. London: Allen Lane. ISBN 978-0-241-24263-6. 
  4. WEISBERG, SANFORD (2021). 《APPLIED LINEAR REGRESSION.》. JOHN WILEY. ISBN 978-1-119-58014-0. OCLC 1225621417. 
  5. Blanchflower, D.; Oswald, A. (2008). 《Is well-being U-shaped over the life cycle?》 (PDF). 《Social Science & Medicine》 66. 1733–1749쪽. doi:10.1016/j.socscimed.2008.01.030. PMID 18316146. 
  6. Bartram, D. (2020). 《Age and Life Satisfaction: Getting Control Variables under Control》. 《Sociology》 55. 421–437쪽. doi:10.1177/0038038520926871. 

외부 링크

[편집]