분할표
통계학에서 분할표(分割表, contingency table) 또는 교차표(cross tabulation 또는 crosstab)는 변수의 다변량 도수 분포를 표시하는 행렬 형식의 표이다. 분할표는 설문 조사 연구, 비즈니스 인텔리전스, 공학 및 과학 연구에 널리 사용된다. 분할표는 두 변수 간의 상호 관계에 대한 기본적인 그림을 제공하고 그들 사이의 상호작용을 찾는 데 도움이 될 수 있다. 분할표라는 용어는 1904년에 출판된 드레이퍼스 컴퍼니 연구 회고록 생체 측정 시리즈 I의 일부인 "우발성 이론 및 연관성 및 정규 상관 관계와의 관계에 대해"에서 칼 피어슨에 의해 처음 사용되었다.[1]
다변량 통계학의 중요한 문제 중 하나는 고차원 분할표에 포함된 변수들의 (직접적인) 의존성 구조를 찾는 것이다. 일부 조건부 독립성이 밝혀지면 데이터 저장도 더 스마트한 방식으로 수행할 수 있다(Lauritzen (2002) 참조). 이를 위해 확률 분포에서만 정보를 얻는 정보 이론 개념을 사용할 수 있으며, 이는 상대 빈도를 통해 분할표에서 쉽게 표현할 수 있다.
피벗 테이블은 스프레드시트 소프트웨어를 사용하여 분할표를 만드는 방법이다.
예시
[편집]성별(남성 또는 여성)과 손쓰임(오른손잡이 또는 왼손잡이)이라는 두 가지 변수가 있다고 가정해 보자. 또한, 손쓰임의 성별 차이를 연구하는 연구의 일환으로 매우 큰 모집단에서 100명의 개인이 무작위로 추출되었다고 가정해 보자. 분할표는 남성 오른손잡이 및 왼손잡이, 여성 오른손잡이 및 왼손잡이 개인의 수를 표시하기 위해 생성될 수 있다. 이러한 분할표는 아래에 표시되어 있다.
손쓰임 성별 |
오른손잡이 | 왼손잡이 | 합계 |
|---|---|---|---|
| 남성 | 43 | 9 | 52 |
| 여성 | 44 | 4 | 48 |
| 합계 | 87 | 13 | 100 |
남성, 여성, 오른손잡이 및 왼손잡이 개인의 수는 주변 합계라고 불린다. 총합(분할표에 나타난 총 개인 수)은 오른쪽 아래 모서리의 숫자이다.
이 표를 통해 사용자는 오른손잡이 남성의 비율이 오른손잡이 여성의 비율과 거의 같지만 비율이 동일하지는 않다는 것을 한눈에 알 수 있다. 연관성의 강도는 승산비로 측정할 수 있으며, 모집단 승산비는 표본 승산비로 추정할 수 있다. 두 비율 간의 차이의 통계적 유의성은 피어슨 카이제곱 검정, G-검정, 피셔의 정확 검정, 보슐루 검정, 바너드 검정을 포함한 다양한 통계 검정을 사용하여 평가할 수 있다. 단, 표의 항목이 결론을 도출하려는 모집단에서 무작위로 추출된 개인을 나타내는 경우에 한한다. 다른 열의 개인 비율이 행(또는 그 반대) 간에 유의하게 다른 경우, 두 변수 사이에 우발성이 있다고 말한다. 즉, 두 변수는 독립적이지 않다. 우발성이 없는 경우, 두 변수는 독립적이라고 말한다.
위의 예는 가장 간단한 종류의 분할표로, 각 변수가 두 가지 수준만 갖는 표이다. 이를 2 × 2 분할표라고 한다. 원칙적으로 임의의 수의 행과 열을 사용할 수 있다. 변수가 두 개 이상일 수도 있지만, 고차 분할표는 시각적으로 표현하기 어렵다. 순서 변수 또는 순서 변수와 범주형 변수 간의 관계도 분할표로 나타낼 수 있지만, 이러한 관행은 드물다. 두 순서 변수 간의 관계에 대한 분할표 사용에 대한 자세한 내용은 굿맨과 크루스칼의 감마를 참조한다.
분할표의 표준 내용
[편집]- 여러 열 (역사적으로, 인쇄된 페이지의 모든 여백을 사용하도록 설계되었다). 각 행이 모집단의 특정 하위 그룹(이 경우 남성 또는 여성)을 참조하는 경우, 열은 때때로 배너 포인트 또는 컷(그리고 행은 때때로 스텁)이라고 불린다.
- 유의성 검정. 일반적으로 열 간의 차이를 검정하고 문자를 사용하여 결과를 표시하는 열 비교 또는 테이블에서 어떤 방식으로든 눈에 띄는 셀을 식별하기 위해 색상이나 화살표를 사용하는 셀 비교가 있다.
- 하위 합계인 순값(Nets 또는 netts).
- 다음 중 하나 이상: 백분율, 행 백분율, 열 백분율, 지수 또는 평균.
- 가중치 없는 표본 크기 (개수).
연관성 측정
[편집]두 변수 간의 연관성 정도는 여러 계수에 의해 평가될 수 있다. 다음 하위 섹션에서는 그중 몇 가지를 설명한다. 사용에 대한 더 완전한 논의는 각 하위 섹션 제목 아래에 링크된 주요 기사를 참조한다.
승산비
[편집]2 × 2 분할표에 대한 가장 간단한 연관성 측정은 승산비이다. 두 사건 A와 B가 주어졌을 때, 승산비는 B가 있을 때 A의 승산과 B가 없을 때 A의 승산의 비율로 정의되거나, (대칭성 때문에) A가 있을 때 B의 승산과 A가 없을 때 B의 승산의 비율로 정의된다. 두 사건은 승산비가 1일 경우에만 독립적이다. 승산비가 1보다 크면 사건은 양의 연관성이 있고, 승산비가 1보다 작으면 사건은 음의 연관성이 있다.
승산비는 확률의 관점에서 간단한 표현을 갖는다. 결합 확률 분포가 주어졌을 때:
승산비는 다음과 같다.
파이 계수
[편집]2 × 2 분할표의 경우에만 적용 가능한 간단한 측정은 다음으로 정의되는 파이 계수 (φ)이다.
여기서 χ2는 피어슨 카이제곱 검정에서와 같이 계산되고, N은 관측치의 총합이다. φ는 0(변수 간에 연관성이 없음)에서 1 또는 -1(완전한 연관성 또는 완전한 역 연관성)까지 다양하며, 2 × 2 표로 표현된 빈도 데이터에 기반할 때만 그렇다. 이때 그 부호는 표의 주대각선 요소의 곱에서 대각선 외 요소의 곱을 뺀 값의 부호와 같다. φ는 모든 주변 비율이 0.5와 같을 때(그리고 두 대각선 셀이 비어 있을 때)만 최소값 -1.0 또는 최대값 +1.0을 갖는다.[2]
크라메르 V와 우발성 계수 C
[편집]두 가지 대안은 우발성 계수 C와 크라메르 V이다.
C 및 V 계수에 대한 공식은 다음과 같다.
- 및
k는 행 또는 열의 수 중 작은 값이다.
C는 최대값 1.0에 도달하지 못한다는 단점이 있는데, 특히 2 × 2 표에서 도달할 수 있는 최대값은 0.707이다. 더 많은 범주를 가진 분할표에서는 1.0에 더 가까운 값에 도달할 수 있다. 예를 들어, 4 × 4 표에서는 최대 0.870에 도달할 수 있다. 따라서 범주의 수가 다른 경우 다른 표의 연관성을 비교하는 데 사용해서는 안 된다.[3]
C는 C를 로 나누어 어떤 수의 행과 열을 가진 표에서 완전한 연관성이 있을 때 최대값 1.0에 도달하도록 조정할 수 있으며, 여기서 k는 표가 정사각형일 때 행 또는 열의 수이고, 로 나누면 r은 행의 수이고 c는 열의 수이다.[4]
사분위 상관 계수
[편집]또 다른 선택은 사분위 상관 계수이지만, 이는 2 × 2 표에만 적용 가능하다. 다분위 상관은 사분위 상관을 두 개 이상의 수준을 가진 변수를 포함하는 표로 확장한 것이다.
사분위 상관은 각 이분 측정의 기본 변수가 정규 분포를 따른다고 가정한다.[5] 이 계수는 "눈금이 있는 측정이 두 가지 범주로 축소되었을 때 [피어슨 곱 모멘트] 상관의 편리한 측정값"을 제공한다.[6]
사분위 상관 계수는 각 변수의 두 수준을 나타내기 위해 예를 들어 0.0과 1.0 값을 할당하여 계산된 피어슨 상관 계수와 혼동해서는 안 된다(이는 수학적으로 φ 계수와 동일하다).
람다 계수
[편집]람다 계수는 변수가 명목 수준에서 측정될 때 교차표의 연관성 강도를 측정하는 척도이다. 값은 0.0(연관성 없음)에서 1.0(최대 가능한 연관성)까지이다.
비대칭 람다는 종속 변수를 예측하는 데 있어 백분율 개선을 측정한다. 대칭 람다는 양방향으로 예측이 수행될 때의 백분율 개선을 측정한다.
불확실성 계수
[편집]불확실성 계수 또는 타일의 U는 명목 수준 변수에 대한 또 다른 측정값이다. 그 값은 -1.0(100% 음의 연관성 또는 완벽한 반전)에서 +1.0(100% 양의 연관성 또는 완벽한 일치)까지이다. 0.0의 값은 연관성이 없음을 나타낸다.
또한 불확실성 계수는 조건부이며 비대칭적인 연관성 측정으로, 다음과 같이 표현할 수 있다.
- .
이 비대칭적 특성은 대칭적 연관성 측정에서는 명확하지 않은 통찰력을 제공할 수 있다.[7]
기타
[편집]감마, 타우-b 및 타우-c는 두 변수의 범주 또는 수준이 자연적인 순서를 가질 때 사용된다.
같이 보기
[편집]- 혼동 행렬
- 피벗 테이블: 스프레드시트 소프트웨어에서 표본 데이터를 개수(분할표) 및 합계로 교차 집계한다.
- TPL Tables는 교차표를 생성하고 인쇄하는 도구이다.
- 반복 비례 적합법 절차는 변경된 결합 분포 또는 주변 합계에 맞추기 위해 분할표를 기본적으로 조작한다.
- 특히 다변량 이산 확률 분포에서의 다변량 통계학. 이 맥락에서 사용되는 일부 절차는 분할표를 다루는 데 사용될 수 있다.
- OLAP 큐브: 분할표의 현대적인 다차원 계산 형태
- 패널데이터: 시간 경과에 따른 다차원 데이터
각주
[편집]- ↑ Karl Pearson, F.R.S. (1904). 《Mathematical contributions to the theory of evolution》. Dulau and Co.
- ↑ Ferguson, G. A. (1966). Statistical analysis in psychology and education. New York: McGraw–Hill.
- ↑ Smith, S. C., & Albaum, G. S. (2004) Fundamentals of marketing research. Sage: Thousand Oaks, CA. p. 631
- ↑ Blaikie, N. (2003) Analyzing Quantitative Data. Sage: Thousand Oaks, CA. p. 100
- ↑ Ferguson.틀:Full citation needed
- ↑ Ferguson, 1966, p. 244
- ↑ “The Search for Categorical Correlation”. 2019년 12월 26일.
추가 자료
[편집]- Andersen, Erling B. 1980. Discrete Statistical Models with Social Science Applications. North Holland, 1980.
- Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. (1975). 《Discrete Multivariate Analysis: Theory and Practice》. MIT Press. ISBN 978-0-262-02113-5. MR 381130.
- Christensen, Ronald (1997). 《Log-linear models and logistic regression》 Seco판. Springer Texts in Statistics. New York: Springer-Verlag. xvi+483쪽. ISBN 0-387-98247-7. MR 1633357.
- Lauritzen, Steffen L. (1979). 《Lectures on Contingency Tables (Aalborg University)》 (PDF) 4 (fir electronic), 2002판.
- Gokhale, D. V.; Kullback, Solomon (1978). 《The Information in Contingency Tables》. Marcel Dekker. ISBN 0-824-76698-9.
외부 링크
[편집]- 분할표 온라인 분석: 예시가 있는 계산기
- 대화형 교차표, 카이제곱 독립성 검정 및 튜토리얼
- 2 × 2 분할표의 피셔 및 카이제곱 계산기
- 더 많은 상관 계수
- 명목 연관성: 파이, 우발성 계수, 추프로브의 T, 크라메르 V, 람다, 불확실성 계수, 2008년 3월 24일, G. 데이비드 가슨, 노스캐롤라이나 주립대학교
- CustomInsight.com 교차 집계
- POWERMUTT 프로젝트: IV. 범주형 데이터 표시
- StATS: 스티브의 통계 교육 시도 승산비 대 상대 위험도 (2001년 1월 9일)
- Epi Info 지역사회 건강 평가 튜토리얼 5단원 분석: 통계 생성