본문으로 이동

독립항등분포

위키백과, 우리 모두의 백과사전.
균일 분포를 보여주는 차트. 점들이 무작위로 흩어져 있으며, 패턴이나 군집이 없습니다.
균일 분포를 보여주는 차트

확률론통계학에서 확률 변수의 모음이 독립항등분포(Independent and identically distributed random variables, i.i.d., iid 또는 IID)라는 것은 각 확률 변수가 다른 변수와 동일한 확률 분포를 가지며 모두 상호 독립이라는 의미이다.[1] IID는 통계학에서 처음 정의되었으며 데이터 마이닝신호 처리와 같은 여러 분야에서 응용된다.

서론

[편집]

통계학은 일반적으로 무작위 표본을 다룬다. 무작위 표본은 무작위로 선택된 객체들의 집합으로 생각할 수 있다. 보다 공식적으로는 "독립항등분포(IID) 무작위 데이터 포인트들의 시퀀스"이다.

다시 말해, 무작위 표본과 IID라는 용어는 동의어이다. 통계학에서는 "무작위 표본"이 일반적인 용어이지만, 확률론에서는 "'IID"라고 말하는 것이 더 흔하다.

  • 항등분포라는 것은 전반적인 경향이 없음을 의미한다. 즉, 분포가 변동하지 않으며 표본의 모든 항목이 동일한 확률 분포에서 추출된다는 뜻이다.
  • 독립이라는 것은 표본 항목들이 모두 독립적인 사건임을 의미한다. 즉, 어떤 식으로든 서로 연결되어 있지 않으며,[2] 한 변수의 값을 아는 것이 다른 변수의 값에 대한 정보를 제공하지 않으며 그 반대도 마찬가지이다.

응용

[편집]

독립항등분포 확률 변수는 종종 기본 수학을 단순화하는 가설로 사용된다. 그러나 통계 모델링의 실제 응용에서는 이 가설이 현실적일 수도 있고 아닐 수도 있다.[3]

i.i.d. 가정은 중심 극한 정리에서도 사용되는데, 이는 유한 분산을 가진 i.i.d. 변수들의 합(또는 평균)의 확률 분포가 정규 분포에 접근한다고 말한다.[4]

i.i.d. 가정은 확률 변수의 시퀀스 맥락에서 자주 발생한다. 이때 "독립항등분포"는 시퀀스의 한 요소가 그 이전에 발생한 확률 변수와 독립적임을 의미한다. 이러한 방식으로 i.i.d. 시퀀스는 마르코프 연쇄와 다르다. 마르코프 연쇄에서는 n번째 확률 변수의 확률 분포가 시퀀스의 이전 확률 변수의 함수이다(1차 마르코프 연쇄의 경우). i.i.d. 시퀀스는 표본 공간 또는 사건 공간의 모든 요소에 대한 확률이 동일해야 함을 의미하지 않는다.[5] 예를 들어, 편향된 주사위를 반복적으로 던지는 것은 결과가 편향되어 있음에도 불구하고 i.i.d. 시퀀스를 생성한다.

신호 처리영상 처리에서 i.i.d.로의 변환 개념은 "i.d." 부분과 "i." 부분의 두 가지 사양을 의미한다.

i.d. – 신호 레벨은 시간축에서 균형을 이루어야 한다.

i. – 신호 스펙트럼은 평탄화되어야 한다. 즉, 필터링(예: 역합성곱)을 통해 백색 잡음 신호(즉, 모든 주파수가 동일하게 존재하는 신호)로 변환되어야 한다.

정의

[편집]

두 확률 변수에 대한 정의

[편집]

확률 변수 에서 값을 취하도록 정의되었다고 가정한다. 를 각각 누적 분포 함수라고 하고, 이들의 결합 누적 분포 함수로 나타낸다.

두 확률 변수 는 모든 에 대해 일 때에만 독립이다. (사건의 더 간단한 경우, 두 사건 일 때에만 독립이다.)

두 확률 변수 는 모든 에 대해 일 때에만 동일하게 분포한다.[6]

두 확률 변수 는 독립항등분포, 즉 다음과 같을 때에만 i.i.d.이다.

두 개 이상의 확률 변수에 대한 정의

[편집]

정의는 두 개 이상의 확률 변수로 자연스럽게 확장된다. 개의 확률 변수 가 독립적이고 동일하게 분포할 때에만 i.i.d.라고 말한다. 즉, 다음과 같을 때에만 i.i.d.이다.

여기서 의 결합 누적 분포 함수를 나타낸다.

예시

[편집]

예시 1

[편집]

공정한 또는 불공정한 룰렛 휠의 스핀 결과 시퀀스는 i.i.d.이다. 이의 한 가지 함의는 예를 들어 룰렛 공이 20번 연속 "빨강"에 떨어진 경우, 다음 스핀에서 "검정"이 나올 확률이 다른 스핀보다 더 많거나 적지 않다는 것이다(도박사의 오류 참조).

예시 2

[편집]

동전을 10번 던지고 그 결과를 변수 에 기록한다.

  1. 독립: 각 결과 는 다른 결과 (, 1부터 10까지)에 영향을 미치지 않는다. 이는 변수 가 서로 독립적임을 의미한다.
  2. 항등분포: 동전이 공정하든(앞면이 나올 확률 1/2) 편향되었든 상관없이, 각 던지기에 동일한 동전이 사용되는 한, 앞면이 나올 확률은 모든 던지기에서 일관되게 유지된다.

이러한 i.i.d. 변수 시퀀스를 베르누이 과정이라고도 한다.

예시 3

[편집]

주사위를 10번 굴리고 그 결과를 변수 에 저장한다.

  1. 독립: 각 주사위 굴림의 결과는 다음 굴림에 영향을 미치지 않는다. 이는 10개의 변수가 서로 독립적임을 의미한다.
  2. 항등분포: 주사위가 공정하든 가중되든 상관없이, 각 굴림은 다른 모든 굴림과 동일한 결과가 나올 확률을 갖는다. 대조적으로, 일부는 가중되고 일부는 그렇지 않은 10개의 다른 주사위를 굴리는 것은 i.i.d. 변수를 생성하지 않는다.

예시 4

[편집]

52장의 카드가 들어있는 표준 카드 덱에서 카드를 한 장 뽑은 다음, 그 카드를 덱에 다시 넣는다. 이를 52번 반복한다. 왕 카드가 언제 나타나는지 관찰한다.

  1. 독립: 각 관찰은 다음 관찰에 영향을 미치지 않는다. 이는 52개의 결과가 서로 독립적임을 의미한다. 대조적으로, 뽑은 각 카드를 덱에서 제외하는 경우, 이후의 뽑기는 영향을 받게 되며(왕 카드를 한 장 뽑으면 두 번째 왕 카드를 뽑을 확률이 줄어든다), 관찰은 독립적이지 않을 것이다.
  2. 항등분포: 카드 덱에서 한 장의 카드를 뽑은 후(그리고 카드를 덱에 다시 넣은 후), 왕 카드가 나올 확률은 매번 4/52이다. 이는 확률이 매번 동일하다는 것을 의미한다.

일반화

[편집]

i.i.d. 확률 변수라는 가정하에 처음 증명된 많은 결과는 더 약한 분포 가설 하에서도 참임이 밝혀졌다.

교환 가능 확률 변수족

[편집]

i.i.d. 변수의 주요 특성을 공유하는 가장 일반적인 개념은 브루노 데 피네티가 도입한 교환 가능 확률 변수족이다. 교환 가능성은 변수들이 독립적이지 않을 수 있지만, 미래의 변수들이 과거의 변수들처럼 행동한다는 것을 의미한다. 즉, 형식적으로 유한 시퀀스의 어떤 값도 해당 값들의 어떤 순열과 마찬가지로 가능성이 높다는 것이다. 결합분포대칭군 하에서 불변이다.

이는 유용한 일반화를 제공한다. 예를 들어, 비복원 추출은 독립적이지 않지만 교환 가능하다.

레비 확률 과정

[편집]

확률미적분학에서 i.i.d. 변수는 이산 시간 레비 확률 과정으로 간주된다. 각 변수는 한 시점에서 다른 시점으로 얼마나 변하는지를 나타낸다. 예를 들어, 베르누이 시행의 시퀀스는 베르누이 과정으로 해석된다.

이는 연속 시간 레비 확률 과정으로 일반화될 수 있으며, 많은 레비 확률 과정은 i.i.d. 변수의 극한으로 볼 수 있다. 예를 들어, 위너 확률 과정은 베르누이 과정의 극한이다.

기계 학습에서

[편집]

기계 학습 (ML)은 데이터 내에서 통계적 관계를 학습하는 것을 포함한다. ML 모델을 효과적으로 훈련하려면 광범위하게 일반화 가능한 데이터를 사용하는 것이 중요하다. 훈련 데이터가 작업에 충분히 대표적이지 않으면 모델의 새로운, 보지 못한 데이터에 대한 성능이 저조할 수 있다.

i.i.d. 가설은 훈련 샘플에 필요한 개별 사례의 수를 크게 줄여 최적화 계산을 단순화한다. 최적화 문제에서 독립항등분포 가정은 가능도 함수의 계산을 단순화한다. 이 가정 덕분에 가능도 함수는 다음과 같이 표현될 수 있다.

관찰된 사건의 확률을 최대화하기 위해 로그 함수가 적용되어 매개변수 를 최대화한다. 구체적으로는 다음을 계산한다.

여기서

컴퓨터는 여러 덧셈을 수행하는 데 매우 효율적이지만, 곱셈을 수행하는 데는 효율적이지 않다. 이러한 단순화는 계산 효율성을 향상시킨다. 로그 변환은 최대화 과정에서 많은 지수 함수를 선형 함수로 변환한다.

이 가설이 중심 극한 정리 (CLT)와 함께 실제적으로 유용한 두 가지 주요 이유가 있다.

  1. 샘플이 복잡한 비-가우시안 분포에서 유래하더라도, CLT 덕분에 가우시안 분포로 단순화될 수 있기 때문에 잘 근사될 수 있다.
  2. 두 번째 이유는 모델의 정확도가 모델 단위의 단순성과 표현력, 그리고 데이터 품질에 달려 있기 때문이다. 단위의 단순성은 해석과 확장을 용이하게 하는 반면, 표현력과 확장성은 모델 정확도를 향상시킨다. 예를 들어, 깊은 인공 신경망에서 각 뉴런은 단순하지만 강력한 표현력을 가지며, 층별로 더 복잡한 특징을 포착하여 모델 정확도를 향상시킨다.

같이 보기

[편집]

각주

[편집]
  1. Clauset, Aaron (2011). “A brief primer on probability distributions” (PDF). 산타페 연구소. 2012년 1월 20일에 원본 문서 (PDF)에서 보존된 문서. 2011년 11월 29일에 확인함. 
  2. Stephanie (2016년 5월 11일). “IID Statistics: Independent and Identically Distributed Definition and Examples” (미국 영어). 《Statistics How To》. 2021년 12월 9일에 확인함. 
  3. Hampel, Frank (1998), “Is statistics too difficult?”, 《Canadian Journal of Statistics》 26 (3): 497–513, doi:10.2307/3315772, hdl:20.500.11850/145503, JSTOR 3315772, S2CID 53117661  (§8).
  4. Blum, J. R.; Chernoff, H.; Rosenblatt, M.; Teicher, H. (1958). 《Central Limit Theorems for Interchangeable Processes》. 《Canadian Journal of Mathematics》 10. 222–229쪽. doi:10.4153/CJM-1958-026-0. S2CID 124843240. 
  5. Cover, T. M.; Thomas, J. A. (2006). 《Elements Of Information Theory》. Wiley-Interscience. 57–58쪽. ISBN 978-0-471-24195-9. 
  6. Casella & Berger 2002, Theorem 1.5.10

더 읽어보기

[편집]