본문 바로가기

딥러닝을 위한 수학/확률과 통계

이항 분포와 정규분포의 관계(Feat. 드 누아브르-라플라스 정리)

예시를 들어 보자

주사위를 450번 던져서 "3의 약수"가 나온 횟수를 X라고 하자. 

이때, 우리는 B(450, 2/6)를 이용하여 손쉽게 평균,분산, 표준편차를 구할 수가 있다. 

그러나 만약 "3의 약수"가 45번 이상 나올 확률을 구하라 라고 나오면 어떻게 해야 할까?

만약 X가 이산적이 아니라, 연속적이면 확률 밀도 함수의 특성에 따라, 정규 분포 그래프를 이용해서 면적을 구하면 된다. 

그러나 '횟수'라는 것은 연속적아니라 이산적이다. 

그렇다면 방법은, 소위 거대한 표를 그려서 X의 범위 40~450까지의 확률을 구해서 다 더해야 할까?

너무나도 많은 연산량을 필요로 하게 된다. 

드 누아브르와 라플라스라는 사람은, 이와 같이 이항 분포와 정규 분포의 관계를 정의를 했다. 

시행 횟수가 충분히 클 때, 확률 변수가 연속 확률 변수가 아니여도 이항 분포는 정규 분포의 특성을 따른다

(이것에 대한 증명 과정은 무척 어려워서 고등학교 교과서에는 증명을 하고 있지 않다)

만약 이항 분포도 정규 분포의 특성을 가진다고 하면, 정규 분포의 그래프의 넓이를 이용하여 확률을 구할 수가 있다. 

위 이항 분포를 정규 분포로 전환을 해보자.( N( m, 표준편차^2)을 구한다는 이야기 )

B(450, 2/6)이므로,

평균 = 450 * (2/6) = 150

분산 =  450 * (2/6) * (4/6) = 100이다. 고로, 표준 편차 = 10이 된다. 

즉, B(450,2/6) ==> N ( 150, 10^2 )로 전환이 된다. 

고로, "3의 약수"가 45번 이상 나올 확률은 P (45 <= X <= 450 )이라는 정규 분포 그래프의 넓이를 계산하면 된다. 

 

예제