본문 바로가기

딥러닝을 위한 수학/확률과 통계

이항 분포표(Binomial Distribution)(Feat. 거대한 표, 확률 분포)

예시를 하나 들자

주사위를 무려 1만번 던졌을 때, "1이 나온 횟수"를 X라고 했을 때, E(X), V(X), 시그마(X)를 구해보자. 

확률 분포표를 그려보자. 

확률 변수(X)의 범위는 0 , 1, 2 , 3, 4, 5, ........9999, 10000이고, 그에 따른 P 값은 각각 10000_C_0 * (1/6)^0 * (6/5)^10000

, 10000_C_1 * (1/6)^1 * (6/5)^9999, 10000_C_2 * (1/6)^2 * (6/5)^9998 ........... 10000_C_10000 * (1/6)^10000 * (6/5)^0

(참고로, 위 확률은 독립 시행임에 유의하자)

이건 계산량이 많은 거대한 표(비공식 용어)이다.

이걸 확률 분포표를 그려서 E(X), V(X), 시그마(X)를 구한다는 것은 매우 비현실적이다.

이러한 거대한 표를 그리지 않고도, X값(=72)과 주사위를 1번 던졌을 떄의 1이 나올 확률(=1/6)만으로 E(X),V(X),시그마(X)

를 구할 수가 있다면??

이항 분포(Binomial Distribution)을 이용하면 가능하다. 

위 예시의 경우, 거대한 표를 B(10000  ,1/6)으로 압축해서 표현이 가능하다. 

B(10000, 1/6)에서 10000는 X의 범위를 뜻한다. 즉, 10000 == [0 <= X <= 10000]이다.

B( 10000  , 1/6)에서 1/6은 각 X에 대한 P를 구할 때 이용된다. 

만약 X = 10인 경우, 10000_C_10 * (1/6)^10 * (1/6)^10000-10이다.

자, 그럼 본론인 E(X),V(X),시그마(X)을 구해보자!

E(X) = 10000 * 1/6

V(X) = 10000 * 1/6 * (1 - 1/6)

시그마(X) = V(X)의 루트값

(이거에 대한 증명은 너무나 복잡하여, 고등학교 과정에서도 생략을 함)

 

정리

나온 횟수(n)가 너무 많아서 거대한 표가 형성이 될 때, 이 표를 생성하기에 너무 많은 계산량이 필요로 하니, 

B(n,p)와 같이 거대한 표를 압축한 것이 이항 분포(Binomial Distribution)이다. 

( n은 무조건 나온 횟수여야 하며, 따라서 각각의 확률(p)는 독립 시행이다.)

 

B(n,p)의 특성

E(X) = n * p

V(X) = n * p * q(= 1 - p)