본문 바로가기

딥러닝을 위한 수학/확률과 통계

정규 분포(Normal Distribution)와 표준화(Feat. 확률 밀도 함수,표준 정규분포표)

정규 분포(Normal Distribution)의 3가지 성립 조건

1] 확률 밀도 함수

2] 평균(m)을 기준으로 좌우 대칭

3 ] 그래프의 넓이가 1

 

정규 분포(Normal Distribution)

정규 분포의 특성 

-> 평균(m)에 데이터가 많이 모여 있고, 양극단으로 갈 수록 데이터가 극단적으로 적어진다. 

 

대부분의 확률 밀도 함수의 형태는 정규 분포 그래프의 형태를 띈다. 

그럼, 정규 분포는 어떻게 표현할 수가 있을까?

이항 분포(Binomial Distribution)의 경우, B(n,p)로 이항 분포표를 압축하여 표현할 수가 있었다. 

정규 분포 그래프도 딱 2가지 요소만으로 그래프를 표현(가늠)할 수가 있다. 

바로, 평균(m)값표준 편차(or 분산)이다. 고로, 정규 분포는 N( m, 분산)로 정의된다. 

표준 편차(시그마)는 정규 분포 그래프의 볼록함을 결정

위에서 언급했듯이, 정규 분포(Normal Distribution)은 평균(m) 주위에 데이터가 많이 몰려 있다. 

평균 주위에 데이터가 많이 몰릴 수록, 정규 분포(Normal Distribution) 그래프는 볼록하고,

덜 몰릴 수록 덜 볼록하다. 

즉, 표준 편차(혹은 분산)을 이용하면 평균(m) 주위에 데이터가 얼마나 많이 몰렸는지 안 몰렸는지를 알 수가 있으므로,

정규 분포 그래프의 볼록함의 정도를 표현할 수가 있다. 

또한 N(m,분산)에서 표준 편차값은 같지만, m이 m+10으로 변경되면, 정규 분포 그래프는 오른쪽으로 10만큼 평행 이

동 한 것이 된다. 

 

표준 정규 분포표(standard normal distribution)

정규 분포 그래프로부터 확률을 구하기 위해서는 미분과 적분이 필수이다. 

그러나, 확률 밀도 함수의 미분과 적분의 지수/로그 함수의 미/적분이므로 매우 매우 어렵다. 

그래서 선대의 수학자들이 이러한 고충을 해결하기 위하여, 평균과 표준 편차, 구간의 정보 등을 바탕으로 미리 넓이의 값

을 구하여 표의 형태로 정리해 놓았고, 우리는 확률을 알고 싶어서 넓이를 구할 때, 그 표를 참조하기만 하면 된다. 

이러한 표를 우리는 표준 정규 분포표(Standard Normal Distribution)이라고 부른다. 

 

예제

예제를 보기 전에, 정규 분표 그래프에서는 연속 확률 변수(X)를 어떻게 표현하는 지부터 알아 보자.

연속 확률 변수(X)의 간격을 표준 편차 크기(시그마 크기)만큼 두었다고 해보자. 

[X = m + a*표준편차]에서 변수 a를 조정을 하면, X 수직선 상의 모든 값을 표현이 가능하다. 

즉, 정규 분포에서는 X를 평균,표준편차와 더불어 변수 a를 통해서 표현한다. 

자 그럼 본격적인 예제에 들어 가보자. 

A라는 고등학교에서 학생들의 자습시간을 조사를 해보니, 정규 분포를 따른다고 한다(= N([2] , [0.5^2]) )

이때, 한 명의 학생의 공부시간이 1시간 30분 이상 3시간 이하일 확률을 구하려면 어떻게 해야 할까?

(단, P (m <= X <= m + 1*표준편차) = 0.3413, P ( m <= X <= m + 2*표준편차) = 0.4772 이다.)

(참고로, 정규 분포는 좌우 대칭이므로, P (m - 1*표준편차 <= X <= m ) = 0.3413이고, 

P ( m - 2*표준편차 <= X <= m ) = 0.4772이 성립된다.)

한 학생이 1시간 반이상 3시간 미만 공부할 확률 P는 P = 0.3414 + 0.4772이다.

( P = P ( m - 1*표준편차 <= X <= m + 2*표준편차) )

 

표준화

 

여태까지는 X = m + a*표준편차의 형태로 연속 확률 변수(X)를 표현하였다. 

그러나, 문득 그 어떠한 정규 분포 그래프가 그려지더라도 평균이 항상 0인 형태로 그래프를 표현할 수만 있다면, 

정규 분포 그래프의 가독성이 더 좋아지지 않을까라는 생각을 해 볼수가 있다. 

(실제로, 표준화 과정을 거치면, 모든 정규 분표 그래프는 표준 편차가 1인 N(0,1^2)로 치환이 되어 버리는 환상적인 효과

가 나타난다. 아래에서 더 자세히 설명할 예정)

이러한 아이디어를 바탕으로 표준화 라는 것을 통해서 모든 X값을 변수 a만으로 표기하여 X의 표현 방식을 통일하는 것을

바로 표준화라고 부른다. 

(표준화된 연속 확률 변수는 더이상 X라고 표기하지 않고 Z라고 표기한다.)

표준화 공식 : Z = (X -m)/표준편차

표준 정규 분포표

표준화 공식을 참고하여 연속 확률 변수 X를 Z로 표준화 하였다. 

표준 정규 분포표에는 매우 매우 매우 중요한 특성이 존재를 한다. 

그냥 정규 분표표에서는 (m,표준편차)에 따라 그래프의 형태가 제각각 다르지만, 표준화 과정을 거치게 되면

N(0,1^2), 즉 표준 편차가 무조건 1로 고정이 되버리는 특성이 존재한다. 

즉, 표준화를 거친 정규 분포 그래프의 형태는 항상 위 그림과 같이 똑같다 라는 것이다.