본문 바로가기

딥러닝을 위한 수학/확률과 통계

연속 확률 변수(Continuous Probability Variables) 확률 밀도 함수(Probability Density Function)

여태까지는 확률 분포''를 만들 수가 있었다. 

그 이유는 X가 Discrete Probability Variables, 즉 뚝뚝 떨어져 있는 값이 이산 확률 변수였기 때문이다. 

그러나 연속적인 변수는 연속 확률 변수(Continuous Probability Variables)는 X의 범위가 무한이기에

표로 더이상 나타낼 수가 없고, 그래프로 표현을 해야 한다. 

이산 확률 변수(Discrete Probability Variables) : 확률 변수가 이산적이여서 표로 표현 연속 확률 변수(Continuous Probability Variables) : 확률 변수가 연속적이여서 그래프로 표현확률 질량 함수(Probability Mass Function) : 이산 확률 변수''에서 얻어진 확률 변수와 확률과의 관계확률 밀도 함수(Probability Density Function) : 연속 확률 변수를 X로 두었을 때 그려지는 곡선 그래프를 나타내는 함수(확률 밀도 함수에 대해서는 아래에서 자세하게 설명하니 이해가 안 돼도 넘어 가자)예시를 들어보자

 

100명의 학생의 키를 10CM의 계급의 크기를 기준으로 도수, 상대 도수(확률), 상대 도수/계급의 크기(=10CM)를 구해 보았

다.

X 축을 키 값, Y 값을 (상대도수/계급의 크기)로 두고, 히스토그램(Histogram)을 그려보자.

 

 

계급의 크기는 10cm이다.

 

Y = 상대 도수(확률) / 계급의 크기이므로, 확률 = 상대 도수 * Y이다. 

즉, 각 막대의 넓이는 각각의 상대 도수, 즉 확률이 되므로, 모든 막대의 넓이의 합은 1이 된다. 

 

이때, 각 막대의 중간 지점을 선으로 연결하면, 그 선으로 이루어진 도형의 넓이 역시 1이 된다. 

그럼 우리가 이제는 100명이 아니라, 1000000명을 대상으로, 그리고 계급의 크기를 10cm에서 0.5로 변경하여

똑같이 히스토그램을 그리고 각 막대의 중간 지점을 그려서 선으로 연결을 해 보았다고 하자. 

그러면, 히스토그램의 가로 길이는 매우 줄어 들면서, 막대들이 빼곡하게 그려질 것이고, 중간 지점을 연결해서 얻어진

도형의 넓이 또한 계속해서 1이 될 것이다. 

확률 밀도 함수(Probability Density Function)

 샘플 수를 늘리면 늘릴 수록, 그리고 계급의 크기를 0으로 한 없이 줄이면 줄일 수록, 그래프의 형태는 곡선에 가까워 진다.

-> 이와 같이 확률 밀도 함수를 이용하면, 넓이를 이용하여 확률을 구할 수가 있다.