본문 바로가기

딥러닝을 위한 수학/확률과 통계

평균(Mean), 분산(Variance), 표준 편차(Standard Deviant)

대표값 - 모오드, 최빈값, 평균, 중앙값

근데 왜 평균 이외의 대표값들이 필요한 걸까?? 평균만으로는 안 되는 걸까?

예를 들어, 3개의 국회의원의 재산의 대표값을 구하기 위하여 평균을 이용해보자.

A 국회의원은 10억, B 국회의원은 13억, 그런데 C 국회의원의 재산이 100억이다. 여기서 C 국회 의원의 재산이 100억인 

관계로, 3 명의 국회의원들의 재산의 대표값(70억)이 제대로된 대표값으로서 기능을 하지 못하고 있다. 

(여기서, C 국회의원의 재산 100억은 이상치(Outlier)라고 한다)

이러한 평균의 부작용으로 인해 중앙값(Median) 등의 다른 대표값 종류가 필요한 것이다. 

 

산포도(dispersion, scatter) - 사분 편차, 평균 편차, 표준 편차, 분산

그럼 과연 평균(Mean)의 또 다른 한계는 무엇이 있을까?

-> 그건 바로, 한 집단의 평균만으로는 그 집단을 구성하는 개별적인 요소의 점수의 특성을 알 수가 없다는 것이다.

A,B 반의 수학 점수의 평균이 각각 70점이라고 하자. 

A 반의 각 학생들의 수학 점수는 평균으로부터 많이 떨어 져있어, 고르지 못한 분포이고

B 반의 각 학생들의 수학 점수는 평균으로부터 적게 떨어 져있고, 고른 분포이다. 

-> 위와 같이 (자기자신의 점수 - 평균 점수)를 편차(deviation)라고 하며, 각 집합을 이루는 각 요소의 특성까지도 알아 내

기 위한 고안한 것이 산포도(dispersion,scatter)이다. 

 

 

편차(deviation), 분산(variance), 표준 편차(Standard Deviation)

편차(Deviation) = 변량 - 평균

집합을 이루는 각 요소의 특성까지 알기 위하여, (변량 - 평균)을 이용하여 편차(Deviation)을 구하였다.

그러나 편차(Deviation)에는 한 가지 중요한 특성이 있다. 

그건, 모든 편차들의 합이 0 이라는 것이다. 

이러한 문제로 인하여 편차들의 평균을 구하려고 하면 항상 0이라는 값이 나오게 되어, 각 요소의 특성을 알기 위하여 편차

를 구한 의미가 없어진다. 

이러한 문제점의 원인은, 양수와 더불어 음수까지도 편차값이 생겨버렸기 때문이다. 

수학에서 보통 음수를 처리할 떄는 2가지 방법을 사용한다. 

1. 절대값

2. 제곱(제곱을 더 선호한다. 왜냐하면, 제곱을 하게 되면 미분 등을 이용할 수가 있기 때문이다)

분산(Variance) = (편차)^2 / N

표준 편차(Standard Deviation) = 분산(Variance)의 루트값

 

분산의 공식(1)

그러나 위 식은 전개, 시그마의 특성을 이용하여 아래와 같이 정리가 가능하다. 

 

분산의 공식(2)

위 식이 중요한 이유는 공식(1)의 경우, 분산을 구하기 위해서, 편차(Deviation)을 일일이 구하여야 하였다. 

그러나 공식(2)의 경우, 편차(Deviation)을 구할 필요없이, 변량과 평균만을 가지고 분산을 구할 수가 있다.