대표값 - 모오드, 최빈값, 평균, 중앙값
근데 왜 평균 이외의 대표값들이 필요한 걸까?? 평균만으로는 안 되는 걸까?
예를 들어, 3개의 국회의원의 재산의 대표값을 구하기 위하여 평균을 이용해보자.
A 국회의원은 10억, B 국회의원은 13억, 그런데 C 국회의원의 재산이 100억이다. 여기서 C 국회 의원의 재산이 100억인
관계로, 3 명의 국회의원들의 재산의 대표값(70억)이 제대로된 대표값으로서 기능을 하지 못하고 있다.
(여기서, C 국회의원의 재산 100억은 이상치(Outlier)라고 한다)
이러한 평균의 부작용으로 인해 중앙값(Median) 등의 다른 대표값 종류가 필요한 것이다.
산포도(dispersion, scatter) - 사분 편차, 평균 편차, 표준 편차, 분산
그럼 과연 평균(Mean)의 또 다른 한계는 무엇이 있을까?
-> 그건 바로, 한 집단의 평균만으로는 그 집단을 구성하는 개별적인 요소의 점수의 특성을 알 수가 없다는 것이다.
A,B 반의 수학 점수의 평균이 각각 70점이라고 하자.
A 반의 각 학생들의 수학 점수는 평균으로부터 많이 떨어 져있어, 고르지 못한 분포이고
B 반의 각 학생들의 수학 점수는 평균으로부터 적게 떨어 져있고, 고른 분포이다.
-> 위와 같이 (자기자신의 점수 - 평균 점수)를 편차(deviation)라고 하며, 각 집합을 이루는 각 요소의 특성까지도 알아 내
기 위한 고안한 것이 산포도(dispersion,scatter)이다.
편차(deviation), 분산(variance), 표준 편차(Standard Deviation)
집합을 이루는 각 요소의 특성까지 알기 위하여, (변량 - 평균)을 이용하여 편차(Deviation)을 구하였다.
그러나 편차(Deviation)에는 한 가지 중요한 특성이 있다.
그건, 모든 편차들의 합이 0 이라는 것이다.
이러한 문제로 인하여 편차들의 평균을 구하려고 하면 항상 0이라는 값이 나오게 되어, 각 요소의 특성을 알기 위하여 편차
를 구한 의미가 없어진다.
이러한 문제점의 원인은, 양수와 더불어 음수까지도 편차값이 생겨버렸기 때문이다.
수학에서 보통 음수를 처리할 떄는 2가지 방법을 사용한다.
1. 절대값
2. 제곱(제곱을 더 선호한다. 왜냐하면, 제곱을 하게 되면 미분 등을 이용할 수가 있기 때문이다)
분산(Variance) = (편차)^2 / N
표준 편차(Standard Deviation) = 분산(Variance)의 루트값
그러나 위 식은 전개, 시그마의 특성을 이용하여 아래와 같이 정리가 가능하다.
위 식이 중요한 이유는 공식(1)의 경우, 분산을 구하기 위해서, 편차(Deviation)을 일일이 구하여야 하였다.
그러나 공식(2)의 경우, 편차(Deviation)을 구할 필요없이, 변량과 평균만을 가지고 분산을 구할 수가 있다.
'딥러닝을 위한 수학 > 확률과 통계' 카테고리의 다른 글
이항 분포와 정규분포의 관계(Feat. 드 누아브르-라플라스 정리) (1) | 2024.02.02 |
---|---|
정규 분포(Normal Distribution)와 표준화(Feat. 확률 밀도 함수,표준 정규분포표) (0) | 2024.02.01 |
연속 확률 변수(Continuous Probability Variables) 확률 밀도 함수(Probability Density Function) (0) | 2024.02.01 |
이항 분포표(Binomial Distribution)(Feat. 거대한 표, 확률 분포) (0) | 2024.02.01 |
확률분포표에서 평균, 분산, 표준편차(Feat. Mean, Variance, Standard Deviation,도수 분포표,이산 확률 분포) (1) | 2024.01.31 |