본문 바로가기

딥러닝을 위한 수학/확률과 통계

표본 평균들의 확률 분포-1(Feat. 모집단, 표본 집단, 전수 조사, 표본 조사,임의 추출, 복원 추출)

여론 조사를 할 때에 2가지 방법이 존재한다. 

1. 전수 조사 : 대한 민국의 모든 사람들을 대상으로 조사

-> 모집단(population or universe) : 모~~든 것들을 대상으로 조상

우리는 앞으로 모집단을 대상으로 

A] 모평균 = m으로 표기

B] 모분산 = 시그마^2로 표기

C] 모표준편차 = 시그마로 표기

-> 이 3가지를 구할 것이다. (모분산, 모표준편차는 고등학교 과정에서는 안 나옴)

2. 표본 조사 : 대한 민국의 모든 사람들 중 일부를 추출하여 조사( 추출 기법에 임의 추출, 복원 추출이 있다. 이건 아래에서 설명)

-> 표본 집단(Focus Group) : 표본 집단의 사람이 100명이라면, "표본의 크기"가 100(n=100)이라고 부른다.  

우리는 앞으로 표본 집단을 대상으로 

A] 표본 평균 = X + bar(아래 참조)로 표기

B] 표본 분산 = S^2로 표기

C] 표본 표준편차 = S로 표기

-> 이 3가지를 구할 것이다. ( 표본 분산, 표본 표준편차는 고등학교 과정에서는 안 나옴)

-> 전수 조사가 제일 정확하지만, 시간/비용이 굉장히 많이 들어 비효율적이다. 

예를 들어 보자

표본의 크기가 50인 경우의 표본 평균을 구해보자

 

결과값 : 32.5, 50개의 각 데이터는 임의로 집어 넣음

위 표본 평균을 사용하여 사실은 표본 분산, 표본 표준 편차를 구할 수가 있다. 

X_Bar = 32.5

그리고 표본 평균은 나중에 나오겠지만, 확률 변수(X)로 이용될 것이다. 

그러나 이 X가 표본 평균값이라는 것을 구분하기 위하여 X위에 bar를 덧 붙인다. 

 

임의 추출( random sampling​ ), 복원 추출( recovery extraction )

임의 추출(random sampling) : 50명의 각 1명 1명이 뽑힐 확률이 모두 같게 무작위로 추출

-> 예를 들어, A라는 사람이 뽑힐 확률이 1/1000이면, 나머지 49명의 뽑힐 확률도 무조건 1/1000이여야 한다.

복원 추출(recovery extraction) : A라는 사람을 뽑아서 조사를 했다가 하자. 그러면 A라는 사람이 또 조사 대상으로 지정돼

서, 2번 이상 조사를 할 수가 있다. 이러한 추출을 복원 추출(recovery extraction)이라고 한다. 

 

우리가 왜 임의 추출(random sampling)과 복원 추출(recovery extraction)을 알아야 하는 걸까?

위 표본 조사 결과로 X_Bar = 32.5로 나왔다. 

그러나 이 결과값은 어디까지나 대한민국 사람 중 50명만을 대상으로 하여서 나온 평균값이다. 

그렇다면 과연 이 값이 대한민국 전체 사람들에게도 해당이 되는 값이라고 단언할 수가 있을까? 

이 의견에 동의할 사람은 없을 것이다.

이러한 표본 조사의 결과를 되도록 모집단 조사 결과와 어느 정도 유사하게 나오게 하기 위한 고민의 결과로 

임의 추출(random sampling)과 복원 추출(recovery extractino)이라는 개념이 나온 것이다. 

표본을 추출할 때, 임의 추출과 동시에 복원 추출을 하여 계산을 하면, 표본 집단의 결과라도 모집단의 결과와 어느 정도 유

사하다고 볼 수가 있다. (더 정확히는 표본 평균을 엄청나게 많이 만들어서, 그것들의 평균을 구한 값의 결과가 모집단의 결

과와 같다. 아래에서 더 정확히 설명함)

그러나 이 복원 추출(recovery extraction)에는 한 가지 문제점이 있다. 

그것은 표본이 매우 큰 경우, 바로 2번 이상 중복돼서 복원될 확률이 0에 수렴할 수도 있다는 것이다. 

우리나라 인구는 5000만명이다. 1번 추출될 확률은 1/5000만명이며, 2번 추출(복원 추출)될 확률은 (1/5000만)^2이다. 

이는 로또에 당첨될 확률보다 훨씬 적은 확률이다. 

이와 같이 표본 집단의 결과와 모집단의 결과의 괴리를 줄이기 위하여 복원 추출(recovery extraction)이 적용될 확률이 매

우 매우 적다. 

이러한 이유로 인해, 표본이 매우 큰 경우에는 복원 추출(recovery extraction)을 사용하지 않고 비복원 추출을 사용하는 경

우가 있다. 

(그러나 기본적으로는 복원 추출을 base로 한다.)

위 설명은 사실 반쪽짜리 설명이다. 

표본 집단의 결과가 모집단의 결과와 유사하려면, 위와 같은 1개의 표본 집단이 아니라 매~~~~~~~~~~우 많은 표본 집단

에 대한 결과를 구해야 한다

표본 집단의 개수에 대해서는 정해진 바가 없으나, 100개, 1만개, 1억개 정도의 수준이 아닌 매우 매우 매우 많은 표본 집단

을 구해야지만, 모집단의 결과와 유사한 결과값을 가질 수가 있다. 

(달랑 1개의 표본 집단을 조사해 놓고, 이것을 모집단의 결과와 유사하다고 말하는 것은 택도 없는 소리이다)

예를 들어, 인구 5000만명의 대한민국 국민 중, 50명의 표본 집단을 만들 수 있는 경우의 수를 생각해보자

50명 중 첫번째 사람 : 5000만의 경우의 수

50명 중 두번째 사람  : 5000만 * 5000만(복원 추출이니깐, 똑같은 사람을 또 뽑을 수가 있다)

.....

50명 중 50번째 사람 : (5000만)^50... ㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷ

-> 이 정도까지는 아니더라 이와 근사한 표본 집단의 개수를 구해야지만 모평균의 결과값과 유사한 값을 구할 수가 있다. 

 

 

표본 집단과 모집단의 관계식

이와 같이 매~~우 많은 표본 평균(X_Bar), 표본 분산(S^2), 표본 표준편차(S)를 구해놓고, X_Bar의 평균(=E(X_Bar))은 

모집단의 평균(m)과 같다는 것이 증명이 됐다.(증명은 대학교 과정)

표본 분산과, 표본 표준 편차에 대해서도 이미 증명이 됨

-> 이런 과정을 통해서 표본 집단을 통해서 모집단의 평균과 분산 ,표준편차를 구할 수가 있다. 

 

표본 집단의 성질

1. 표본 집단을 1개의 표본만 조사한 것이 아니라, 매우 큰 많은 수의 표본 집단을 조사하였을 때, 해당 표본 집단은 

정규 분포를 따른다. 

-> 이는 모집단이 정규 분포를 따르지 않아도 성립이 된다. 

(참고로, 모평균이 정규 분포를 따르면, 표본 집단은 무조건 정규 분포를 따른다는 것이 증명됨)