본문 바로가기

딥러닝을 위한 수학/확률과 통계

회귀(Regression)(Feat. 지도 학습(Supervised Learning) 회귀(Regression) 회귀는 통계학과 머신러닝에서 사용되는 용어로, 1 개 이상의 독립변수(x)와 한 개의 종속변수(y) 간의 상관 관계를 분 석하고 예측하는 작업을 말한다. 일반적으로, 하나 이상의 독립 변수(입력)가 종속 변수(출력)에 미치는 영향을 설명하거나 예측할 때 사용 지도 학습(Supervised Learning)에서는 크게 회귀(Regression)과 분류(Classifier), 이 2가지 유형으로 나뉜다. 회귀: 연속된 값(Continuos Value)을 예측할 때 사용 (ex. 아파트 가격 예측, 시험 점수 예측 등) 분류 : 이산적 값(Discrete Value)을 예측할 때 사용(불량품이냐 아니냐, 7개의 라벨값 중 어느 것이냐? 등) 회귀 모델(회귀 함수)의 종류 (하도 헷갈.. 더보기
표본 평균들의 확률 분포-2 위 문제를 해석해보자 어느 배달업체를 편의 상, A라고 부르겠다. A 배달 업체의 모~든 배달 물품을 전수 조사를 하였더니, 1개의 배달 물품의 배달 시간의 평균이 30분이라고 한다. 이는, 모집단의 조사 결과이며, 확률 변수 X의 값은 배달 시간이라는 뜻이다. 그리고 위 문제에서 모집단이 정규 분포를 따른다고 하였으니, 표본 집단 또한 반드시 정규 분포를 따른다( 1편 참조 ) 문제에서의 표본의 크기(n)은 n=16이며, 아래의 공식들을 활용하여 표본 집단에 대한 N(m,표준편차^2)를 구하여, 표본 집 단에 대한 정규 그래프의 넓이를 이용하여 확률을 구하면 그만이다. 더보기
표본 평균들의 확률 분포-1(Feat. 모집단, 표본 집단, 전수 조사, 표본 조사,임의 추출, 복원 추출) 여론 조사를 할 때에 2가지 방법이 존재한다. 1. 전수 조사 : 대한 민국의 모든 사람들을 대상으로 조사 -> 모집단(population or universe) : 모~~든 것들을 대상으로 조상 우리는 앞으로 모집단을 대상으로 A] 모평균 = m으로 표기 B] 모분산 = 시그마^2로 표기 C] 모표준편차 = 시그마로 표기 -> 이 3가지를 구할 것이다. (모분산, 모표준편차는 고등학교 과정에서는 안 나옴) 2. 표본 조사 : 대한 민국의 모든 사람들 중 일부를 추출하여 조사( 추출 기법에 임의 추출, 복원 추출이 있다. 이건 아래에서 설명) -> 표본 집단(Focus Group) : 표본 집단의 사람이 100명이라면, "표본의 크기"가 100(n=100)이라고 부른다. 우리는 앞으로 표본 집단을 대상으.. 더보기
이항 분포와 정규분포의 관계(Feat. 드 누아브르-라플라스 정리) 예시를 들어 보자 주사위를 450번 던져서 "3의 약수"가 나온 횟수를 X라고 하자. 이때, 우리는 B(450, 2/6)를 이용하여 손쉽게 평균,분산, 표준편차를 구할 수가 있다. 그러나 만약 "3의 약수"가 45번 이상 나올 확률을 구하라 라고 나오면 어떻게 해야 할까? 만약 X가 이산적이 아니라, 연속적이면 확률 밀도 함수의 특성에 따라, 정규 분포 그래프를 이용해서 면적을 구하면 된다. 그러나 '횟수'라는 것은 연속적아니라 이산적이다. 그렇다면 방법은, 소위 거대한 표를 그려서 X의 범위 40~450까지의 확률을 구해서 다 더해야 할까? 너무나도 많은 연산량을 필요로 하게 된다. 드 누아브르와 라플라스라는 사람은, 이와 같이 이항 분포와 정규 분포의 관계를 정의를 했다. 시행 횟수가 충분히 클 때,.. 더보기
정규 분포(Normal Distribution)와 표준화(Feat. 확률 밀도 함수,표준 정규분포표) 정규 분포(Normal Distribution)의 3가지 성립 조건 1] 확률 밀도 함수 2] 평균(m)을 기준으로 좌우 대칭 3 ] 그래프의 넓이가 1 정규 분포의 특성 -> 평균(m)에 데이터가 많이 모여 있고, 양극단으로 갈 수록 데이터가 극단적으로 적어진다. 대부분의 확률 밀도 함수의 형태는 정규 분포 그래프의 형태를 띈다. 그럼, 정규 분포는 어떻게 표현할 수가 있을까? 이항 분포(Binomial Distribution)의 경우, B(n,p)로 이항 분포표를 압축하여 표현할 수가 있었다. 정규 분포 그래프도 딱 2가지 요소만으로 그래프를 표현(가늠)할 수가 있다. 바로, 평균(m)값과 표준 편차(or 분산)이다. 고로, 정규 분포는 N( m, 분산)로 정의된다. 위에서 언급했듯이, 정규 분포(N.. 더보기
연속 확률 변수(Continuous Probability Variables) 확률 밀도 함수(Probability Density Function) 여태까지는 확률 분포'표'를 만들 수가 있었다. 그 이유는 X가 Discrete Probability Variables, 즉 뚝뚝 떨어져 있는 값이 이산 확률 변수였기 때문이다. 그러나 연속적인 변수는 연속 확률 변수(Continuous Probability Variables)는 X의 범위가 무한이기에 표로 더이상 나타낼 수가 없고, 그래프로 표현을 해야 한다. 이산 확률 변수(Discrete Probability Variables) : 확률 변수가 이산적이여서 표로 표현 연속 확률 변수(Continuous Probability Variables) : 확률 변수가 연속적이여서 그래프로 표현확률 질량 함수(Probability Mass Function) : 이산 확률 변수'표'에서 얻어진 확률 변수와 확률.. 더보기
이항 분포표(Binomial Distribution)(Feat. 거대한 표, 확률 분포) 예시를 하나 들자 주사위를 무려 1만번 던졌을 때, "1이 나온 횟수"를 X라고 했을 때, E(X), V(X), 시그마(X)를 구해보자. 확률 분포표를 그려보자. 확률 변수(X)의 범위는 0 , 1, 2 , 3, 4, 5, ........9999, 10000이고, 그에 따른 P 값은 각각 10000_C_0 * (1/6)^0 * (6/5)^10000 , 10000_C_1 * (1/6)^1 * (6/5)^9999, 10000_C_2 * (1/6)^2 * (6/5)^9998 ........... 10000_C_10000 * (1/6)^10000 * (6/5)^0 (참고로, 위 확률은 독립 시행임에 유의하자) 이건 계산량이 많은 거대한 표(비공식 용어)이다. 이걸 확률 분포표를 그려서 E(X), V(X), 시그.. 더보기
확률분포표에서 평균, 분산, 표준편차(Feat. Mean, Variance, Standard Deviation,도수 분포표,이산 확률 분포) 위 그림에서 [ X : 변량(Variant), F : (빈)도수(Frequency) ] 를 뜻한다. 만약 Frequency Distribution(도수 분포표)를 이용하여 평균(Mean)을 구해야 한다면 평균(Mean) = ( 모든 [X * F]의 합 ) / 10 우선, 결론부터 말하면, 확률 분포표(Probablity Distribution)으로부터 평균,분산,표준편차를 구할 수가 있다. X(확률 변수[random variable])=60에 대한 확률(P)는 [P = Frequency / Sum Of Frequency] ( 확률 분포표(Probablity Distribution)에서 X는 더이사 변량(Variant)라고 부르지 않고 확률 변수( random[stochastic] variable) 라고 .. 더보기