본문 바로가기

딥러닝을 위한 수학

회귀(Regression)(Feat. 지도 학습(Supervised Learning) 회귀(Regression) 회귀는 통계학과 머신러닝에서 사용되는 용어로, 1 개 이상의 독립변수(x)와 한 개의 종속변수(y) 간의 상관 관계를 분 석하고 예측하는 작업을 말한다. 일반적으로, 하나 이상의 독립 변수(입력)가 종속 변수(출력)에 미치는 영향을 설명하거나 예측할 때 사용 지도 학습(Supervised Learning)에서는 크게 회귀(Regression)과 분류(Classifier), 이 2가지 유형으로 나뉜다. 회귀: 연속된 값(Continuos Value)을 예측할 때 사용 (ex. 아파트 가격 예측, 시험 점수 예측 등) 분류 : 이산적 값(Discrete Value)을 예측할 때 사용(불량품이냐 아니냐, 7개의 라벨값 중 어느 것이냐? 등) 회귀 모델(회귀 함수)의 종류 (하도 헷갈.. 더보기
선형화(Linearization), 선형 회귀(Linear Regression), 선형 분류(Linear classification), 선형 함수 vs 비선형 함수, 선형 모델(Linear Model), 선형 대수학(Linear Algebra), 주성분 분석(PCA), 비선형 주성분 분석(Non-Lin.. [선형](Linear)라는 말은 참 많이 등장한다. [선형~]라는 이름으로 정의되는 각 용어들에 대해 개념적으로 정리를 하겠다. 선형화(Linearization) 결론부터 말하면, 복잡한 정보를 간단한 직선 하나로 표현하는 것이 선형화(Linearization)이라고 한다. 남자 아이가 여자 아이에게 "너의 집은 어디야?"라고 물었다고 해보자 여자는 실제로 집을 가기위해서, 2개의 상점을 거쳐야 한다. 그러나 "나는 2개의 어느 어느 상점을 거치면 집으로 도착해"라고 보통 일상에서는 표현하지 않는다. 시작점에서 도착점(집)까지의 직선적 방향으로 집의 위치를 표현한다. -> 직선 하나로 복잡한 것을 단순하게 설명을 하고 있다. 선형 분류(Linear Classification) 결론부터 말을 하자면, 직선.. 더보기
표본 평균들의 확률 분포-2 위 문제를 해석해보자 어느 배달업체를 편의 상, A라고 부르겠다. A 배달 업체의 모~든 배달 물품을 전수 조사를 하였더니, 1개의 배달 물품의 배달 시간의 평균이 30분이라고 한다. 이는, 모집단의 조사 결과이며, 확률 변수 X의 값은 배달 시간이라는 뜻이다. 그리고 위 문제에서 모집단이 정규 분포를 따른다고 하였으니, 표본 집단 또한 반드시 정규 분포를 따른다( 1편 참조 ) 문제에서의 표본의 크기(n)은 n=16이며, 아래의 공식들을 활용하여 표본 집단에 대한 N(m,표준편차^2)를 구하여, 표본 집 단에 대한 정규 그래프의 넓이를 이용하여 확률을 구하면 그만이다. 더보기
표본 평균들의 확률 분포-1(Feat. 모집단, 표본 집단, 전수 조사, 표본 조사,임의 추출, 복원 추출) 여론 조사를 할 때에 2가지 방법이 존재한다. 1. 전수 조사 : 대한 민국의 모든 사람들을 대상으로 조사 -> 모집단(population or universe) : 모~~든 것들을 대상으로 조상 우리는 앞으로 모집단을 대상으로 A] 모평균 = m으로 표기 B] 모분산 = 시그마^2로 표기 C] 모표준편차 = 시그마로 표기 -> 이 3가지를 구할 것이다. (모분산, 모표준편차는 고등학교 과정에서는 안 나옴) 2. 표본 조사 : 대한 민국의 모든 사람들 중 일부를 추출하여 조사( 추출 기법에 임의 추출, 복원 추출이 있다. 이건 아래에서 설명) -> 표본 집단(Focus Group) : 표본 집단의 사람이 100명이라면, "표본의 크기"가 100(n=100)이라고 부른다. 우리는 앞으로 표본 집단을 대상으.. 더보기
이항 분포와 정규분포의 관계(Feat. 드 누아브르-라플라스 정리) 예시를 들어 보자 주사위를 450번 던져서 "3의 약수"가 나온 횟수를 X라고 하자. 이때, 우리는 B(450, 2/6)를 이용하여 손쉽게 평균,분산, 표준편차를 구할 수가 있다. 그러나 만약 "3의 약수"가 45번 이상 나올 확률을 구하라 라고 나오면 어떻게 해야 할까? 만약 X가 이산적이 아니라, 연속적이면 확률 밀도 함수의 특성에 따라, 정규 분포 그래프를 이용해서 면적을 구하면 된다. 그러나 '횟수'라는 것은 연속적아니라 이산적이다. 그렇다면 방법은, 소위 거대한 표를 그려서 X의 범위 40~450까지의 확률을 구해서 다 더해야 할까? 너무나도 많은 연산량을 필요로 하게 된다. 드 누아브르와 라플라스라는 사람은, 이와 같이 이항 분포와 정규 분포의 관계를 정의를 했다. 시행 횟수가 충분히 클 때,.. 더보기
정규 분포(Normal Distribution)와 표준화(Feat. 확률 밀도 함수,표준 정규분포표) 정규 분포(Normal Distribution)의 3가지 성립 조건 1] 확률 밀도 함수 2] 평균(m)을 기준으로 좌우 대칭 3 ] 그래프의 넓이가 1 정규 분포의 특성 -> 평균(m)에 데이터가 많이 모여 있고, 양극단으로 갈 수록 데이터가 극단적으로 적어진다. 대부분의 확률 밀도 함수의 형태는 정규 분포 그래프의 형태를 띈다. 그럼, 정규 분포는 어떻게 표현할 수가 있을까? 이항 분포(Binomial Distribution)의 경우, B(n,p)로 이항 분포표를 압축하여 표현할 수가 있었다. 정규 분포 그래프도 딱 2가지 요소만으로 그래프를 표현(가늠)할 수가 있다. 바로, 평균(m)값과 표준 편차(or 분산)이다. 고로, 정규 분포는 N( m, 분산)로 정의된다. 위에서 언급했듯이, 정규 분포(N.. 더보기
연속 확률 변수(Continuous Probability Variables) 확률 밀도 함수(Probability Density Function) 여태까지는 확률 분포'표'를 만들 수가 있었다. 그 이유는 X가 Discrete Probability Variables, 즉 뚝뚝 떨어져 있는 값이 이산 확률 변수였기 때문이다. 그러나 연속적인 변수는 연속 확률 변수(Continuous Probability Variables)는 X의 범위가 무한이기에 표로 더이상 나타낼 수가 없고, 그래프로 표현을 해야 한다. 이산 확률 변수(Discrete Probability Variables) : 확률 변수가 이산적이여서 표로 표현 연속 확률 변수(Continuous Probability Variables) : 확률 변수가 연속적이여서 그래프로 표현확률 질량 함수(Probability Mass Function) : 이산 확률 변수'표'에서 얻어진 확률 변수와 확률.. 더보기
이항 분포표(Binomial Distribution)(Feat. 거대한 표, 확률 분포) 예시를 하나 들자 주사위를 무려 1만번 던졌을 때, "1이 나온 횟수"를 X라고 했을 때, E(X), V(X), 시그마(X)를 구해보자. 확률 분포표를 그려보자. 확률 변수(X)의 범위는 0 , 1, 2 , 3, 4, 5, ........9999, 10000이고, 그에 따른 P 값은 각각 10000_C_0 * (1/6)^0 * (6/5)^10000 , 10000_C_1 * (1/6)^1 * (6/5)^9999, 10000_C_2 * (1/6)^2 * (6/5)^9998 ........... 10000_C_10000 * (1/6)^10000 * (6/5)^0 (참고로, 위 확률은 독립 시행임에 유의하자) 이건 계산량이 많은 거대한 표(비공식 용어)이다. 이걸 확률 분포표를 그려서 E(X), V(X), 시그.. 더보기