성장通

회귀분석 본문

ML&DL/ML DL 기본기

회귀분석

백악기작은펭귄 2021. 12. 11. 22:05

회귀분석

지도 학습 (Supervised Learning)

Y = f(X)에 대하여 입력 변수 X와 출력 변수 Y의 관계에 대하여 모델링하는 것
  • 회귀(regression): 입력 변수 X에 대해서 연속형 출력 변수 Y를 예측
  • 분류(classification): 입력 변수 X에 대해서 이산형 출력 변수 Y를 예측
    회귀식 Y=f(X). Y가 이산형일 경우 분류식이 된다

회귀분석

입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법으로, 크게 선형회귀분석 / 비선형회귀분석으로 나뉜다.


1. 단순 선형 회귀분석

입력 변수가 X, 출력 변수가 Y일때, 단순 선형 회귀의 회귀식은 위와 같다. 위 식에서 $\beta_0$는 절편(intercept), $\beta_1$은 기울기(slope)이며, 둘을 통틀어 회귀계수(coefficients)라고 한다.($\epsilon$은 white noise)

 

실제 $\beta_0$와 $\beta_1$은 구할 수 없는 계수로, 데이터를 바탕으로 둘을 추정하여 사용한다.

위 회귀식을 알기 위해 추정하는 식

추정식은 여러 가지가 될 수 있으나, 직선(추정 값)과 데이터(실제값)의 차이가 평균적으로 가장 작아지는 직선을 최적의 추정식이라고 한다.

이러한 차이를 잔차(residual)라고 하며, 이를 최소화하는 방향으로 추정을 진행한다. 잔차를 제곱하여 합한 값을 SSE(Error Sum of

Squares)라고 하며 다음과 같이 표현할 수 있다. 왜 ESS가 아니고 SSE지?

잔차의 제곱합을 최소화시키는 이유
1. 잔차는 음수와 양수가 모두 존재할 수 있기 때문에, 잔차의 합이 0이 되는 해는 무수히 많음 (유일해 존재 X)
2. 잔차를 모두 양수로 만들기 위해 절댓값을 취할 경우 잔차의 절대값 합이 미분 불가능해질 수 있음

∴ 잔차의 제곱 합을 이용하면 미분 가능한 유일한 해를 찾을 수 있음

 

최소 자승법 (Least Square Method)

$SSE\ \hat{\beta_0}$과 $\hat {\beta_1}$으로 편미분 하여 연립방정식을 푸는 방법.

증명)
1) $-2\Sigma^n_{i=1}(y_i-\beta_0-\beta_1x_i) = 0 \rightarrow \beta_0 = 1/n( \Sigma^n_{i=1} y_i - \beta_1 \Sigma^n_{i=1} x_i)$ 
∴ $\hat {\beta_0} = \bar {y}-\hat {\beta_1}\bar {x}$
$\rightarrow \beta_0 = 1/n (\Sigma^n_{i=1} y_i-\beta_1\Sigma^n_{i=1} x_i)$

2) $\Sigma^n_{i=1}{x_iy_i}-\beta_0\Sigma^n_{i=1} x_i-\beta_1\Sigma^n_{i=1} x_i^2 = 1/n\Sigma^n_{i=1} y_i\Sigma^n_{i=1} x_i=\Sigma^n_{i=1} x_iy_i$
∴$\hat {\beta_1} = {\Sigma^n_{i=1}(x_i-\bar x)(y_i-\bar y)}\over {\Sigma^n_{i=1}(x_i-\bar x)^2}$

 

'ML&DL > ML DL 기본기' 카테고리의 다른 글

딥러닝의 역사  (0) 2022.06.01
지능과 인공 신경망  (0) 2022.05.25
통계학 기초: 회귀분석을 위한 통계  (0) 2021.12.08
과적합(Overfitting)  (0) 2021.12.07
모델 적합성 평가 및 실험설계  (0) 2021.12.05