MSE(mean squared error) 평균 제곱 오차. 예측값과 실제값 사이의 오차(잔차)의 제곱에 대한 평균
회귀 모형의 예측력을 평가하기 위해 예측 값과 실제 값이 유사한지 평가할 수 있는 척도로, 숫자가 작을수록 더욱 정확한 모델이라고 판단한다. 이외에도 Average error, MAE, MAPE, RMSE 등이 있다.
Overfitting 과적합. 머신러닝에서, 학습 데이터를 과하게 학습하는 것을 뜻한다. 실제 데이터의 부분집합인 학습 데이터에 대해서는 오차가 감소하지만, 실제 데이터에 대해서는 오차가 증가하게 된다.
Underfitting 과적합의 반대 개념. 과소 적합이라고도 불림. 학습 데이터가 충분치 않거나 학습이 제대로 이루어지지 않아 최적화가 덜 이루어진 상태 데이터를 더 많이 학습시킴으로써 해결 가능
학습 데이터(training data) 모형 f를 추정하는데 필요한 모델 학습용 데이터. 모델을 만들기 위한 학습에 이용된다.
검증 데이터(validation data) 추정한 모델 f가 적합한지 검증하기 위한 데이터. 하이퍼 파라미터 튜닝에 이용된다
테스트 데이터(test data) 최종적으로 선택한 모델의 성능을 평가하기 위한 데이터. 이를 통해 성능 지표를 도출하고 모델을 평가한다.
파라미터(parameter) 매개변수. 모델 내부에서 결정되는 변수로, 데이터로부터 결정되며 사용자에 의해 조정되지 않는다. 평균, 표준편차 등을 예로 들 수 있다.
하이퍼 파라미터(hyper parameter) 모델링 시 사용자가 직접 세팅해주는 값. learning rate, SVM에서의 C, KNN에서의 K 등이 있다. 정해진 최적의 값이 없으며, 여러 법칙이나 라이브러리에 의해서 결정되곤 한다.
Resampling 데이터의 target 분포가 매우 imbalance 한 경우, classification의 성능을 향상하기 위해 target의 분포를 맞춰주는 것. minor 클래스의 비중에 맞게 major 클래스의 비중을 줄이는 under sampling, major 클래스의 비중에 맞게 minor 클래스의 비중을 높이는 over sampling이 있다.
K-Fold 교차검증(K-fold cross validation) 모델의 적합성을 보다 객관적으로 평가하기 위해 데이터 분할 단계에서 적용하는 방법으로, 전체 데이터를 k개(주로 5 또는 10)로 분할한 후 그중 검증 데이터를 다르게 설정하여 k개의 모델을 학습시키고, 이후 계산된 오차의 평균을 계산하여 최종 성능 지표를 도출하는 방법이다. 데이터가 다소 부족할 경우 사용하면 유용하다.
LOOCV(Leave-One-Out Cross Validation) 위 K-fold cross validation의 특수한 경우로, n개 데이터에 대해 n-fold cross validation을 하는 것. 전체 데이터 중 하나의 샘플만을 제외하면서 모델을 학습시킨 후, 제외했던 샘플로 모델의 성능 지표를 계산하고 평균을 통해 최종 성능 지표를 도출한다. 데이터의 개수가 극단적으로 적을 경우 사용한다.
1. 모델의 적합성 평가
모델의 복잡도(flexibility)에 따른 학습 데이터의 MSE(회색)와 검증 데이터의 MSE(빨간색)의 변화는 아래 그림과 같다. 학습 데이터의 MSE는 복잡한 모형일수록 감소하지만, 학습 데이터가 아닌 또 다른 데이터 (검증 데이터)의 MSE는 일정 시점 이후로 증가
노란색:가장 낮은 복잡도를 가지므로편파성(bias)이 높아져,가장 높은MSE 값을 가짐
하늘색:실제 f를 나타내는 모델과 가장 유사한 형태로,분산과 편파성이 모두 적절히 낮아져검증 데이터의 MSE가가장 낮음
초록색:가장 높은 복잡도를 가지므로 학습 데이터에과적합되어분산이 높아짐. 따라서 검증 데이터의 MSE가하늘색에 비해 상승 >> 증가하는 원인은 모델이 학습 집합에 과적합되기 때문오버피팅이 일어난 초록색 선과 실제 f인 검은색 선 ⇒ 적합한 모델을 만들기 위하여 적절한 실험 설계가 필요하다.
댓글