ML&DL/ML DL 기본기

모델 적합성 평가 및 실험설계

백악기작은펭귄 2021. 12. 5.
반응형

모델의 적합성 평가 및 실험설계

0. 용어 설명

  • MSE(mean squared error)
    평균 제곱 오차. 예측값과 실제값 사이의 오차(잔차)의 제곱에 대한 평균

    회귀 모형의 예측력을 평가하기 위해 예측 값과 실제 값이 유사한지 평가할 수 있는 척도로, 숫자가 작을수록 더욱 정확한 모델이라고 판단한다. 이외에도 Average error, MAE, MAPE, RMSE 등이 있다.
  • Overfitting
    과적합. 머신러닝에서, 학습 데이터를 과하게 학습하는 것을 뜻한다.
    실제 데이터의 부분집합인 학습 데이터에 대해서는 오차가 감소하지만, 실제 데이터에 대해서는 오차가 증가하게 된다.

  • Underfitting
    과적합의 반대 개념. 과소 적합이라고도 불림. 학습 데이터가 충분치 않거나 학습이 제대로 이루어지지 않아 최적화가 덜 이루어진 상태
    데이터를 더 많이 학습시킴으로써 해결 가능
  • 학습 데이터(training data)
    모형 f를 추정하는데 필요한 모델 학습용 데이터. 모델을 만들기 위한 학습에 이용된다.

  • 검증 데이터(validation data)
    추정한 모델 f가 적합한지 검증하기 위한 데이터. 하이퍼 파라미터 튜닝에 이용된다

  • 테스트 데이터(test data)
    최종적으로 선택한 모델의 성능을 평가하기 위한 데이터. 이를 통해 성능 지표를 도출하고 모델을 평가한다.

  • 파라미터(parameter)
    매개변수. 모델 내부에서 결정되는 변수로, 데이터로부터 결정되며 사용자에 의해 조정되지 않는다.
    평균, 표준편차 등을 예로 들 수 있다.

  • 하이퍼 파라미터(hyper parameter)
    모델링 시 사용자가 직접 세팅해주는 값. learning rate, SVM에서의 C, KNN에서의 K 등이 있다.
    정해진 최적의 값이 없으며, 여러 법칙이나 라이브러리에 의해서 결정되곤 한다.
  • Resampling
    데이터의 target 분포가 매우 imbalance 한 경우, classification의 성능을 향상하기 위해 target의 분포를 맞춰주는 것.
    minor 클래스의 비중에 맞게 major 클래스의 비중을 줄이는 under sampling, major 클래스의 비중에 맞게 minor 클래스의 비중을 높이는 over sampling이 있다.

  • K-Fold 교차검증(K-fold cross validation)
    모델의 적합성을 보다 객관적으로 평가하기 위해 데이터 분할 단계에서 적용하는 방법으로, 전체 데이터를 k개(주로 5 또는 10)로 분할한 후 그중 검증 데이터를 다르게 설정하여 k개의 모델을 학습시키고, 이후 계산된 오차의 평균을 계산하여 최종 성능 지표를 도출하는 방법이다.

    데이터가 다소 부족할 경우 사용하면 유용하다.

  • LOOCV(Leave-One-Out Cross Validation)
    위 K-fold cross validation의 특수한 경우로, n개 데이터에 대해 n-fold cross validation을 하는 것.
    전체 데이터 중 하나의 샘플만을 제외하면서 모델을 학습시킨 후, 제외했던 샘플로 모델의 성능 지표를 계산하고 평균을 통해 최종 성능 지표를 도출한다.
    데이터의 개수가 극단적으로 적을 경우 사용한다.

1. 모델의 적합성 평가

  • 모델의 복잡도(flexibility)에 따른 학습 데이터의 MSE(회색)와 검증 데이터의 MSE(빨간색)의 변화는 아래 그림과 같다. 
    학습 데이터의 MSE는 복잡한 모형일수록 감소하지만, 학습 데이터가 아닌 또 다른 데이터 (검증 데이터)의 MSE는 일정 시점 이후로 증가
  • 노란색: 가장 낮은 복잡도를 가지므로 편파성(bias)이 높아져, 가장 높은 MSE 값을 가짐
  • 하늘색: 실제 f를 나타내는 모델과 가장 유사한 형태로, 분산과 편파성이 모두 적절히 낮아져 검증 데이터의 MSE가 가장 낮음
  • 초록색: 가장 높은 복잡도를 가지므로 학습 데이터에 과적합 되어 분산이 높아짐. 따라서 검증 데이터의 MSE가 하늘색에 비해 상승
    >> 증가하는 원인은 모델이 학습 집합에 과적합되기 때문
    오버피팅이 일어난 초록색 선과 실제 f인 검은색 선 ⇒ 적합한 모델을 만들기 위하여 적절한 실험 설계가 필요하다.
     
반응형

댓글