반응형
모델의 적합성 평가 및 실험설계
0. 용어 설명
- MSE(mean squared error)
평균 제곱 오차. 예측값과 실제값 사이의 오차(잔차)의 제곱에 대한 평균
회귀 모형의 예측력을 평가하기 위해 예측 값과 실제 값이 유사한지 평가할 수 있는 척도로, 숫자가 작을수록 더욱 정확한 모델이라고 판단한다. 이외에도 Average error, MAE, MAPE, RMSE 등이 있다. - Overfitting
과적합. 머신러닝에서, 학습 데이터를 과하게 학습하는 것을 뜻한다.
실제 데이터의 부분집합인 학습 데이터에 대해서는 오차가 감소하지만, 실제 데이터에 대해서는 오차가 증가하게 된다. - Underfitting
과적합의 반대 개념. 과소 적합이라고도 불림. 학습 데이터가 충분치 않거나 학습이 제대로 이루어지지 않아 최적화가 덜 이루어진 상태
데이터를 더 많이 학습시킴으로써 해결 가능 - 학습 데이터(training data)
모형 f를 추정하는데 필요한 모델 학습용 데이터. 모델을 만들기 위한 학습에 이용된다. - 검증 데이터(validation data)
추정한 모델 f가 적합한지 검증하기 위한 데이터. 하이퍼 파라미터 튜닝에 이용된다 - 테스트 데이터(test data)
최종적으로 선택한 모델의 성능을 평가하기 위한 데이터. 이를 통해 성능 지표를 도출하고 모델을 평가한다. - 파라미터(parameter)
매개변수. 모델 내부에서 결정되는 변수로, 데이터로부터 결정되며 사용자에 의해 조정되지 않는다.
평균, 표준편차 등을 예로 들 수 있다. - 하이퍼 파라미터(hyper parameter)
모델링 시 사용자가 직접 세팅해주는 값. learning rate, SVM에서의 C, KNN에서의 K 등이 있다.
정해진 최적의 값이 없으며, 여러 법칙이나 라이브러리에 의해서 결정되곤 한다. - Resampling
데이터의 target 분포가 매우 imbalance 한 경우, classification의 성능을 향상하기 위해 target의 분포를 맞춰주는 것.
minor 클래스의 비중에 맞게 major 클래스의 비중을 줄이는 under sampling, major 클래스의 비중에 맞게 minor 클래스의 비중을 높이는 over sampling이 있다. - K-Fold 교차검증(K-fold cross validation)
모델의 적합성을 보다 객관적으로 평가하기 위해 데이터 분할 단계에서 적용하는 방법으로, 전체 데이터를 k개(주로 5 또는 10)로 분할한 후 그중 검증 데이터를 다르게 설정하여 k개의 모델을 학습시키고, 이후 계산된 오차의 평균을 계산하여 최종 성능 지표를 도출하는 방법이다.
데이터가 다소 부족할 경우 사용하면 유용하다. - LOOCV(Leave-One-Out Cross Validation)
위 K-fold cross validation의 특수한 경우로, n개 데이터에 대해 n-fold cross validation을 하는 것.
전체 데이터 중 하나의 샘플만을 제외하면서 모델을 학습시킨 후, 제외했던 샘플로 모델의 성능 지표를 계산하고 평균을 통해 최종 성능 지표를 도출한다.
데이터의 개수가 극단적으로 적을 경우 사용한다.
1. 모델의 적합성 평가
- 모델의 복잡도(flexibility)에 따른 학습 데이터의 MSE(회색)와 검증 데이터의 MSE(빨간색)의 변화는 아래 그림과 같다.
- 노란색: 가장 낮은 복잡도를 가지므로 편파성(bias)이 높아져, 가장 높은 MSE 값을 가짐
- 하늘색: 실제 f를 나타내는 모델과 가장 유사한 형태로, 분산과 편파성이 모두 적절히 낮아져 검증 데이터의 MSE가 가장 낮음
- 초록색: 가장 높은 복잡도를 가지므로 학습 데이터에 과적합 되어 분산이 높아짐. 따라서 검증 데이터의 MSE가 하늘색에 비해 상승
>> 증가하는 원인은 모델이 학습 집합에 과적합되기 때문
반응형
'ML&DL > ML DL 기본기' 카테고리의 다른 글
회귀분석 (0) | 2021.12.11 |
---|---|
통계학 기초: 회귀분석을 위한 통계 (0) | 2021.12.08 |
과적합(Overfitting) (0) | 2021.12.07 |
머신러닝 기법 구분: 지도학습, 비지도 학습, 강화학습 (0) | 2021.12.02 |
머신러닝의 개념과 종류 (+딥러닝의 장단점) (0) | 2021.12.01 |
댓글