ML&DL/ML DL 기본기

과적합(Overfitting)

백악기작은펭귄 2021. 12. 7.
반응형

과적합(Overfitting)

1. 과적합이란

  • 학습 데이터에 대해서는 높은 정확도를 보이지만, 검증 데이터 혹은 테스트 데이터에 대해서는 정확도가 낮은 경우를 의미한다.
  • 복잡한 모형일수록, 데이터가 적을수록 과적합이 일어나기 쉽다.
  • 과적합은 데이터 사이언스뿐만 아니라 AI 전반적으로 매우 큰 이슈
  • 아래 그림은 회귀분석에서 고차항을 넣었을 때 만들어지는 직선
    완화시키는 방법에 대해서는 연구가 진행되고 있지만 완벽하게 해결할 수 있는 방법은 아직 존재하지 않는다

2. 분산(Variance)과 편파성(Bias)

 

3. 분산과 편파성의 트레이드오프(Tradeoff) 딜레마

모델의 분산과 편차에 따라 달라지는 예측값을 시각화하였다

  1. 분산과 표준편차가 모두 낮은 경우 (좌측 상단)
    • 거의 존재하지 않는, 가장 이상적인 상황이다.
    • 타깃 값에 높은 정확도를 가지고 적중함을 확인할 수 있다.
  2. 분산과 표준편차가 모두 높은 경우 (우측 하단)
    • 예측값이 한 곳에 모이지도 않았고 타깃 값에 대한 적중률 또한 낮다.
  3. 낮은 분산과 높은 편차를 가지는 경우 (좌측 하단)
    • 예측값이 일관성 있게 모여있으나 타깃 값에 대한 적중률은 다소 떨어짐을 확인할 수 있다.
    • 단순한 모델일 경우 일어나는 현상으로, 소규모 데이터에 대해서는 썩 괜찮은 성능을 보이기도 한다.
  4. 낮은 편차와 높은 분산을 가지는 경우 (우측 상단)
    • 분산이 높아 다소 퍼져있지만 타깃에 대한 적중도가 다소 높다.
    • 퍼져있는 예측값에 대해 평균을 적용할 경우 1번에 근접할 가능성이 있다.
    • 가장 많이 사용되는 모델로, 앙상블 러닝(Ensemble Learning) 등이 이에 속한다.
    • 1번에 근접하기 위해 많은 연구가 이루어지고 있다.

과적합을 방지하고 좋은 결과를 얻기 위해서는 적절한 모형 선택과 정확한 실험 설계가 필요하다.

반응형

댓글