ML&DL/ML DL 기본기

과적합(Overfitting)

백악기작은펭귄 2021. 12. 7.

학습 데이터에 대해서는 높은 정확도를 보이지만, 검증 데이터 혹은 테스트 데이터에 대해서는 정확도가 낮은 경우를 의미한다.
복잡한 모형일수록, 데이터가 적을수록 과적합이 일어나기 쉽다.
과적합은 데이터 사이언스뿐만 아니라 AI 전반적으로 매우 큰 이슈
아래 그림은 회귀분석에서 고차항을 넣었을 때 만들어지는 직선
완화시키는 방법에 대해서는 연구가 진행되고 있지만 완벽하게 해결할 수 있는 방법은 아직 존재하지 않는다

분산과 표준편차가 모두 낮은 경우 (좌측 상단)
- 거의 존재하지 않는, 가장 이상적인 상황이다.
- 타깃 값에 높은 정확도를 가지고 적중함을 확인할 수 있다.
분산과 표준편차가 모두 높은 경우 (우측 하단)
- 예측값이 한 곳에 모이지도 않았고 타깃 값에 대한 적중률 또한 낮다.
낮은 분산과 높은 편차를 가지는 경우 (좌측 하단)
- 예측값이 일관성 있게 모여있으나 타깃 값에 대한 적중률은 다소 떨어짐을 확인할 수 있다.
- 단순한 모델일 경우 일어나는 현상으로, 소규모 데이터에 대해서는 썩 괜찮은 성능을 보이기도 한다.
낮은 편차와 높은 분산을 가지는 경우 (우측 상단)
- 분산이 높아 다소 퍼져있지만 타깃에 대한 적중도가 다소 높다.
- 퍼져있는 예측값에 대해 평균을 적용할 경우 1번에 근접할 가능성이 있다.
- 가장 많이 사용되는 모델로, 앙상블 러닝(Ensemble Learning) 등이 이에 속한다.
- 1번에 근접하기 위해 많은 연구가 이루어지고 있다.

과적합을 방지하고 좋은 결과를 얻기 위해서는 적절한 모형 선택과 정확한 실험 설계가 필요하다.

댓글