반응형
과적합(Overfitting)
1. 과적합이란
- 학습 데이터에 대해서는 높은 정확도를 보이지만, 검증 데이터 혹은 테스트 데이터에 대해서는 정확도가 낮은 경우를 의미한다.
- 복잡한 모형일수록, 데이터가 적을수록 과적합이 일어나기 쉽다.
- 과적합은 데이터 사이언스뿐만 아니라 AI 전반적으로 매우 큰 이슈
- 아래 그림은 회귀분석에서 고차항을 넣었을 때 만들어지는 직선
2. 분산(Variance)과 편파성(Bias)
3. 분산과 편파성의 트레이드오프(Tradeoff) 딜레마
- 분산과 표준편차가 모두 낮은 경우 (좌측 상단)
- 거의 존재하지 않는, 가장 이상적인 상황이다.
- 타깃 값에 높은 정확도를 가지고 적중함을 확인할 수 있다.
- 분산과 표준편차가 모두 높은 경우 (우측 하단)
- 예측값이 한 곳에 모이지도 않았고 타깃 값에 대한 적중률 또한 낮다.
- 낮은 분산과 높은 편차를 가지는 경우 (좌측 하단)
- 예측값이 일관성 있게 모여있으나 타깃 값에 대한 적중률은 다소 떨어짐을 확인할 수 있다.
- 단순한 모델일 경우 일어나는 현상으로, 소규모 데이터에 대해서는 썩 괜찮은 성능을 보이기도 한다.
- 낮은 편차와 높은 분산을 가지는 경우 (우측 상단)
- 분산이 높아 다소 퍼져있지만 타깃에 대한 적중도가 다소 높다.
- 퍼져있는 예측값에 대해 평균을 적용할 경우 1번에 근접할 가능성이 있다.
- 가장 많이 사용되는 모델로, 앙상블 러닝(Ensemble Learning) 등이 이에 속한다.
- 1번에 근접하기 위해 많은 연구가 이루어지고 있다.
과적합을 방지하고 좋은 결과를 얻기 위해서는 적절한 모형 선택과 정확한 실험 설계가 필요하다.
반응형
'ML&DL > ML DL 기본기' 카테고리의 다른 글
회귀분석 (0) | 2021.12.11 |
---|---|
통계학 기초: 회귀분석을 위한 통계 (0) | 2021.12.08 |
모델 적합성 평가 및 실험설계 (0) | 2021.12.05 |
머신러닝 기법 구분: 지도학습, 비지도 학습, 강화학습 (0) | 2021.12.02 |
머신러닝의 개념과 종류 (+딥러닝의 장단점) (0) | 2021.12.01 |
댓글