일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- OS
- data structure
- 그래프데이터
- ML 파이프라인
- MLOps
- Semantic segmentation
- 자료구조
- mdp
- 데이터 검증
- 머신러닝
- Stack
- 글또9기
- 데이터 전처리
- reinforcement learning
- 텐서플로우 익스텐디드
- IT
- 운영체제
- 논문 리뷰
- 개발배경지식
- 강화학습
- 그래프씽킹
- 선형대수학
- 윤성우의 열혈 자료구조
- RL
- agent
- TFX
- TFDV
- CVPR
- recsys
- 딥러닝
Archives
- Today
- Total
성장通
과적합(Overfitting) 본문
과적합(Overfitting)
1. 과적합이란
- 학습 데이터에 대해서는 높은 정확도를 보이지만, 검증 데이터 혹은 테스트 데이터에 대해서는 정확도가 낮은 경우를 의미한다.
- 복잡한 모형일수록, 데이터가 적을수록 과적합이 일어나기 쉽다.
- 과적합은 데이터 사이언스뿐만 아니라 AI 전반적으로 매우 큰 이슈
- 아래 그림은 회귀분석에서 고차항을 넣었을 때 만들어지는 직선
2. 분산(Variance)과 편파성(Bias)
3. 분산과 편파성의 트레이드오프(Tradeoff) 딜레마
- 분산과 표준편차가 모두 낮은 경우 (좌측 상단)
- 거의 존재하지 않는, 가장 이상적인 상황이다.
- 타깃 값에 높은 정확도를 가지고 적중함을 확인할 수 있다.
- 분산과 표준편차가 모두 높은 경우 (우측 하단)
- 예측값이 한 곳에 모이지도 않았고 타깃 값에 대한 적중률 또한 낮다.
- 낮은 분산과 높은 편차를 가지는 경우 (좌측 하단)
- 예측값이 일관성 있게 모여있으나 타깃 값에 대한 적중률은 다소 떨어짐을 확인할 수 있다.
- 단순한 모델일 경우 일어나는 현상으로, 소규모 데이터에 대해서는 썩 괜찮은 성능을 보이기도 한다.
- 낮은 편차와 높은 분산을 가지는 경우 (우측 상단)
- 분산이 높아 다소 퍼져있지만 타깃에 대한 적중도가 다소 높다.
- 퍼져있는 예측값에 대해 평균을 적용할 경우 1번에 근접할 가능성이 있다.
- 가장 많이 사용되는 모델로, 앙상블 러닝(Ensemble Learning) 등이 이에 속한다.
- 1번에 근접하기 위해 많은 연구가 이루어지고 있다.
과적합을 방지하고 좋은 결과를 얻기 위해서는 적절한 모형 선택과 정확한 실험 설계가 필요하다.
'ML&DL > ML DL 기본기' 카테고리의 다른 글
회귀분석 (0) | 2021.12.11 |
---|---|
통계학 기초: 회귀분석을 위한 통계 (0) | 2021.12.08 |
모델 적합성 평가 및 실험설계 (0) | 2021.12.05 |
머신러닝 기법 구분: 지도학습, 비지도 학습, 강화학습 (0) | 2021.12.02 |
머신러닝의 개념과 종류 (+딥러닝의 장단점) (0) | 2021.12.01 |