일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- IT
- 개발배경지식
- 선형대수학
- 머신러닝
- Stack
- reinforcement learning
- 그래프데이터
- 데이터 검증
- 글또9기
- 딥러닝
- OS
- 운영체제
- 자료구조
- Semantic segmentation
- agent
- TFDV
- CVPR
- mdp
- 데이터 전처리
- 강화학습
- recsys
- TFX
- RL
- 윤성우의 열혈 자료구조
- 논문 리뷰
- data structure
- MLOps
- 그래프씽킹
- 텐서플로우 익스텐디드
- ML 파이프라인
- Today
- Total
목록ML&DL (31)
성장通
회귀분석 지도 학습 (Supervised Learning) Y = f(X)에 대하여 입력 변수 X와 출력 변수 Y의 관계에 대하여 모델링하는 것 회귀(regression): 입력 변수 X에 대해서 연속형 출력 변수 Y를 예측 분류(classification): 입력 변수 X에 대해서 이산형 출력 변수 Y를 예측 회귀분석 입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법으로, 크게 선형회귀분석 / 비선형회귀분석으로 나뉜다. 1. 단순 선형 회귀분석 입력 변수가 X, 출력 변수가 Y일때, 단순 선형 회귀의 회귀식은 위와 같다. 위 식에서 $\beta_0$는 절편(intercept), $\beta_1$은 기울기(slope)이며, 둘을 통틀어 회귀계수(coefficients)라고 한다.($\ep..
회귀분석을 위한 확률 기초 1. 확률 기초 확률 실험( Random experiment) 실험의 결과는 미리 알 수 없다. ex - 주사위를 던졌을 때 어떤 눈이 나올지는 미리 알 수 없다. 실험에서 일어날 수 있는 모든 결과는 사전에 알려져 있다. ex - 주사위를 던졌을 때 1~6 중 하나의 눈이 나올 것이다. 이론적으로는 실험을 반복할 수 있다. 표본 공간 (Sample Space) 모든 결과들의 모임ex - 주사위를 던졌을 때 나올 수 있는 결과들의 집합 근원 사건 (Sample outcome) 표본 공간의 원소 ex - 1, 2, 3, 4, 5, 6 사건 (Event) 표본 공간의 부분집합 (근원 사건의 집합)
회귀분석을 위한 통계 0. 통계학이란? 통계학의 전반적인 이해를 위해서는 모집단과 표본에 대해 알아야 한다. 모집단 (Population) 연구의 대상이 되는 모든 개체들을 모은 집합 일반적으로 시간적, 공간적 제약으로 인해 모집단 전체를 대상으로 한 분석은 불가능하다. 표본 (Sample) 모집단 일부의 관측값들 각각의 집단에서 우리가 관심 있게 봐야 할 것들은 다음과 같다. 모수 (Parameter) 수치로 표현되는 모집단의 특성 모집단의 요약 값이라고 할 수 있다. ex - 모집단의 평균, 분산 등 통계량 (Statistic) 표본의 관측값들에 의해서 결정되는 양 추정량 모수를 추정하기 위한 목적을 가진 통계량 1. 자료의 종류 통계학에서 주로 다루는 자료는 크게 두 가지로 나눌 수 있다. 수치형 ..
과적합(Overfitting) 1. 과적합이란 학습 데이터에 대해서는 높은 정확도를 보이지만, 검증 데이터 혹은 테스트 데이터에 대해서는 정확도가 낮은 경우를 의미한다. 복잡한 모형일수록, 데이터가 적을수록 과적합이 일어나기 쉽다. 과적합은 데이터 사이언스뿐만 아니라 AI 전반적으로 매우 큰 이슈 아래 그림은 회귀분석에서 고차항을 넣었을 때 만들어지는 직선 2. 분산(Variance)과 편파성(Bias) 3. 분산과 편파성의 트레이드오프(Tradeoff) 딜레마 분산과 표준편차가 모두 낮은 경우 (좌측 상단) 거의 존재하지 않는, 가장 이상적인 상황이다. 타깃 값에 높은 정확도를 가지고 적중함을 확인할 수 있다. 분산과 표준편차가 모두 높은 경우 (우측 하단) 예측값이 한 곳에 모이지도 않았고 타깃 값에..
모델의 적합성 평가 및 실험설계 0. 용어 설명 MSE(mean squared error) 평균 제곱 오차. 예측값과 실제값 사이의 오차(잔차)의 제곱에 대한 평균 회귀 모형의 예측력을 평가하기 위해 예측 값과 실제 값이 유사한지 평가할 수 있는 척도로, 숫자가 작을수록 더욱 정확한 모델이라고 판단한다. 이외에도 Average error, MAE, MAPE, RMSE 등이 있다. Overfitting 과적합. 머신러닝에서, 학습 데이터를 과하게 학습하는 것을 뜻한다. 실제 데이터의 부분집합인 학습 데이터에 대해서는 오차가 감소하지만, 실제 데이터에 대해서는 오차가 증가하게 된다. Underfitting 과적합의 반대 개념. 과소 적합이라고도 불림. 학습 데이터가 충분치 않거나 학습이 제대로 이루어지지 않..
머신러닝 기법 구분 머신러닝 기법은 크게 지도 학습(supervised learning), 비지도 학습(unsupervised learning), 강화 학습(reinforcement learning)으로 분류할 수 있다. 이중 지도 학습과 비지도 학습은 전통적인 머신러닝 기법으로 분류되며, 강화 학습은 보는 이에 따라 머신러닝과 별개의 분야로 보기도 한다. 지도 학습과 비지도 학습의 가장 큰 차이점은 학습 과정에 있어 전문가가 개입하여 학습을 '지도'하는지라고 할 수 있다. 가장 보편적인 지도 학습 방법은 입력 데이터에 대한 정답을 사전 정의하여 학습 데이터로 제공하는 것으로, 모델은 자신의 예측과 실제 정답을 비교하며 오차를 줄이는 방향으로 학습을 진행한다. 지도 학습은 다시 회귀(regression)..