일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 윤성우의 열혈 자료구조
- 데이터 전처리
- 텐서플로우 익스텐디드
- 선형대수학
- TFX
- 데이터 검증
- 강화학습
- 개발배경지식
- Stack
- 딥러닝
- 머신러닝
- 그래프씽킹
- TFDV
- data structure
- 그래프데이터
- RL
- agent
- 운영체제
- recsys
- 글또9기
- MLOps
- 자료구조
- mdp
- IT
- OS
- 논문 리뷰
- reinforcement learning
- CVPR
- Semantic segmentation
- ML 파이프라인
- Today
- Total
목록ML&DL/ML DL 기본기 (14)
성장通
최적화 알고리즘 - SGD, 네스테로프, AdaGrad, RMSProp, Adam 신경망의 손실 함수가 복잡한 경우, 학습의 기본 최적화 알고리즘인 경사 하강법(Gradient Descent)과 미니 배치 훈련 방식으로 변형된 확률적 경사 하강법(Stochastic Gradient Descent, 이하 SGD)만으로는 최적해를 찾기 어려울뿐더러 학습 속도 또한 느리다. 이러한 한계를 극복하기 위해 확률적 경사 하강법을 변형한 많은 알고리즘이 제안되었다. 그중 주요 최적화 알고리즘인 SGD 모멘텀, 네스테로프 모멘텀, AdaGrad, RMSProp, Adam을 살펴보도록 하자. 확률적 경사 하강법의 문제점 확률적 경사 하강법의 개선 알고리즘들을 살펴보기 전에, 확률적 경사 하강법에는 어떠한 문제점이 있는지..
다중 분류 모델과 카테고리 분포 다중 분류 문제는 주사위를 굴렸을 때 각 면이 나올 확률을 계산하는 문제처럼, 세 개 이상의 결과를 가지는 상황에서 각 결과의 확률을 구하는 문제이다. 이러한 다중 분류의 확률분포는 카테고리 분포(Categorical distribution)을 따르므로, 다중 분류 모델은 카테고리 분포를 예측하는 모델로 정의할 수 있다. 카테고리 분포 카테고리 분포는 베르누이 분포를 일반화한 분포로, K개의 사건의 확률을 표현한다. $$ p(x|\mu)=\Pi^K_{k=1} \mu_k^{x_k} $$ $$ \mu = (\mu_1, \mu_2, ..., \mu_K)^T, \ \Sigma^K_{k=1}\mu_k=1 $$ $$ x = (x_1, x_2, ..., x_K)^T, \ x_k = 1..
이진 분류 모델과 베르누이 분포 이진 분류 문제는 동전 던지기처럼 두 가지 종류의 결과값을 가지는 문제에서 각각의 확률을 예측하는 문제이다. 이때 각 결과가 나올 확률의 확률분포는 베르누이 분포(Bernoulli distribution)로 정의되므로, 이진 분류 모델은 베르누이 분포를 예측하는 모델이라고 할 수 있다. 베르누이 분포 베르누이 분포는 두 종류의 사건이 발생할 확률을 나타내며 다음과 같은 식으로 정의된다. $$ p(x; \mu) \mu^x(1-\mu)^{1-x},\ x\in 0,1 $$ $x$는 확률변수로 0 또는 1의 값을 가지며 $x=0$은 사건 1을, $x=1$은 사건 2를 나타낸다. 또한 $\mu$는 사건 발생확률을 나타내며, 그 중 $x=1$일 때의 확률 즉, 사건 2의 발생확률을 ..
분류와 회귀 순방향 신경망으로 모델을 설계하기 위해서는 기본적으로 모델의 입출력 형태, 활성 함수의 종류, 네트워크 크기 등을 고려해야한다. 이 중 입출력 형태는 풀고자 하는 문제가 정의되면 자동으로 정의되는 것이 일반적이지만, 활성 함수의 종류와 네트워크 크기 등은 검증을 하는 절차가 필요하다. 이를 모델 검증 단계라고 하며, 하이퍼파라미터(hyper-parameter) 탐색을 하여 최적의 모델을 찾아낸다. 이러한 설계 과정을 이해하기 위해 지도 학습의 대표적인 문제인 분류 문제와 회귀 문제를 살펴보자. 분류는 범주형 데이터를 예측하는 문제이고, 회귀는 숫자형 데이터를 예측하는 문제라고 요약할 수 있다. 분류 문제 분류(classification) 문제는 데이터의 클래스(class) 또는 카테고리(ca..
범용 함수 근사기로서의 신경망 뉴런은 가중 합산과 활성 함수를 순차 실행하는 합성 함수이므로, 뉴런의 그룹인 계층 또한 합성 함수이고 계층을 순차적으로 쌓은 신경망 역시 합성 함수이다. 이때 뉴런은 실함수로 정의되고, 계층과 신경망은 벡터함수로 정의된다. 실함수와 벡터함수 실함수(real-valued function)는 크기가 n인 벡터 $x^T=(x_1, x_2, x_3, ... , x_n)$를 입력으로 하며 실수 $f(x)=f(x_1, x_2, ... , x_n)$를 출력을 갖는 $f: \mathbb{R}^n\rightarrow \mathbb{R}$ 형태의 함수이다. 벡터함수(vector function)는 크기가 n인 벡터 $x^T=(x_1, x_2, x_3, ... , x_n)$를 입력으로 하며 ..
순방향 신경망의 구조 순방향 신경망(Feedforward Neural Network, FNN)은 다층 퍼셉트론의 다른 이름으로, 인공 신경망 모델의 가장 기본적인 형태라고 할 수 있다. 순방향 신경망은 데이터 구조에 대한 특별한 가정사항이 없기 때문에 데이터는 서로 독립되어 있다고 가정한다. 이름에서 알 수 있듯이, 데이터가 한 방향으로 전달되는 순방향 연결만을 갖는 모델로, 퍼셉트론의 연산과 같은 기본 뉴런연산으로 실행된다. 범용 근사 정리(universal approximation theorem)를 통해 n차원 공간의 연속 함수를 근사할 수 있는 범용 근사기로써의 기능을 할 수 있음이 증명되었는데, 이 정리를 아는 것은 신경망 모델 원리 이해에 기본이 된다. 순방향 신경망은 뉴런들이 모여 계층(lay..