-
최적화 알고리즘 - SGD, 네스테로프, AdaGrad, RMSProp, Adam
최적화 알고리즘 - SGD, 네스테로프, AdaGrad, RMSProp, Adam 신경망의 손실 함수가 복잡한 경우, 학습의 기본 최적화 알고리즘인 경사 하강법(Gradient Descent)과 미니 배치 훈련 방식으로 변형된 확률적 경사 하강법(Stochastic Gradient Descent, 이하 SGD)만으로는 최적해를 찾기 어려울뿐더러 학습 속도 또한 느리다. 이러한 한계를 극복하기 위해 확률적 경사 하강법을 변형한 많은 알고리즘이 제안되었다. 그중 주요 최적화 알고리즘인 SGD 모멘텀, 네스테로프 모멘텀, AdaGrad, RMSProp, Adam을 살펴보도록 하자. 확률적 경사 하강법의 문제점 확률적 경사 하강법의 개선 알고리즘들을 살펴보기 전에, 확률적 경사 하강법에는 어떠한 문제점이 있는지..
ML&DL/ML DL 기본기
2024. 1. 6.
-
다중 분류 모델과 카테고리 분포
다중 분류 모델과 카테고리 분포 다중 분류 문제는 주사위를 굴렸을 때 각 면이 나올 확률을 계산하는 문제처럼, 세 개 이상의 결과를 가지는 상황에서 각 결과의 확률을 구하는 문제이다. 이러한 다중 분류의 확률분포는 카테고리 분포(Categorical distribution)을 따르므로, 다중 분류 모델은 카테고리 분포를 예측하는 모델로 정의할 수 있다. 카테고리 분포 카테고리 분포는 베르누이 분포를 일반화한 분포로, K개의 사건의 확률을 표현한다. $$ p(x|\mu)=\Pi^K_{k=1} \mu_k^{x_k} $$ $$ \mu = (\mu_1, \mu_2, ..., \mu_K)^T, \ \Sigma^K_{k=1}\mu_k=1 $$ $$ x = (x_1, x_2, ..., x_K)^T, \ x_k = 1..
ML&DL/ML DL 기본기
2022. 7. 13.
-
범용 함수 근사기로서의 신경망
범용 함수 근사기로서의 신경망 뉴런은 가중 합산과 활성 함수를 순차 실행하는 합성 함수이므로, 뉴런의 그룹인 계층 또한 합성 함수이고 계층을 순차적으로 쌓은 신경망 역시 합성 함수이다. 이때 뉴런은 실함수로 정의되고, 계층과 신경망은 벡터함수로 정의된다. 실함수와 벡터함수 실함수(real-valued function)는 크기가 n인 벡터 $x^T=(x_1, x_2, x_3, ... , x_n)$를 입력으로 하며 실수 $f(x)=f(x_1, x_2, ... , x_n)$를 출력을 갖는 $f: \mathbb{R}^n\rightarrow \mathbb{R}$ 형태의 함수이다. 벡터함수(vector function)는 크기가 n인 벡터 $x^T=(x_1, x_2, x_3, ... , x_n)$를 입력으로 하며 ..
ML&DL/ML DL 기본기
2022. 6. 15.