ML&DL/ML DL 기본기14 최적화 알고리즘 - SGD, 네스테로프, AdaGrad, RMSProp, Adam 최적화 알고리즘 - SGD, 네스테로프, AdaGrad, RMSProp, Adam 신경망의 손실 함수가 복잡한 경우, 학습의 기본 최적화 알고리즘인 경사 하강법(Gradient Descent)과 미니 배치 훈련 방식으로 변형된 확률적 경사 하강법(Stochastic Gradient Descent, 이하 SGD)만으로는 최적해를 찾기 어려울뿐더러 학습 속도 또한 느리다. 이러한 한계를 극복하기 위해 확률적 경사 하강법을 변형한 많은 알고리즘이 제안되었다. 그중 주요 최적화 알고리즘인 SGD 모멘텀, 네스테로프 모멘텀, AdaGrad, RMSProp, Adam을 살펴보도록 하자. 확률적 경사 하강법의 문제점 확률적 경사 하강법의 개선 알고리즘들을 살펴보기 전에, 확률적 경사 하강법에는 어떠한 문제점이 있는지.. ML&DL/ML DL 기본기 2024. 1. 6. 다중 분류 모델과 카테고리 분포 다중 분류 모델과 카테고리 분포 다중 분류 문제는 주사위를 굴렸을 때 각 면이 나올 확률을 계산하는 문제처럼, 세 개 이상의 결과를 가지는 상황에서 각 결과의 확률을 구하는 문제이다. 이러한 다중 분류의 확률분포는 카테고리 분포(Categorical distribution)을 따르므로, 다중 분류 모델은 카테고리 분포를 예측하는 모델로 정의할 수 있다. 카테고리 분포 카테고리 분포는 베르누이 분포를 일반화한 분포로, K개의 사건의 확률을 표현한다. p(x|μ)=ΠKk=1μxkk μ=(μ1,μ2,...,μK)T, ΣKk=1μk=1 $$ x = (x_1, x_2, ..., x_K)^T, \ x_k = 1.. ML&DL/ML DL 기본기 2022. 7. 13. 이진 분류 모델과 베르누이 분포 이진 분류 모델과 베르누이 분포 이진 분류 문제는 동전 던지기처럼 두 가지 종류의 결과값을 가지는 문제에서 각각의 확률을 예측하는 문제이다. 이때 각 결과가 나올 확률의 확률분포는 베르누이 분포(Bernoulli distribution)로 정의되므로, 이진 분류 모델은 베르누이 분포를 예측하는 모델이라고 할 수 있다. 베르누이 분포 베르누이 분포는 두 종류의 사건이 발생할 확률을 나타내며 다음과 같은 식으로 정의된다. p(x;μ)μx(1−μ)1−x, x∈0,1 x는 확률변수로 0 또는 1의 값을 가지며 x=0은 사건 1을, x=1은 사건 2를 나타낸다. 또한 μ는 사건 발생확률을 나타내며, 그 중 x=1일 때의 확률 즉, 사건 2의 발생확률을 .. ML&DL/ML DL 기본기 2022. 7. 6. 분류와 회귀 분류와 회귀 순방향 신경망으로 모델을 설계하기 위해서는 기본적으로 모델의 입출력 형태, 활성 함수의 종류, 네트워크 크기 등을 고려해야한다. 이 중 입출력 형태는 풀고자 하는 문제가 정의되면 자동으로 정의되는 것이 일반적이지만, 활성 함수의 종류와 네트워크 크기 등은 검증을 하는 절차가 필요하다. 이를 모델 검증 단계라고 하며, 하이퍼파라미터(hyper-parameter) 탐색을 하여 최적의 모델을 찾아낸다. 이러한 설계 과정을 이해하기 위해 지도 학습의 대표적인 문제인 분류 문제와 회귀 문제를 살펴보자. 분류는 범주형 데이터를 예측하는 문제이고, 회귀는 숫자형 데이터를 예측하는 문제라고 요약할 수 있다. 분류 문제 분류(classification) 문제는 데이터의 클래스(class) 또는 카테고리(ca.. ML&DL/ML DL 기본기 2022. 6. 22. 범용 함수 근사기로서의 신경망 범용 함수 근사기로서의 신경망 뉴런은 가중 합산과 활성 함수를 순차 실행하는 합성 함수이므로, 뉴런의 그룹인 계층 또한 합성 함수이고 계층을 순차적으로 쌓은 신경망 역시 합성 함수이다. 이때 뉴런은 실함수로 정의되고, 계층과 신경망은 벡터함수로 정의된다. 실함수와 벡터함수 실함수(real-valued function)는 크기가 n인 벡터 xT=(x1,x2,x3,...,xn)를 입력으로 하며 실수 f(x)=f(x1,x2,...,xn)를 출력을 갖는 f:Rn→R 형태의 함수이다. 벡터함수(vector function)는 크기가 n인 벡터 xT=(x1,x2,x3,...,xn)를 입력으로 하며 .. ML&DL/ML DL 기본기 2022. 6. 15. 순방향 신경망 구조 순방향 신경망의 구조 순방향 신경망(Feedforward Neural Network, FNN)은 다층 퍼셉트론의 다른 이름으로, 인공 신경망 모델의 가장 기본적인 형태라고 할 수 있다. 순방향 신경망은 데이터 구조에 대한 특별한 가정사항이 없기 때문에 데이터는 서로 독립되어 있다고 가정한다. 이름에서 알 수 있듯이, 데이터가 한 방향으로 전달되는 순방향 연결만을 갖는 모델로, 퍼셉트론의 연산과 같은 기본 뉴런연산으로 실행된다. 범용 근사 정리(universal approximation theorem)를 통해 n차원 공간의 연속 함수를 근사할 수 있는 범용 근사기로써의 기능을 할 수 있음이 증명되었는데, 이 정리를 아는 것은 신경망 모델 원리 이해에 기본이 된다. 순방향 신경망은 뉴런들이 모여 계층(lay.. ML&DL/ML DL 기본기 2022. 6. 8. 딥러닝의 역사 딥러닝의 역사 인공 신경망의 발전은 컴퓨터와 생체 신경망 연구의 발전과 맞물려 있다. 대규모 컴퓨팅 자원이 필수적인 인공지능은 컴퓨터의 성능과 최전선에서 관계를 이루기 때문에, 컴퓨팅 파워와 함께 발전한다는 말이 과언이 아니다. 또한 생체 신경망의 원리를 모방하고 있는 만큼 생체 신경망에 대한 연구가 진행될수록 인공 신경망 또한 더욱 사람처럼 학습하고 추론하게 될 것이다. 최초의 인공 신경망: 매컬러-피츠 모델 매컬러-피츠(McCulloch-Pitts) 모델은 '최초의 인공 신경망' 모델로서 인간의 신경계를 이진 뉴런으로 표현하려고 했다. 신경 생리학자인 매컬러는 인간의 신경계를 범용 계산 장치로 모델링할 수 있을지 궁금해했고, 천재 수학자 피츠를 만나면서 세계 최초로 인공 신경망을 정의했다. 이들이 정.. ML&DL/ML DL 기본기 2022. 6. 1. 지능과 인공 신경망 지능과 인공 신경망 지능(intelligence)은 '어떤 문제에 당면했을 때 자신의 지식과 경험을 활용해서 문제를 해결하는 능력'을 의미한다. 지능을 가진 생물체는 자신의 경험을 활용하여 문제를 해결하거나, 때로는 아예 새로운 방식을 찾아내기도 한다. 즉, 지능은 광범위한 인식 능력과 문제 해결 능력을 포괄한다고 할 수 있다. 인간의 인지 능력과 호기심 인간은 지능이 굉장히 높은 생명체이다. 그런 만큼 세상을 인지하는 능력이 탁월하며, 인간만이 가지는 특성은 대부분 이러한 높은 인지 능력으로부터 비롯된다. 인간은 자신이 처한 상황을 포괄적으로 파악할 뿐만 아니라 과거를 회상하고 아직 일어나지 않은 미래를 상상하며 과거, 현재, 미래를 통합적으로 이해한다. 그 안에서 인간은 인과적 사고를 통해 문제를 자.. ML&DL/ML DL 기본기 2022. 5. 25. 회귀분석 회귀분석 지도 학습 (Supervised Learning) Y = f(X)에 대하여 입력 변수 X와 출력 변수 Y의 관계에 대하여 모델링하는 것 회귀(regression): 입력 변수 X에 대해서 연속형 출력 변수 Y를 예측 분류(classification): 입력 변수 X에 대해서 이산형 출력 변수 Y를 예측 회귀분석 입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법으로, 크게 선형회귀분석 / 비선형회귀분석으로 나뉜다. 1. 단순 선형 회귀분석 입력 변수가 X, 출력 변수가 Y일때, 단순 선형 회귀의 회귀식은 위와 같다. 위 식에서 β0는 절편(intercept), β1은 기울기(slope)이며, 둘을 통틀어 회귀계수(coefficients)라고 한다.($\ep.. ML&DL/ML DL 기본기 2021. 12. 11. 통계학 기초: 회귀분석을 위한 통계 회귀분석을 위한 통계 0. 통계학이란? 통계학의 전반적인 이해를 위해서는 모집단과 표본에 대해 알아야 한다. 모집단 (Population) 연구의 대상이 되는 모든 개체들을 모은 집합 일반적으로 시간적, 공간적 제약으로 인해 모집단 전체를 대상으로 한 분석은 불가능하다. 표본 (Sample) 모집단 일부의 관측값들 각각의 집단에서 우리가 관심 있게 봐야 할 것들은 다음과 같다. 모수 (Parameter) 수치로 표현되는 모집단의 특성 모집단의 요약 값이라고 할 수 있다. ex - 모집단의 평균, 분산 등 통계량 (Statistic) 표본의 관측값들에 의해서 결정되는 양 추정량 모수를 추정하기 위한 목적을 가진 통계량 1. 자료의 종류 통계학에서 주로 다루는 자료는 크게 두 가지로 나눌 수 있다. 수치형 .. ML&DL/ML DL 기본기 2021. 12. 8. 과적합(Overfitting) 과적합(Overfitting) 1. 과적합이란 학습 데이터에 대해서는 높은 정확도를 보이지만, 검증 데이터 혹은 테스트 데이터에 대해서는 정확도가 낮은 경우를 의미한다. 복잡한 모형일수록, 데이터가 적을수록 과적합이 일어나기 쉽다. 과적합은 데이터 사이언스뿐만 아니라 AI 전반적으로 매우 큰 이슈 아래 그림은 회귀분석에서 고차항을 넣었을 때 만들어지는 직선 2. 분산(Variance)과 편파성(Bias) 3. 분산과 편파성의 트레이드오프(Tradeoff) 딜레마 분산과 표준편차가 모두 낮은 경우 (좌측 상단) 거의 존재하지 않는, 가장 이상적인 상황이다. 타깃 값에 높은 정확도를 가지고 적중함을 확인할 수 있다. 분산과 표준편차가 모두 높은 경우 (우측 하단) 예측값이 한 곳에 모이지도 않았고 타깃 값에.. ML&DL/ML DL 기본기 2021. 12. 7. 모델 적합성 평가 및 실험설계 모델의 적합성 평가 및 실험설계 0. 용어 설명 MSE(mean squared error) 평균 제곱 오차. 예측값과 실제값 사이의 오차(잔차)의 제곱에 대한 평균 회귀 모형의 예측력을 평가하기 위해 예측 값과 실제 값이 유사한지 평가할 수 있는 척도로, 숫자가 작을수록 더욱 정확한 모델이라고 판단한다. 이외에도 Average error, MAE, MAPE, RMSE 등이 있다. Overfitting 과적합. 머신러닝에서, 학습 데이터를 과하게 학습하는 것을 뜻한다. 실제 데이터의 부분집합인 학습 데이터에 대해서는 오차가 감소하지만, 실제 데이터에 대해서는 오차가 증가하게 된다. Underfitting 과적합의 반대 개념. 과소 적합이라고도 불림. 학습 데이터가 충분치 않거나 학습이 제대로 이루어지지 않.. ML&DL/ML DL 기본기 2021. 12. 5. 이전 1 2 다음