이진 분류 모델과 베르누이 분포
이진 분류 문제는 동전 던지기처럼 두 가지 종류의 결과값을 가지는 문제에서 각각의 확률을 예측하는 문제이다. 이때 각 결과가 나올 확률의 확률분포는 베르누이 분포(Bernoulli distribution)로 정의되므로, 이진 분류 모델은 베르누이 분포를 예측하는 모델이라고 할 수 있다.
베르누이 분포
베르누이 분포는 두 종류의 사건이 발생할 확률을 나타내며 다음과 같은 식으로 정의된다.
$$
p(x; \mu) \mu^x(1-\mu)^{1-x},\ x\in 0,1
$$
$x$는 확률변수로 0 또는 1의 값을 가지며 $x=0$은 사건 1을, $x=1$은 사건 2를 나타낸다. 또한 $\mu$는 사건 발생확률을 나타내며, 그 중 $x=1$일 때의 확률 즉, 사건 2의 발생확률을 나타낸다. 이진 분류 문제는 무조건 결과가 사건 1 또는 사건 2이므로 $1-\mu$는 사건 1의 발생확률을 나타낸다.
동전 던지기를 예로 들면, $x=0$을 동전 뒷면이 나오는 사건, $x=1$을 동전 앞면이 나오는 사건이라 할 때 $\mu$는 동전 앞면이 나올 확률을, $1-\mu$는 동전 뒷면이 나올 확률을 나타낸다. 정상적인 동전이라면 수행을 무한히 반복했을 때 각 면이 나올 확률은 1/2이므로 다음과 같이 표현할 수 있다.
$$
p(x=1;\mu) = \mu = {1\over 2} \qquad
p(x=0;1-\mu) = 1-\mu = {1\over 2}
$$
베르누이 분포의 확률 질량 함수의 그래프는 다음과 같이 두 사건에 대한 확률을 나타내는 막대 그래프로 표현한다.
확률 모델 정의
관측 데이터는 입력 데이터 $x_i$와 타깃 $t_i\in 0,1$으로 이루어진 pair로 구성되며 $\mathfrak{D}={(x_i, t_i): i=1, \ ...,\ N}$와 같이 표현할 수 있다. 이진 분류 모델은 타깃 $t_i$의 확률분포(베르누이 분포) 파라미터 $\mu$를 예측한다. 모델은 $x_i$를 입력으로 받아 $\mu(x_i;\theta)$를 출력하며, 다음과 같은 베르누이 분포를 예측한다.
$$
p(t_i|x_i;\theta)=\mathfrak{Bern}(t_i; \mu(x_i;\theta)) = \mu(x_i;\theta)^{t_i}(1-\mu(x_i;\theta))^{1-t_i}
$$
출력 계층의 활성 함수
폐의 엑스레이 사진을 입력으로 하여 COVID-19 감염 여부를 판별하는 모델이 있다고 가정하자. 모델은 이미지를 기준으로 감염 확률 $\mu$를 예측하게 되는데 이때 신경망 모델은 감염 수치를 점수(score) 또는 로짓(logit)으로 예측하고 이를 활성 함수를 통해 베르누이 확률분포의 파라미터 $\mu$로 변환한다. 여기서 활성 함수는 값을 고정 범위로 변환하는 스쿼싱(squashing) 함수인 시그모이드(sigmoid) 함수를 사용한다.
로짓 함수
로짓은 로지스틱(logistic) 함수의 역함수로, 확률 $p$에 대해 다음과 같이 정의되며, 로그 오즈(log odds)라고도 한다.
$$
logit(p)=log({p\over{1-p}})
$$
오즈 ${p\over{1-p}}$는 사건이 발생할 확률 $p$를 발생하지 않을 확률 $1-p$로 나눠준 비율이며, 로그 오즈는 로지스틱 함수의 입력으로 볼 수 있다.
'ML&DL > ML DL 기본기' 카테고리의 다른 글
최적화 알고리즘 - SGD, 네스테로프, AdaGrad, RMSProp, Adam (0) | 2024.01.06 |
---|---|
다중 분류 모델과 카테고리 분포 (0) | 2022.07.13 |
분류와 회귀 (0) | 2022.06.22 |
범용 함수 근사기로서의 신경망 (0) | 2022.06.15 |
순방향 신경망 구조 (0) | 2022.06.08 |
댓글