ML&DL/ML DL 기본기

이진 분류 모델과 베르누이 분포

백악기작은펭귄 2022. 7. 6.

이진 분류 모델과 베르누이 분포

이진 분류 문제는 동전 던지기처럼 두 가지 종류의 결과값을 가지는 문제에서 각각의 확률을 예측하는 문제이다. 이때 각 결과가 나올 확률의 확률분포는 베르누이 분포(Bernoulli distribution)로 정의되므로, 이진 분류 모델은 베르누이 분포를 예측하는 모델이라고 할 수 있다.

베르누이 분포

베르누이 분포는 두 종류의 사건이 발생할 확률을 나타내며 다음과 같은 식으로 정의된다.

$$
p(x; \mu) \mu^x(1-\mu)^{1-x},\ x\in 0,1
$$

$x$는 확률변수로 0 또는 1의 값을 가지며 $x=0$은 사건 1을, $x=1$은 사건 2를 나타낸다. 또한 $\mu$는 사건 발생확률을 나타내며, 그 중 $x=1$일 때의 확률 즉, 사건 2의 발생확률을 나타낸다. 이진 분류 문제는 무조건 결과가 사건 1 또는 사건 2이므로 $1-\mu$는 사건 1의 발생확률을 나타낸다.

동전 던지기를 예로 들면, $x=0$을 동전 뒷면이 나오는 사건, $x=1$을 동전 앞면이 나오는 사건이라 할 때 $\mu$는 동전 앞면이 나올 확률을, $1-\mu$는 동전 뒷면이 나올 확률을 나타낸다. 정상적인 동전이라면 수행을 무한히 반복했을 때 각 면이 나올 확률은 1/2이므로 다음과 같이 표현할 수 있다.

$$
p(x=1;\mu) = \mu = {1\over 2} \qquad
p(x=0;1-\mu) = 1-\mu = {1\over 2}
$$

베르누이 분포의 확률 질량 함수의 그래프는 다음과 같이 두 사건에 대한 확률을 나타내는 막대 그래프로 표현한다.

확률 모델 정의

관측 데이터는 입력 데이터 $x_i$와 타깃 $t_i\in 0,1$으로 이루어진 pair로 구성되며 $\mathfrak{D}={(x_i, t_i): i=1, \ ...,\ N}$와 같이 표현할 수 있다. 이진 분류 모델은 타깃 $t_i$의 확률분포(베르누이 분포) 파라미터 $\mu$를 예측한다. 모델은 $x_i$를 입력으로 받아 $\mu(x_i;\theta)$를 출력하며, 다음과 같은 베르누이 분포를 예측한다.

$$
p(t_i|x_i;\theta)=\mathfrak{Bern}(t_i; \mu(x_i;\theta)) = \mu(x_i;\theta)^{t_i}(1-\mu(x_i;\theta))^{1-t_i}
$$

출력 계층의 활성 함수

폐의 엑스레이 사진을 입력으로 하여 COVID-19 감염 여부를 판별하는 모델이 있다고 가정하자. 모델은 이미지를 기준으로 감염 확률 $\mu$를 예측하게 되는데 이때 신경망 모델은 감염 수치를 점수(score) 또는 로짓(logit)으로 예측하고 이를 활성 함수를 통해 베르누이 확률분포의 파라미터 $\mu$로 변환한다. 여기서 활성 함수는 값을 고정 범위로 변환하는 스쿼싱(squashing) 함수인 시그모이드(sigmoid) 함수를 사용한다.

로짓 함수

로짓은 로지스틱(logistic) 함수의 역함수로, 확률 $p$에 대해 다음과 같이 정의되며, 로그 오즈(log odds)라고도 한다.

$$
logit(p)=log({p\over{1-p}})
$$

오즈 ${p\over{1-p}}$는 사건이 발생할 확률 $p$를 발생하지 않을 확률 $1-p$로 나눠준 비율이며, 로그 오즈는 로지스틱 함수의 입력으로 볼 수 있다.

'ML&DL > ML DL 기본기' 카테고리의 다른 글

최적화 알고리즘 - SGD, 네스테로프, AdaGrad, RMSProp, Adam (0)	2024.01.06
다중 분류 모델과 카테고리 분포 (0)	2022.07.13
분류와 회귀 (0)	2022.06.22
범용 함수 근사기로서의 신경망 (0)	2022.06.15
순방향 신경망 구조 (0)	2022.06.08

이진 분류 모델과 베르누이 분포

이진 분류 모델과 베르누이 분포

베르누이 분포

확률 모델 정의

출력 계층의 활성 함수

로짓 함수

'ML&DL > ML DL 기본기' 카테고리의 다른 글

댓글

티스토리툴바