성장通

빈도주의 V.S. 베이즈주의 (feat. 조건부독립) 본문

ML&DL/머신러닝을 위한 수학

빈도주의 V.S. 베이즈주의 (feat. 조건부독립)

백악기작은펭귄 2024. 1. 3. 14:29

빈도주의 V.S. 베이즈주의


빈도주의(Freqatist)

빈도주의(Freqatist)는 철저히 데이터에 기반을 둔 개념으로, 확률을 사건의 빈도로 보는 주의를 의미한다. 빈도론자들은 특정한 사건이 얼만큼 빈번하게 반복되어 발생하는가를 관찰하고 가설을 세워 모델을 만들고 검증한다. 예를 들어, '주사위를 던질 때 6이 나올 확률'을 계산하기 위해 무수히 많이 주사위를 굴려보고 그 통계를 확인할 수 있다. 빈도주의에서는 이와 같이, 특정 사건의 확률을 계산하기 위해 가장 이상적인 방법은 무수한 시행이라고 주장한다. 다만, 이와 같은 방법은 물리적 한계가 존재할 뿐만 아니라 실제 실험에 적용되는 외부 요인이 너무나 많기 때문에 실제로 사용하기에는 무리가 있는 방법이다.

 

여러 번의 실험 및 관찰을 통해 알게된 사건의 확률을 검점하는 빈도주의는 해당 사건이 독립적이고 반복적이며 사건의 분포가 정규 분포를 따를 때 사용하는 것이 좋다. 또한 빈도주의는 베이즈주의에 비해 비교적 간단한 계산을 요구하므로 손쉬운 처리가 가능하다는 것이 장점이다.

 

하지만 사전에 충분한 관찰 지식이 없거나 부족한 경우, 불확실하고 신뢰할 수 없는 결과를 낼 수 있다. (i.e. 주사위를 10번 굴려봤더니 6이 1번 나왔으므로 6이 나올 확률은 1/10이다)


베이즈주의(Bayesianism)

베이즈주의(Bayesianism)는 빈도주의에 대비되는 개념으로, 확률을 사건 발생에 대한 믿음의 정도로 바라보는 관점이다. 베이즈주의는 기본적으로 다음과 같은 베이즈 정리(Bayes' Theorem)에 근거한다.

 

$$
P(B|A) = {P(A|B) P(B) \over P(A)} = {P(A\cap B)\over P(A)}
$$

 

위 식에서 $P(B|A)$는 사건 A가 발생했을 때(현재 가지고 있는 정보) 사건 B가 발생할 조건부확률로, $P(A)$를 사전확률(prior), $P(B)$를 증거(evidence), $P(A|B)$를 사후확률(posterior)이라고 하며 $P(B|A)$를 가능도 혹은 우도(likelihood)라고 한다.

즉, 베이즈 정리는 우도, 사전확률, 증거를 이용해서 사후확률을 계산하는 과정이며, 빈도주의와 달리 적은 사전관찰로도 미래의 확률을 예측할 수 있다. 이러한 특성은 확률의 불확실성과 관련 있는 것으로, 여러 가지 외부 확률 및 데이터를 바탕으로 사전확률을 모델링하고 보정하는 과정이다.

 

베이즈 정리는 확률 모델이 명확히 설정되어 있다면 가설의 타당성이 높아지지만, 사전지식에 대한 모델링이 어렵고 이에 따라 사후결과과 크게 달라질 수 있다.


+) Independence & Conditional Independence

고등학교 과정에서 우리는 두 사건 A, B가 서로 독립적이라면 다음 식이 성립한다고 배웠다.

 

$$
P(A\cap B) = P(A)P(B)
$$

 

베이즈 정리 공식을 살펴보면 $P(B|A)= {P(A\cap B)\over P(A)}$를 볼 수 있는데, 위 식에 의해 두 사건이 독립적일 때는 양변이 동치가 됨을 알 수 있다. 이러한 상황을 Independence라고 한다.

 

그런데 만약 $x_1$, $x_2$ 사건은 독립적이지 않지만 그 외 다른 확률이 개입하면 독립이 된다면 어떨까? 이러한 상황을 조건부독립(Conditional Independence)이라고 한다. 이는 다음과 같이 나타낸다.

 

$$
P(x_1,x_2|y) = P(x_1|y)
$$

 

즉, $P(x_1|x_2) \neq P(x_1)$이지만 y가 존재하는 제한적 조건 상에서는 $x_1$과 $x_2$가 독립임이 성립하는 것을 의미한다.