ML&DL/강화학습

UCB(Upper Confidence Bound) 알고리즘 이해하기

백악기작은펭귄 2025. 3. 20.
반응형

UCB(Upper Confidence Bound) 알고리즘 이해하기

강화 학습과 멀티 암드 밴딧 문제에서 자주 등장하는 UCB(Upper Confidence Bound) 알고리즘은 탐색과 활용의 균형을 맞추는 데 중요한 역할을 한다. 특히, 보상을 최대화해야 하는 환경에서 효율적으로 동작하며, 불확실성을 고려한 의사 결정을 가능하게 한다.

 

UCB 알고리즘

UCB 알고리즘은 주어진 선택지 중 최적의 선택을 찾기 위해 설계되었다. 단순한 탐욕적(greedy) 방법과 달리, 이 알고리즘은 선택지가 충분히 탐색되지 않았을 가능성을 고려한다. 즉, 평균 보상이 높을 뿐만 아니라 신뢰 구간이 넓은 선택지를 좀 더 자주 선택하면서 최적의 행동을 찾아가는 방식이다.

 

이를 위해 UCB는 선택지의 평균 보상뿐만 아니라 선택된 횟수를 바탕으로 보상의 불확실성을 추정하는 보정 항을 추가한다. 이 보정 항은 선택된 횟수가 적을수록 더 커지며, 점차 선택 횟수가 증가하면 감소하는 특성을 가진다. 이를 통해 적절한 탐색과 활용의 균형을 맞출 수 있다.

 

UCB 알고리즘은 다음과 같은 수식을 따른다.

 

$$A_t = argmax_{i} ( \bar{X}_i + c \sqrt{\frac{\ln t}{N_i}})$$

 

  • $A_t$ : t번째 스텝에서 선택할 행동
  • $\bar{X}_i$ : 선택지 i의 현재까지의 평균 보상
  • $c$ : 탐색을 조절하는 상수
  • $N_i$ : 선택지 i가 선택된 횟수
  • $t$ : 현재까지의 총 선택 횟수

 

이 수식을 보면, 평균 보상($\bar{X}_i$)과 탐색 보정 항($c \sqrt{\frac{\ln t}{N_i}}$)의 합이 가장 큰 선택지를 고르게 된다. 탐색 보정 항이 높으면 아직 충분히 선택되지 않은 옵션이 더 자주 선택되도록 유도된다.

 

UCB는 다음과 같은 이유로 널리 사용된다.

 

  • 탐색과 활용의 균형: 신뢰 구간을 활용해 불확실성이 높은 선택지를 탐색하는 동시에, 보상이 높은 선택지를 빠르게 학습한다.
  • 수학적 성질 보장: 이론적으로 최적 해에 가까운 수렴 속도를 보장할 수 있다.
  • 단순한 구현: 비교적 간단한 수식으로 멀티 암드 밴딧 문제를 해결할 수 있다.

 

UCB와 다른 탐색 기법 비교

UCB는 그리디 방법, 입실론-그리디 방법과 비교될 수 있다. 그리디 방법은 현재까지의 평균 보상이 가장 높은 선택지만 고려하기 때문에 최적 해를 찾지 못할 가능성이 크다. 반면, 입실론-그리디 방법은 일정 확률로 무작위 탐색을 수행하지만, 이 확률을 적절하게 조정하지 않으면 비효율적인 탐색을 하거나 너무 빨리 활용으로 수렴하는 문제가 생긴다.

 

UCB는 신뢰 구간을 기반으로 한 탐색을 수행하기 때문에 탐색이 효율적이며, 지나친 무작위성 없이 선택을 조정할 수 있다는 장점이 있다.

 

이처럼 UCB 알고리즘은 멀티 암드 밴딧 문제를 해결하는 데 강력한 도구로 활용된다. 신뢰 구간을 활용해 탐색과 활용의 균형을 맞추는 방식은 실용적이며, 다양한 응용 사례에서 효과적으로 사용된다. 특히, 보상이 불확실한 환경에서 최적의 선택을 해야 하는 문제를 해결하는 데 강력한 방법론으로 자리 잡고 있다.

반응형

댓글