UCB(Upper Confidence Bound) 알고리즘 이해하기
강화 학습과 멀티 암드 밴딧 문제에서 자주 등장하는 UCB(Upper Confidence Bound) 알고리즘은 탐색과 활용의 균형을 맞추는 데 중요한 역할을 한다. 특히, 보상을 최대화해야 하는 환경에서 효율적으로 동작하며, 불확실성을 고려한 의사 결정을 가능하게 한다.
UCB 알고리즘
UCB 알고리즘은 주어진 선택지 중 최적의 선택을 찾기 위해 설계되었다. 단순한 탐욕적(greedy) 방법과 달리, 이 알고리즘은 선택지가 충분히 탐색되지 않았을 가능성을 고려한다. 즉, 평균 보상이 높을 뿐만 아니라 신뢰 구간이 넓은 선택지를 좀 더 자주 선택하면서 최적의 행동을 찾아가는 방식이다.
이를 위해 UCB는 선택지의 평균 보상뿐만 아니라 선택된 횟수를 바탕으로 보상의 불확실성을 추정하는 보정 항을 추가한다. 이 보정 항은 선택된 횟수가 적을수록 더 커지며, 점차 선택 횟수가 증가하면 감소하는 특성을 가진다. 이를 통해 적절한 탐색과 활용의 균형을 맞출 수 있다.
UCB 알고리즘은 다음과 같은 수식을 따른다.
$$A_t = argmax_{i} ( \bar{X}_i + c \sqrt{\frac{\ln t}{N_i}})$$
- $A_t$ : t번째 스텝에서 선택할 행동
- $\bar{X}_i$ : 선택지 i의 현재까지의 평균 보상
- $c$ : 탐색을 조절하는 상수
- $N_i$ : 선택지 i가 선택된 횟수
- $t$ : 현재까지의 총 선택 횟수
이 수식을 보면, 평균 보상($\bar{X}_i$)과 탐색 보정 항($c \sqrt{\frac{\ln t}{N_i}}$)의 합이 가장 큰 선택지를 고르게 된다. 탐색 보정 항이 높으면 아직 충분히 선택되지 않은 옵션이 더 자주 선택되도록 유도된다.
UCB는 다음과 같은 이유로 널리 사용된다.
- 탐색과 활용의 균형: 신뢰 구간을 활용해 불확실성이 높은 선택지를 탐색하는 동시에, 보상이 높은 선택지를 빠르게 학습한다.
- 수학적 성질 보장: 이론적으로 최적 해에 가까운 수렴 속도를 보장할 수 있다.
- 단순한 구현: 비교적 간단한 수식으로 멀티 암드 밴딧 문제를 해결할 수 있다.
UCB와 다른 탐색 기법 비교
UCB는 그리디 방법, 입실론-그리디 방법과 비교될 수 있다. 그리디 방법은 현재까지의 평균 보상이 가장 높은 선택지만 고려하기 때문에 최적 해를 찾지 못할 가능성이 크다. 반면, 입실론-그리디 방법은 일정 확률로 무작위 탐색을 수행하지만, 이 확률을 적절하게 조정하지 않으면 비효율적인 탐색을 하거나 너무 빨리 활용으로 수렴하는 문제가 생긴다.
UCB는 신뢰 구간을 기반으로 한 탐색을 수행하기 때문에 탐색이 효율적이며, 지나친 무작위성 없이 선택을 조정할 수 있다는 장점이 있다.
이처럼 UCB 알고리즘은 멀티 암드 밴딧 문제를 해결하는 데 강력한 도구로 활용된다. 신뢰 구간을 활용해 탐색과 활용의 균형을 맞추는 방식은 실용적이며, 다양한 응용 사례에서 효과적으로 사용된다. 특히, 보상이 불확실한 환경에서 최적의 선택을 해야 하는 문제를 해결하는 데 강력한 방법론으로 자리 잡고 있다.
'ML&DL > 강화학습' 카테고리의 다른 글
가치함수와 벨만 방정식 (0) | 2025.03.24 |
---|---|
마르코프 결정 과정 (Markov decision process) 이해하기 (0) | 2025.03.21 |
Non-stationary에서의 점진적 Update (0) | 2025.03.19 |
강화학습의 장점과 한계, 그리고 해결 방안 (0) | 2025.03.17 |
강화학습 소개 (0) | 2025.03.16 |
댓글