UCB1 UCB(Upper Confidence Bound) 알고리즘 이해하기 UCB(Upper Confidence Bound) 알고리즘 이해하기강화 학습과 멀티 암드 밴딧 문제에서 자주 등장하는 UCB(Upper Confidence Bound) 알고리즘은 탐색과 활용의 균형을 맞추는 데 중요한 역할을 한다. 특히, 보상을 최대화해야 하는 환경에서 효율적으로 동작하며, 불확실성을 고려한 의사 결정을 가능하게 한다. UCB 알고리즘UCB 알고리즘은 주어진 선택지 중 최적의 선택을 찾기 위해 설계되었다. 단순한 탐욕적(greedy) 방법과 달리, 이 알고리즘은 선택지가 충분히 탐색되지 않았을 가능성을 고려한다. 즉, 평균 보상이 높을 뿐만 아니라 신뢰 구간이 넓은 선택지를 좀 더 자주 선택하면서 최적의 행동을 찾아가는 방식이다. 이를 위해 UCB는 선택지의 평균 보상뿐만 아니라 선택된.. ML&DL/강화학습 2025. 3. 20. 이전 1 다음