벨만 기대 방정식1 벨만 방정식 벨만 방정식벨만 방정식은 결국 가치 함수를 재귀적으로 나타낸 것이다. 이 벨만 방정식에는 벨만 기대 방정식과 벨만 최적 방정식이 있는데, 이 둘을 살펴보고 이터레이션이 어떻게 일어나는지 알아보도록 하자. 벨만 기대 방정식가치함수는 어떤 상태의 가치, 즉 에이전트가 그 상태로 갈 경우에 얻게 될 보상의 합에 대한 기댓값을 나타낸다. 이는 정책 $\pi$에 영향을 받으며 식으로는 $v_\pi(s) = E_\pi[R_{t+1} + \gamma v_\pi(S_{t+1})|S_t=s]$로 나타낸다. 이와 같은 방정식을 벨만 기대 방정식(Bellman Expectation Equation)이라고 하며, 현재 상태의 가치함수와 다음 상태의 가치함수 사이의 관계를 식으로 나타낸 것이다. 이는 가치함수 값의 지속적인 업.. ML&DL/강화학습 2025. 4. 7. 이전 1 다음