벨만방정식1

가치함수와 벨만 방정식 가치함수와 벨만 방정식이전 게시글 말미에서 가치함수에 대해 간단히 설명했다. 가치함수는 미래 보상의 기댓값으로, 어떤 행동을 했을 때 어떤 보상을 받게 될지 예측하는 개념이다. 이 가치함수는 다시 벨만 방정식이라는 개념과 연결되는데, 이는 강화학습이 풀고자 하는 방정식으로, 강화학습의 핵심 중 하나이다. 이번 게시글에서는 이 가치함수와 벨만 방정식에 대해서 알아보겠다. 가치함수가치함수(Value Function)는 앞으로 받게 될 보상과 관련된 개념이라고 했다. 그런데 어떻게 받지 않은 보상에 대해서 이야기할 수 있을까? 현재 시간 $t$로부터 에이전트가 행동을 하면서 받을 보상들을 단순히 합한다면 다음과 같이 나타낼 수 있다 (시간 $t$에서 수행한 행동에 대한 보상은 다음 시간 즉, $R_{t+1}$.. ML&DL/강화학습 2025. 3. 24.

이전 1 다음

티스토리툴바