Markov Decision Process1 마르코프 결정 과정 (Markov decision process) 이해하기 마르코프 결정 과정 (Markov decision process) 이해하기강화학습을 본격적으로 공부하기에 앞서 우리는 순차적 행동 결정 문제(Sequential Decision Making Problem)에 대해 이해해야 할 필요가 있다. 순차적 행동 결정 문제란 에이전트가 장기적인 보상을 최대화하기 위해 환경과 상호작용하며 단계별로 최적의 행동을 선택하는 문제를 의미한다. 그리고 이 순차적 행동 결정 문제는 마르코프 결정 과정 (Markov decision process)으로 수학적으로 모델링되며, 상태(State), 행동(Action), 보상(Reward), 상태 전이 확률(State Transition Probability)을 통해 최적 정책을 찾는 문제로 표현된다. 이번 글에서는 이 MDP에 대해.. ML&DL/강화학습 2025. 3. 21. 이전 1 다음