model2 모델 기반 vs 모델 프리 모델 기반 vs 모델 프리강화학습에서 모델은 환경의 동작을 예측하는 역할을 한다. 즉, 특정 상태에서 행동을 취했을 때 다음 상태와 보상을 어떻게 받을지 예측하는 기능을 가지고 있다. 이번 게시물에서는 이러한 모델의 사용 여부에 따른 강화학습의 분류를 알아보고, 각 분류별 대표적인 사례를 확인해보도록 하자.Model-based RL모델 기반 강화학습은 환경의 동작을 예측할 수 있는 모델을 학습하거나 사전에 제공 받아 이를 활용해 학습하는 방식으로, 에이전트는 환경과 직접 상호작용 하기 전에 모델을 사용해 시뮬레이션을 수행하고 최적의 행동을 결정한다. 모델은 일반적으로 다음 상태를 예측하는 확률 분포인 상태 전이 확률(Transition Probability) $\mathcal{P}$와 다음 보상을 예측하.. ML&DL/강화학습 2025. 3. 28. 강화학습의 구성 요소와 구분 강화학습의 구성 요소와 구분강화학습은 에이전트(Agent)가 환경(Environment)과 상호작용하며 누적 보상(Cumulative Reward)을 최대화하도록 학습한다. 즉, 즉각적인 보상(Immediate Reward)뿐만 아니라 장기적인 보상까지 고려해야 한다. 이를 위해 강화학습에서는 몇 가지 중요한 가정이 성립해야 한다. 이번 포스팅에서는 이 가정에 대해서 살펴보고, 강화학습의 구성 요소에 대해서 알아보자. 강화학습의 핵심 가정: Reward Hypothesis & Markov Property1) Reward Hypothesis 강화학습의 핵심 가정인 Reward Hypothesis는 '모든 목표(Goals)는 기대 누적 보상(Expected cumulative reward)의 극대화로 표현될.. ML&DL/강화학습 2025. 3. 26. 이전 1 다음