모델 기반 vs 모델 프리
강화학습에서 모델은 환경의 동작을 예측하는 역할을 한다. 즉, 특정 상태에서 행동을 취했을 때 다음 상태와 보상을 어떻게 받을지 예측하는 기능을 가지고 있다. 이번 게시물에서는 이러한 모델의 사용 여부에 따른 강화학습의 분류를 알아보고, 각 분류별 대표적인 사례를 확인해보도록 하자.
Model-based RL
모델 기반 강화학습은 환경의 동작을 예측할 수 있는 모델을 학습하거나 사전에 제공 받아 이를 활용해 학습하는 방식으로, 에이전트는 환경과 직접 상호작용 하기 전에 모델을 사용해 시뮬레이션을 수행하고 최적의 행동을 결정한다. 모델은 일반적으로 다음 상태를 예측하는 확률 분포인 상태 전이 확률(Transition Probability) PP와 다음 보상을 예측하는 보상 함수(Reward function) RR을 포함하여 정의된다.
상태 전이 확률 PP은 현재 상태 St=sSt=s에서 행동 At=aAt=a를 했을 때, 다음 상태 St+1=s′으로 전이될 확률을 의미하며, 이는 환경의 동작을 모델링하는 핵심 요소 중 하나이다.
Pass′=P[St+1=s′|St=s,At=a]
보상 함수 R은 현재 상태 St=s에서 행동 At=a를 했을 때, 받게 될 보상의 기댓값을 의미하며, 강화학습에서 목표를 최적화하는 중요한 요소인 보상을 예측하는 역할을 한다.
Ras=E[St+1=s′|St=s,At=a]
이러한 모델의 존재로 인해 환경을 직접 경험하지 않아도 학습이 가능하며 데이터 샘플 효율성이 높으며 계획(Planning) 기법을 활용하여 최적의 행동을 찾을 수 있다. 예를 들어, 체스에서 현재 가능한 모든 경우의 수를 시뮬레이션 할 수 있다면, 에이전트는 매 순간 최선의 선택을 할 수 있게 된다. 다만, 환경이 바뀌면 모델을 다시 학습해야 하며, 모델을 정확하게 정의하는 것이 어렵고 이 정확성에 따라 학습 성능이 크게 달라진다는 문제점이 존재한다.
대표적인 방법으로는 환경의 전이 확률과 보상을 알고 있을 때 최적 정책을 찾는 동적 계획법(Dynamic Programming, DP)과 시뮬레이션을 통해 가능한 미래의 상태를 탐색하여 최적의 행동을 결정하는 몬테카를로 트리 서치(Monte Carlo Tree Search) 등이 있다.
Model-free RL
반대로 모델 프리 강화학습은 환경의 동작을 이해하는 모델을 사용하지 않고, 에이전트가 직접 환경과 상호작용하며 최적의 행동을 학습하는 방식이다. 즉, 에이전트는 경험을 통해 보상을 최대화하는 행동을 학습한다.
이는 모델 기반 방식과 달리 환경의 전이 확률을 몰라도 학습이 가능하며 실전 경험을 바탕으로 학습하기 때문에 환경이 조금씩 변해도 적응이 가능하다는 장점을 가진다. 또한 모델을 만드는 부담이 없고 복잡한 환경에서도 잘 동작한다는 장점이 있다. 예를 들어, 시뮬레이션 상에서 로봇이 직접 최적의 보행 패턴을 학습하면 실제 환경에서도 강건하게 보행이 가능하게 되는 사례를 들 수 있다. 그러나 데이터 효율성이 낮고 학습 속도가 느릴 수 있다는 단점이 존재한다.
대표적으로는 행동 가치 함수를 업데이트하면서 최적의 정책을 학습하는 Q-learning 방식, On-policy 방식으로 정책을 유지하며 학습하는 SARSA 방식, 행동 가치 함수 대신 정책 자체를 최적화하는 Policy Gradient 계열 방식들이 존재한다.
모델은 그럼 무조건 상태 전이 확률과 보상 함수를 포함하는 개념일까?
답부터 말하자면, No이다. 모델은 환경의 동작을 예측하는 함수이며 그 형태는 여러 가지가 될 수 있다.
1) 확률적 모델 (Probabilistic Model)
앞서 설명한 가장 일반적인 형태로, 상태 전이 확률 Pass′와 보상 함수 Ras를 사용하여 환경을 예측하는 방식으로, MDP와 같은 전통적인 RL 환경에서 주로 사용된다.
2) 결정론적 모델 (Deterministic Model)
앞서 확률을 사용한 확률적 모델과 달리, 다음 상태와 보상을 직접 예측하는 함수를 모델로 사용하는 방식이다. 예를 들어, 신경망을 활용해 f(s,a)→s′을 학습하는 방식 등이 있다.
3) 환경의 특정 요소만 모델링
모델이 환경 전체를 예측할 필요가 없는 경우, 즉 환경의 전체적인 상태 전이를 모델링 할 필요가 없는 경우, 일부만 모델링할 수도 있다. 예를 들어, 회피 게임에서 상대의 행동만 예측하는 등의 시나리오를 생각해볼 수 있다.
4) 시뮬레이션 기반 모델
상태 전이 확률을 별도로 정의하지 않고, 물리 시뮬레이터 자체를 모델로 간주할 수도 있다. 즉, 상태 전이 확률을 수식으로 명확하게 정의하지 않더라도, 환경을 실핼하여 결과를 얻는 방식이 모델이 될 수도 있다.
'ML&DL > 강화학습' 카테고리의 다른 글
벨만 방정식 (0) | 2025.04.07 |
---|---|
강화학습의 구성 요소와 구분 (0) | 2025.03.26 |
가치함수와 벨만 방정식 (0) | 2025.03.24 |
마르코프 결정 과정 (Markov decision process) 이해하기 (0) | 2025.03.21 |
UCB(Upper Confidence Bound) 알고리즘 이해하기 (0) | 2025.03.20 |
댓글