강화학습11 벨만 방정식 벨만 방정식벨만 방정식은 결국 가치 함수를 재귀적으로 나타낸 것이다. 이 벨만 방정식에는 벨만 기대 방정식과 벨만 최적 방정식이 있는데, 이 둘을 살펴보고 이터레이션이 어떻게 일어나는지 알아보도록 하자. 벨만 기대 방정식가치함수는 어떤 상태의 가치, 즉 에이전트가 그 상태로 갈 경우에 얻게 될 보상의 합에 대한 기댓값을 나타낸다. 이는 정책 $\pi$에 영향을 받으며 식으로는 $v_\pi(s) = E_\pi[R_{t+1} + \gamma v_\pi(S_{t+1})|S_t=s]$로 나타낸다. 이와 같은 방정식을 벨만 기대 방정식(Bellman Expectation Equation)이라고 하며, 현재 상태의 가치함수와 다음 상태의 가치함수 사이의 관계를 식으로 나타낸 것이다. 이는 가치함수 값의 지속적인 업.. ML&DL/강화학습 2025. 4. 7. 모델 기반 vs 모델 프리 모델 기반 vs 모델 프리강화학습에서 모델은 환경의 동작을 예측하는 역할을 한다. 즉, 특정 상태에서 행동을 취했을 때 다음 상태와 보상을 어떻게 받을지 예측하는 기능을 가지고 있다. 이번 게시물에서는 이러한 모델의 사용 여부에 따른 강화학습의 분류를 알아보고, 각 분류별 대표적인 사례를 확인해보도록 하자.Model-based RL모델 기반 강화학습은 환경의 동작을 예측할 수 있는 모델을 학습하거나 사전에 제공 받아 이를 활용해 학습하는 방식으로, 에이전트는 환경과 직접 상호작용 하기 전에 모델을 사용해 시뮬레이션을 수행하고 최적의 행동을 결정한다. 모델은 일반적으로 다음 상태를 예측하는 확률 분포인 상태 전이 확률(Transition Probability) $\mathcal{P}$와 다음 보상을 예측하.. ML&DL/강화학습 2025. 3. 28. 강화학습의 구성 요소와 구분 강화학습의 구성 요소와 구분강화학습은 에이전트(Agent)가 환경(Environment)과 상호작용하며 누적 보상(Cumulative Reward)을 최대화하도록 학습한다. 즉, 즉각적인 보상(Immediate Reward)뿐만 아니라 장기적인 보상까지 고려해야 한다. 이를 위해 강화학습에서는 몇 가지 중요한 가정이 성립해야 한다. 이번 포스팅에서는 이 가정에 대해서 살펴보고, 강화학습의 구성 요소에 대해서 알아보자. 강화학습의 핵심 가정: Reward Hypothesis & Markov Property1) Reward Hypothesis 강화학습의 핵심 가정인 Reward Hypothesis는 '모든 목표(Goals)는 기대 누적 보상(Expected cumulative reward)의 극대화로 표현될.. ML&DL/강화학습 2025. 3. 26. 가치함수와 벨만 방정식 가치함수와 벨만 방정식이전 게시글 말미에서 가치함수에 대해 간단히 설명했다. 가치함수는 미래 보상의 기댓값으로, 어떤 행동을 했을 때 어떤 보상을 받게 될지 예측하는 개념이다. 이 가치함수는 다시 벨만 방정식이라는 개념과 연결되는데, 이는 강화학습이 풀고자 하는 방정식으로, 강화학습의 핵심 중 하나이다. 이번 게시글에서는 이 가치함수와 벨만 방정식에 대해서 알아보겠다. 가치함수가치함수(Value Function)는 앞으로 받게 될 보상과 관련된 개념이라고 했다. 그런데 어떻게 받지 않은 보상에 대해서 이야기할 수 있을까? 현재 시간 $t$로부터 에이전트가 행동을 하면서 받을 보상들을 단순히 합한다면 다음과 같이 나타낼 수 있다 (시간 $t$에서 수행한 행동에 대한 보상은 다음 시간 즉, $R_{t+1}$.. ML&DL/강화학습 2025. 3. 24. 마르코프 결정 과정 (Markov decision process) 이해하기 마르코프 결정 과정 (Markov decision process) 이해하기강화학습을 본격적으로 공부하기에 앞서 우리는 순차적 행동 결정 문제(Sequential Decision Making Problem)에 대해 이해해야 할 필요가 있다. 순차적 행동 결정 문제란 에이전트가 장기적인 보상을 최대화하기 위해 환경과 상호작용하며 단계별로 최적의 행동을 선택하는 문제를 의미한다. 그리고 이 순차적 행동 결정 문제는 마르코프 결정 과정 (Markov decision process)으로 수학적으로 모델링되며, 상태(State), 행동(Action), 보상(Reward), 상태 전이 확률(State Transition Probability)을 통해 최적 정책을 찾는 문제로 표현된다. 이번 글에서는 이 MDP에 대해.. ML&DL/강화학습 2025. 3. 21. UCB(Upper Confidence Bound) 알고리즘 이해하기 UCB(Upper Confidence Bound) 알고리즘 이해하기강화 학습과 멀티 암드 밴딧 문제에서 자주 등장하는 UCB(Upper Confidence Bound) 알고리즘은 탐색과 활용의 균형을 맞추는 데 중요한 역할을 한다. 특히, 보상을 최대화해야 하는 환경에서 효율적으로 동작하며, 불확실성을 고려한 의사 결정을 가능하게 한다. UCB 알고리즘UCB 알고리즘은 주어진 선택지 중 최적의 선택을 찾기 위해 설계되었다. 단순한 탐욕적(greedy) 방법과 달리, 이 알고리즘은 선택지가 충분히 탐색되지 않았을 가능성을 고려한다. 즉, 평균 보상이 높을 뿐만 아니라 신뢰 구간이 넓은 선택지를 좀 더 자주 선택하면서 최적의 행동을 찾아가는 방식이다. 이를 위해 UCB는 선택지의 평균 보상뿐만 아니라 선택된.. ML&DL/강화학습 2025. 3. 20. Non-stationary에서의 점진적 Update Non-stationary에서의 점진적 Update보상 함수 $R_n$이 시간이 지나면서 변화하는 환경을 Non-stationary한 환경이라고 한다. 이때는 이전 게시물에서 언급한 Update rule을 사용하지 못한다. 왜 그런지는 이전 게시물 말미에 설명을 해두었으니 참고하자.그렇다면 이러한 Non-stationary 환경에서는 어떠한 방식의 업데이트를 할 수 있을까?Traking a Non-stationary Problem결론부터 말하자면, 과거의 데이터의 영향을 줄이고 고정된 가중치 $\alpha$를 사용하는 방식으로 해결할 수 있다. 이전 식에서는 $1\over n$을 가중치로 이용해 단순하게 모든 과거 데이터에 동일한 가중치를 부여하여 평균을 계산했다.$$Q_{n+1} = {1\over n}.. ML&DL/강화학습 2025. 3. 19. Multi-armed Bandit 문제 이해하기: 강화학습 탐험과 활용 방법 Multi-armed Bandit 문제 이해하기: 강화학습 탐험과 활용 방법카지노에 가면(가본 적은 없다) 레버를 당겨 숫자를 맞추고 상금을 얻는 슬롯머신이 있다. 이를 다른 말로 Bandit이라고 하는데, 이 Bandit에 서로 다른 확률로 잭팟을 터뜨리는 레버가 있다고 가정해 보자. 만약 우리가 각 레버의 잭팟 확률 혹은 각 레버를 당겼을 때의 평균 보상을 알고 있다면, 우리는 가장 높은 보상 기댓값을 주는 레버만 주구장창 당기면 된다. 하지만 일반적인 상황에서 우리는 그런 정보를 사전에 알지 못한다. 그럼 어떻게 하면 보상의 기댓값을 최대화할 수 있을까? 이러한 문제를 Multi-armed Bandit 문제라고 한다. 이 문제에 대해서 이해해 보면서, 강화학습에서의 탐험(Exploration)과 활.. 카테고리 없음 2025. 3. 18. 강화학습의 장점과 한계, 그리고 해결 방안 강화학습의 장점과 한계, 그리고 해결 방안강화학습의 장점강화학습은 사전 지식 없이도 스스로 학습할 수 있다는 점에서 큰 장점을 가진다. 환경에 대한 정확한 모델이나 사전 지식 없이도 에이전트가 시행착오를 통해 최적의 정책을 찾기 때문이다. 이는 복잡한 환경에서도 효과적으로 작동해 자율주행, 게임 AI, 로봇공학 등 다양한 분야에서 활용된다. 또한, 강화학습은 시행착오(Trial and Error)를 통한 학습이 가능하다. 에이전트는 환경에서 행동을 수행하고 그 결과로 보상을 받는다. 이를 반복하며 에이전트는 어떤 행동이 유리한지 점차 학습하게 된다. 이 방식은 사전에 명시적인 정답을 제공할 필요가 없기 때문에 불확실성이 높은 환경에서도 강력한 학습 성능을 발휘한다. 더불어 강화학습은 지속적인 학습(Con.. ML&DL/강화학습 2025. 3. 17. 강화학습 소개 강화학습 소개강화 학습(Reinforcement Learning, RL)은 본디 20세기 행동심리학에서 유래된 개념이다. 행동심리학자 스키너(B.F. Skinner)는 동물 실험을 통해 '강화(Reinforcement)'라는 개념을 처음 제시하였다. 이 개념은 이후 인공지능(AI) 분야에서 기계가 스스로 학습할 수 있도록 하는 중요한 학습 방법으로 발전하였다. 스키너의 강화 연구행동심리학에는 시행착오(Trial and Error) 학습이라는 개념이 있다. 이는 동물들이 다양한 행동을 시도해 보면서 그 결과를 통해 학습하는 것을 의미한다. 스키너는 다음과 같은 쥐 실험을 통해 동물이 행동과 그 결과 사이의 관계를 학습하는 과정을 연구했다. 1. 굶긴 쥐를 지렛대가 있는 상자(Skinner Box)에 넣는.. ML&DL/강화학습 2025. 3. 16. 머신러닝의 개념과 종류 (+딥러닝의 장단점) 머신러닝(Machine Learning)이란 What is Machine Learning? 무엇(x)으로 무엇(y)을 예측하고 싶다! 인공지능, 머신러닝, 딥러닝 정의 인공지능(Artificial Intelligence, AI)이란 '문제를 인식하고 해결하는 능력인 지능을 인공적으로 구현한 것'을 의미한다. 생물체가 가지는 고유 능력인 지능을 기계에게 부여하고자 하는 시도가 바로 인공지능인 것이다. 인공지능의 하위 집합으로는 머신러닝(Machine Learning, ML)이 있다. 이는 단어 그대로 '기계가 스스로 학습'하여 지능을 습득하는 방식이다. 머신러닝은 학습 알고리즘을 통해 데이터에 숨겨진 정보와 규칙을 학습하고 이를 바탕으로 새로운 것을 예측하고 추론하는 기술이다. 머신러닝의 하위 집합에는 딥.. ML&DL/ML DL 기본기 2021. 12. 1. 이전 1 다음