reinforcement learning2 벨만 방정식 벨만 방정식벨만 방정식은 결국 가치 함수를 재귀적으로 나타낸 것이다. 이 벨만 방정식에는 벨만 기대 방정식과 벨만 최적 방정식이 있는데, 이 둘을 살펴보고 이터레이션이 어떻게 일어나는지 알아보도록 하자. 벨만 기대 방정식가치함수는 어떤 상태의 가치, 즉 에이전트가 그 상태로 갈 경우에 얻게 될 보상의 합에 대한 기댓값을 나타낸다. 이는 정책 π에 영향을 받으며 식으로는 vπ(s)=Eπ[Rt+1+γvπ(St+1)|St=s]로 나타낸다. 이와 같은 방정식을 벨만 기대 방정식(Bellman Expectation Equation)이라고 하며, 현재 상태의 가치함수와 다음 상태의 가치함수 사이의 관계를 식으로 나타낸 것이다. 이는 가치함수 값의 지속적인 업.. ML&DL/강화학습 2025. 4. 7. 강화학습 소개 강화학습 소개강화 학습(Reinforcement Learning, RL)은 본디 20세기 행동심리학에서 유래된 개념이다. 행동심리학자 스키너(B.F. Skinner)는 동물 실험을 통해 '강화(Reinforcement)'라는 개념을 처음 제시하였다. 이 개념은 이후 인공지능(AI) 분야에서 기계가 스스로 학습할 수 있도록 하는 중요한 학습 방법으로 발전하였다. 스키너의 강화 연구행동심리학에는 시행착오(Trial and Error) 학습이라는 개념이 있다. 이는 동물들이 다양한 행동을 시도해 보면서 그 결과를 통해 학습하는 것을 의미한다. 스키너는 다음과 같은 쥐 실험을 통해 동물이 행동과 그 결과 사이의 관계를 학습하는 과정을 연구했다. 1. 굶긴 쥐를 지렛대가 있는 상자(Skinner Box)에 넣는.. ML&DL/강화학습 2025. 3. 16. 이전 1 다음