non-stationary1 Non-stationary에서의 점진적 Update Non-stationary에서의 점진적 Update보상 함수 $R_n$이 시간이 지나면서 변화하는 환경을 Non-stationary한 환경이라고 한다. 이때는 이전 게시물에서 언급한 Update rule을 사용하지 못한다. 왜 그런지는 이전 게시물 말미에 설명을 해두었으니 참고하자.그렇다면 이러한 Non-stationary 환경에서는 어떠한 방식의 업데이트를 할 수 있을까?Traking a Non-stationary Problem결론부터 말하자면, 과거의 데이터의 영향을 줄이고 고정된 가중치 $\alpha$를 사용하는 방식으로 해결할 수 있다. 이전 식에서는 $1\over n$을 가중치로 이용해 단순하게 모든 과거 데이터에 동일한 가중치를 부여하여 평균을 계산했다.$$Q_{n+1} = {1\over n}.. ML&DL/강화학습 2025. 3. 19. 이전 1 다음