전체 글153 퍼스널 페이지에 LLM 연동하기 1편 - 지식베이스 자동 구축 퍼스널 페이지에 LLM 연동하기 1편 - 지식베이스 자동 구축나는 원래 개인 프로필을 노션에 정리해두고 있었다. 사실 프론트엔드나 웹 개발에는 큰 흥미도, 여유도 없었기 때문에 빠르게 쓸 수 있는 도구를 선호했기 때문이다. 하지만 이번에 연구실에 진학하면서 사정이 달라졌다. 연구 경험과 논문 실적이 자연스럽게 드러나면서도 깔끔한 구조의 퍼스널 페이지가 필요했기 때문이다. 나는 웹 개발 경험이 거의 없는 상태였기 때문에, 빠르고 안정적으로 정적 웹사이트를 만들 수 있는 방법을 찾다가 Jekyll을 선택했다. Markdown 파일만 잘 관리하면 사이트가 자동으로 생성되고, GitHub Pages를 통해 손쉽게 배포할 수 있는 점이 특히 마음에 들었다. 처음에는 이 정도로도 충분하다고 생각했다. 그런데 문득 .. 개인공부&프로젝트 2025. 3. 30. 모델 기반 vs 모델 프리 모델 기반 vs 모델 프리강화학습에서 모델은 환경의 동작을 예측하는 역할을 한다. 즉, 특정 상태에서 행동을 취했을 때 다음 상태와 보상을 어떻게 받을지 예측하는 기능을 가지고 있다. 이번 게시물에서는 이러한 모델의 사용 여부에 따른 강화학습의 분류를 알아보고, 각 분류별 대표적인 사례를 확인해보도록 하자.Model-based RL모델 기반 강화학습은 환경의 동작을 예측할 수 있는 모델을 학습하거나 사전에 제공 받아 이를 활용해 학습하는 방식으로, 에이전트는 환경과 직접 상호작용 하기 전에 모델을 사용해 시뮬레이션을 수행하고 최적의 행동을 결정한다. 모델은 일반적으로 다음 상태를 예측하는 확률 분포인 상태 전이 확률(Transition Probability) $\mathcal{P}$와 다음 보상을 예측하.. ML&DL/강화학습 2025. 3. 28. [도서 리뷰] 프리미어 프로 & 애프터 이펙트 CC 2025 프리미어 프로 & 애프터 이펙트 CC 2025심수진, 윤성우, 이수정(피치파이) 지음 맛있는 디자인 프리미어 프로&애프터 이펙트 CC 2025프리미어 프로&애프터 이펙트를 제대로 배우는 가장 완벽한 레시피! 한 권으로, 한번에! 쉽고 빠르게 익혀 바로 써먹는 그래픽 입문서!www.hanbit.co.kr* 한빛미디어 서평단 활동을 위해서 책을 협찬 받아 작성된 서평입니다.간단 서평공대생으로서 영상 편집에는 큰 관심이 없었다. 학부 시절, 학교를 배경으로 뮤직비디오를 만드는 프로젝트를 한 적이 있었는데, 그때도 단순 컷 편집과 자막 넣기 정도만 겨우 해본 수준이었다. 그런데 대학원에 진학하고 나니, 내가 하는 연구를 효과적으로 소개하고 설득력 있게 전달하기 위해서는 영상이라는 매체가 생각보다 강력한 도구가.. 리뷰/도서, 강의 리뷰 2025. 3. 27. 강화학습의 구성 요소와 구분 강화학습의 구성 요소와 구분강화학습은 에이전트(Agent)가 환경(Environment)과 상호작용하며 누적 보상(Cumulative Reward)을 최대화하도록 학습한다. 즉, 즉각적인 보상(Immediate Reward)뿐만 아니라 장기적인 보상까지 고려해야 한다. 이를 위해 강화학습에서는 몇 가지 중요한 가정이 성립해야 한다. 이번 포스팅에서는 이 가정에 대해서 살펴보고, 강화학습의 구성 요소에 대해서 알아보자. 강화학습의 핵심 가정: Reward Hypothesis & Markov Property1) Reward Hypothesis 강화학습의 핵심 가정인 Reward Hypothesis는 '모든 목표(Goals)는 기대 누적 보상(Expected cumulative reward)의 극대화로 표현될.. ML&DL/강화학습 2025. 3. 26. 가치함수와 벨만 방정식 가치함수와 벨만 방정식이전 게시글 말미에서 가치함수에 대해 간단히 설명했다. 가치함수는 미래 보상의 기댓값으로, 어떤 행동을 했을 때 어떤 보상을 받게 될지 예측하는 개념이다. 이 가치함수는 다시 벨만 방정식이라는 개념과 연결되는데, 이는 강화학습이 풀고자 하는 방정식으로, 강화학습의 핵심 중 하나이다. 이번 게시글에서는 이 가치함수와 벨만 방정식에 대해서 알아보겠다. 가치함수가치함수(Value Function)는 앞으로 받게 될 보상과 관련된 개념이라고 했다. 그런데 어떻게 받지 않은 보상에 대해서 이야기할 수 있을까? 현재 시간 $t$로부터 에이전트가 행동을 하면서 받을 보상들을 단순히 합한다면 다음과 같이 나타낼 수 있다 (시간 $t$에서 수행한 행동에 대한 보상은 다음 시간 즉, $R_{t+1}$.. ML&DL/강화학습 2025. 3. 24. 마르코프 결정 과정 (Markov decision process) 이해하기 마르코프 결정 과정 (Markov decision process) 이해하기강화학습을 본격적으로 공부하기에 앞서 우리는 순차적 행동 결정 문제(Sequential Decision Making Problem)에 대해 이해해야 할 필요가 있다. 순차적 행동 결정 문제란 에이전트가 장기적인 보상을 최대화하기 위해 환경과 상호작용하며 단계별로 최적의 행동을 선택하는 문제를 의미한다. 그리고 이 순차적 행동 결정 문제는 마르코프 결정 과정 (Markov decision process)으로 수학적으로 모델링되며, 상태(State), 행동(Action), 보상(Reward), 상태 전이 확률(State Transition Probability)을 통해 최적 정책을 찾는 문제로 표현된다. 이번 글에서는 이 MDP에 대해.. ML&DL/강화학습 2025. 3. 21. UCB(Upper Confidence Bound) 알고리즘 이해하기 UCB(Upper Confidence Bound) 알고리즘 이해하기강화 학습과 멀티 암드 밴딧 문제에서 자주 등장하는 UCB(Upper Confidence Bound) 알고리즘은 탐색과 활용의 균형을 맞추는 데 중요한 역할을 한다. 특히, 보상을 최대화해야 하는 환경에서 효율적으로 동작하며, 불확실성을 고려한 의사 결정을 가능하게 한다. UCB 알고리즘UCB 알고리즘은 주어진 선택지 중 최적의 선택을 찾기 위해 설계되었다. 단순한 탐욕적(greedy) 방법과 달리, 이 알고리즘은 선택지가 충분히 탐색되지 않았을 가능성을 고려한다. 즉, 평균 보상이 높을 뿐만 아니라 신뢰 구간이 넓은 선택지를 좀 더 자주 선택하면서 최적의 행동을 찾아가는 방식이다. 이를 위해 UCB는 선택지의 평균 보상뿐만 아니라 선택된.. ML&DL/강화학습 2025. 3. 20. Non-stationary에서의 점진적 Update Non-stationary에서의 점진적 Update보상 함수 $R_n$이 시간이 지나면서 변화하는 환경을 Non-stationary한 환경이라고 한다. 이때는 이전 게시물에서 언급한 Update rule을 사용하지 못한다. 왜 그런지는 이전 게시물 말미에 설명을 해두었으니 참고하자.그렇다면 이러한 Non-stationary 환경에서는 어떠한 방식의 업데이트를 할 수 있을까?Traking a Non-stationary Problem결론부터 말하자면, 과거의 데이터의 영향을 줄이고 고정된 가중치 $\alpha$를 사용하는 방식으로 해결할 수 있다. 이전 식에서는 $1\over n$을 가중치로 이용해 단순하게 모든 과거 데이터에 동일한 가중치를 부여하여 평균을 계산했다.$$Q_{n+1} = {1\over n}.. ML&DL/강화학습 2025. 3. 19. Multi-armed Bandit 문제 이해하기: 강화학습 탐험과 활용 방법 Multi-armed Bandit 문제 이해하기: 강화학습 탐험과 활용 방법카지노에 가면(가본 적은 없다) 레버를 당겨 숫자를 맞추고 상금을 얻는 슬롯머신이 있다. 이를 다른 말로 Bandit이라고 하는데, 이 Bandit에 서로 다른 확률로 잭팟을 터뜨리는 레버가 있다고 가정해 보자. 만약 우리가 각 레버의 잭팟 확률 혹은 각 레버를 당겼을 때의 평균 보상을 알고 있다면, 우리는 가장 높은 보상 기댓값을 주는 레버만 주구장창 당기면 된다. 하지만 일반적인 상황에서 우리는 그런 정보를 사전에 알지 못한다. 그럼 어떻게 하면 보상의 기댓값을 최대화할 수 있을까? 이러한 문제를 Multi-armed Bandit 문제라고 한다. 이 문제에 대해서 이해해 보면서, 강화학습에서의 탐험(Exploration)과 활.. 카테고리 없음 2025. 3. 18. 강화학습의 장점과 한계, 그리고 해결 방안 강화학습의 장점과 한계, 그리고 해결 방안강화학습의 장점강화학습은 사전 지식 없이도 스스로 학습할 수 있다는 점에서 큰 장점을 가진다. 환경에 대한 정확한 모델이나 사전 지식 없이도 에이전트가 시행착오를 통해 최적의 정책을 찾기 때문이다. 이는 복잡한 환경에서도 효과적으로 작동해 자율주행, 게임 AI, 로봇공학 등 다양한 분야에서 활용된다. 또한, 강화학습은 시행착오(Trial and Error)를 통한 학습이 가능하다. 에이전트는 환경에서 행동을 수행하고 그 결과로 보상을 받는다. 이를 반복하며 에이전트는 어떤 행동이 유리한지 점차 학습하게 된다. 이 방식은 사전에 명시적인 정답을 제공할 필요가 없기 때문에 불확실성이 높은 환경에서도 강력한 학습 성능을 발휘한다. 더불어 강화학습은 지속적인 학습(Con.. ML&DL/강화학습 2025. 3. 17. 강화학습 소개 강화학습 소개강화 학습(Reinforcement Learning, RL)은 본디 20세기 행동심리학에서 유래된 개념이다. 행동심리학자 스키너(B.F. Skinner)는 동물 실험을 통해 '강화(Reinforcement)'라는 개념을 처음 제시하였다. 이 개념은 이후 인공지능(AI) 분야에서 기계가 스스로 학습할 수 있도록 하는 중요한 학습 방법으로 발전하였다. 스키너의 강화 연구행동심리학에는 시행착오(Trial and Error) 학습이라는 개념이 있다. 이는 동물들이 다양한 행동을 시도해 보면서 그 결과를 통해 학습하는 것을 의미한다. 스키너는 다음과 같은 쥐 실험을 통해 동물이 행동과 그 결과 사이의 관계를 학습하는 과정을 연구했다. 1. 굶긴 쥐를 지렛대가 있는 상자(Skinner Box)에 넣는.. ML&DL/강화학습 2025. 3. 16. [도서 리뷰] GPT API를 활용한 인공지능 앱 개발 GPT API를 활용한 인공지능 앱 개발올리비에 케일린, 마리-알리스 블레트 지음이일섭, 박태환 옮김 GPT API를 활용한 인공지능 앱 개발(2판)o1부터 RAG, 랭체인, 파인 튜닝 그리고 프롬프트 엔지니어링까지 GPT와 파이썬을 활용한 실전 LLM 앱 개발www.hanbit.co.kr* 한빛미디어 서평단 활동을 위해서 책을 협찬 받아 작성된 서평입니다.간단 서평최근 들어 LLM(Large Language Model) 기반 애플리케이션이 급속도로 확산되고 있다. 다양한 기업과 연구소에서 RAG(Retrieval-Augmented Generation), 파인 튜닝, 프롬프트 엔지니어링 등을 활용해 AI 챗봇과 자동화 시스템을 구축하고 있으며, 나 역시 연구실에서 LLM을 기반으로 한 연구를 진행 중이.. 리뷰/도서, 강의 리뷰 2025. 2. 28. 이전 1 2 3 4 ··· 13 다음