전체 글156 AWS SAA 자격증 대비: Amazon EFS 관련 스토리지 선택 방법 정리 노트 AWS SAA 자격증 대비: Amazon EFS 관련 스토리지 선택 방법 정리 노트문제Q. 한 기업이 애플리케이션을 위한 스토리지 솔루션을 찾고 있습니다.이 솔루션은 다음과 같은 조건을 만족해야 합니다:고가용성과 확장성이 뛰어나야 합니다.기본 프로토콜(NFS 등)을 통해 AWS 및 온프레미스의 여러 Linux 인스턴스에서 마운트 할 수 있는 파일 시스템으로 작동해야 합니다.최소 크기 요구 사항이 없어야 합니다.이 회사는 온프레미스 네트워크에서 VPC로 액세스하기 위해 사이트 간 VPN을 설정했습니다.이러한 요구 사항을 충족하는 스토리지 솔루션은 무엇인가요? 선택지:(A) Amazon FSx 멀티 AZ 배포(B) Amazon EBS 멀티-어태치 볼륨(C) 여러 마운트 대상이 있는 Amazon Elastic.. 개인공부&프로젝트/AWS Solution Architect 2025. 4. 9. 벨만 방정식 벨만 방정식벨만 방정식은 결국 가치 함수를 재귀적으로 나타낸 것이다. 이 벨만 방정식에는 벨만 기대 방정식과 벨만 최적 방정식이 있는데, 이 둘을 살펴보고 이터레이션이 어떻게 일어나는지 알아보도록 하자. 벨만 기대 방정식가치함수는 어떤 상태의 가치, 즉 에이전트가 그 상태로 갈 경우에 얻게 될 보상의 합에 대한 기댓값을 나타낸다. 이는 정책 $\pi$에 영향을 받으며 식으로는 $v_\pi(s) = E_\pi[R_{t+1} + \gamma v_\pi(S_{t+1})|S_t=s]$로 나타낸다. 이와 같은 방정식을 벨만 기대 방정식(Bellman Expectation Equation)이라고 하며, 현재 상태의 가치함수와 다음 상태의 가치함수 사이의 관계를 식으로 나타낸 것이다. 이는 가치함수 값의 지속적인 업.. ML&DL/강화학습 2025. 4. 7. 퍼스널 페이지에 LLM 연동하기 2편 – Astro에 챗봇 연결하기 (feat. Gemini) 퍼스널 페이지에 LLM 연동하기 2편 – Astro에 챗봇 연결하기 (feat. Gemini)TL;DR퍼스널 페이지에 RAG 기반 LLM 챗봇을 붙이기 위해 Jekyll을 사용했지만, 챗봇 UI 구현과 실시간 처리에 한계를 느껴 Astro + Vercel로 전환했다. Astro의 SSR과 컴포넌트 기반 구조 덕분에 Gemini API와 통신하는 LLM 챗봇 프론트를 구현할 수 있었고, 기존 정적 페이지를 더 유연한 형태로 확장할 수 있게 되었다. 지난 글에서는 Jekyll 기반 퍼스널 페이지에서 Markdown 콘텐츠를 수집하고, 이를 벡터화해 FAISS로 저장하는 지식베이스 구축 과정을 소개했다. 프로젝트의 궁극적인 목표는 이 콘텐츠를 기반으로 작동하는 RAG(Retrieval-Augmented Gen.. 개인공부&프로젝트 2025. 4. 5. 퍼스널 페이지에 LLM 연동하기 1편 - 지식베이스 자동 구축 퍼스널 페이지에 LLM 연동하기 1편 - 지식베이스 자동 구축나는 원래 개인 프로필을 노션에 정리해두고 있었다. 사실 프론트엔드나 웹 개발에는 큰 흥미도, 여유도 없었기 때문에 빠르게 쓸 수 있는 도구를 선호했기 때문이다. 하지만 이번에 연구실에 진학하면서 사정이 달라졌다. 연구 경험과 논문 실적이 자연스럽게 드러나면서도 깔끔한 구조의 퍼스널 페이지가 필요했기 때문이다. 나는 웹 개발 경험이 거의 없는 상태였기 때문에, 빠르고 안정적으로 정적 웹사이트를 만들 수 있는 방법을 찾다가 Jekyll을 선택했다. Markdown 파일만 잘 관리하면 사이트가 자동으로 생성되고, GitHub Pages를 통해 손쉽게 배포할 수 있는 점이 특히 마음에 들었다. 처음에는 이 정도로도 충분하다고 생각했다. 그런데 문득 .. 개인공부&프로젝트 2025. 3. 30. 모델 기반 vs 모델 프리 모델 기반 vs 모델 프리강화학습에서 모델은 환경의 동작을 예측하는 역할을 한다. 즉, 특정 상태에서 행동을 취했을 때 다음 상태와 보상을 어떻게 받을지 예측하는 기능을 가지고 있다. 이번 게시물에서는 이러한 모델의 사용 여부에 따른 강화학습의 분류를 알아보고, 각 분류별 대표적인 사례를 확인해보도록 하자.Model-based RL모델 기반 강화학습은 환경의 동작을 예측할 수 있는 모델을 학습하거나 사전에 제공 받아 이를 활용해 학습하는 방식으로, 에이전트는 환경과 직접 상호작용 하기 전에 모델을 사용해 시뮬레이션을 수행하고 최적의 행동을 결정한다. 모델은 일반적으로 다음 상태를 예측하는 확률 분포인 상태 전이 확률(Transition Probability) $\mathcal{P}$와 다음 보상을 예측하.. ML&DL/강화학습 2025. 3. 28. [도서 리뷰] 프리미어 프로 & 애프터 이펙트 CC 2025 프리미어 프로 & 애프터 이펙트 CC 2025심수진, 윤성우, 이수정(피치파이) 지음 맛있는 디자인 프리미어 프로&애프터 이펙트 CC 2025프리미어 프로&애프터 이펙트를 제대로 배우는 가장 완벽한 레시피! 한 권으로, 한번에! 쉽고 빠르게 익혀 바로 써먹는 그래픽 입문서!www.hanbit.co.kr* 한빛미디어 서평단 활동을 위해서 책을 협찬 받아 작성된 서평입니다.간단 서평공대생으로서 영상 편집에는 큰 관심이 없었다. 학부 시절, 학교를 배경으로 뮤직비디오를 만드는 프로젝트를 한 적이 있었는데, 그때도 단순 컷 편집과 자막 넣기 정도만 겨우 해본 수준이었다. 그런데 대학원에 진학하고 나니, 내가 하는 연구를 효과적으로 소개하고 설득력 있게 전달하기 위해서는 영상이라는 매체가 생각보다 강력한 도구가.. 리뷰/도서, 강의 리뷰 2025. 3. 27. 강화학습의 구성 요소와 구분 강화학습의 구성 요소와 구분강화학습은 에이전트(Agent)가 환경(Environment)과 상호작용하며 누적 보상(Cumulative Reward)을 최대화하도록 학습한다. 즉, 즉각적인 보상(Immediate Reward)뿐만 아니라 장기적인 보상까지 고려해야 한다. 이를 위해 강화학습에서는 몇 가지 중요한 가정이 성립해야 한다. 이번 포스팅에서는 이 가정에 대해서 살펴보고, 강화학습의 구성 요소에 대해서 알아보자. 강화학습의 핵심 가정: Reward Hypothesis & Markov Property1) Reward Hypothesis 강화학습의 핵심 가정인 Reward Hypothesis는 '모든 목표(Goals)는 기대 누적 보상(Expected cumulative reward)의 극대화로 표현될.. ML&DL/강화학습 2025. 3. 26. 가치함수와 벨만 방정식 가치함수와 벨만 방정식이전 게시글 말미에서 가치함수에 대해 간단히 설명했다. 가치함수는 미래 보상의 기댓값으로, 어떤 행동을 했을 때 어떤 보상을 받게 될지 예측하는 개념이다. 이 가치함수는 다시 벨만 방정식이라는 개념과 연결되는데, 이는 강화학습이 풀고자 하는 방정식으로, 강화학습의 핵심 중 하나이다. 이번 게시글에서는 이 가치함수와 벨만 방정식에 대해서 알아보겠다. 가치함수가치함수(Value Function)는 앞으로 받게 될 보상과 관련된 개념이라고 했다. 그런데 어떻게 받지 않은 보상에 대해서 이야기할 수 있을까? 현재 시간 $t$로부터 에이전트가 행동을 하면서 받을 보상들을 단순히 합한다면 다음과 같이 나타낼 수 있다 (시간 $t$에서 수행한 행동에 대한 보상은 다음 시간 즉, $R_{t+1}$.. ML&DL/강화학습 2025. 3. 24. 마르코프 결정 과정 (Markov decision process) 이해하기 마르코프 결정 과정 (Markov decision process) 이해하기강화학습을 본격적으로 공부하기에 앞서 우리는 순차적 행동 결정 문제(Sequential Decision Making Problem)에 대해 이해해야 할 필요가 있다. 순차적 행동 결정 문제란 에이전트가 장기적인 보상을 최대화하기 위해 환경과 상호작용하며 단계별로 최적의 행동을 선택하는 문제를 의미한다. 그리고 이 순차적 행동 결정 문제는 마르코프 결정 과정 (Markov decision process)으로 수학적으로 모델링되며, 상태(State), 행동(Action), 보상(Reward), 상태 전이 확률(State Transition Probability)을 통해 최적 정책을 찾는 문제로 표현된다. 이번 글에서는 이 MDP에 대해.. ML&DL/강화학습 2025. 3. 21. UCB(Upper Confidence Bound) 알고리즘 이해하기 UCB(Upper Confidence Bound) 알고리즘 이해하기강화 학습과 멀티 암드 밴딧 문제에서 자주 등장하는 UCB(Upper Confidence Bound) 알고리즘은 탐색과 활용의 균형을 맞추는 데 중요한 역할을 한다. 특히, 보상을 최대화해야 하는 환경에서 효율적으로 동작하며, 불확실성을 고려한 의사 결정을 가능하게 한다. UCB 알고리즘UCB 알고리즘은 주어진 선택지 중 최적의 선택을 찾기 위해 설계되었다. 단순한 탐욕적(greedy) 방법과 달리, 이 알고리즘은 선택지가 충분히 탐색되지 않았을 가능성을 고려한다. 즉, 평균 보상이 높을 뿐만 아니라 신뢰 구간이 넓은 선택지를 좀 더 자주 선택하면서 최적의 행동을 찾아가는 방식이다. 이를 위해 UCB는 선택지의 평균 보상뿐만 아니라 선택된.. ML&DL/강화학습 2025. 3. 20. Non-stationary에서의 점진적 Update Non-stationary에서의 점진적 Update보상 함수 $R_n$이 시간이 지나면서 변화하는 환경을 Non-stationary한 환경이라고 한다. 이때는 이전 게시물에서 언급한 Update rule을 사용하지 못한다. 왜 그런지는 이전 게시물 말미에 설명을 해두었으니 참고하자.그렇다면 이러한 Non-stationary 환경에서는 어떠한 방식의 업데이트를 할 수 있을까?Traking a Non-stationary Problem결론부터 말하자면, 과거의 데이터의 영향을 줄이고 고정된 가중치 $\alpha$를 사용하는 방식으로 해결할 수 있다. 이전 식에서는 $1\over n$을 가중치로 이용해 단순하게 모든 과거 데이터에 동일한 가중치를 부여하여 평균을 계산했다.$$Q_{n+1} = {1\over n}.. ML&DL/강화학습 2025. 3. 19. Multi-armed Bandit 문제 이해하기: 강화학습 탐험과 활용 방법 Multi-armed Bandit 문제 이해하기: 강화학습 탐험과 활용 방법카지노에 가면(가본 적은 없다) 레버를 당겨 숫자를 맞추고 상금을 얻는 슬롯머신이 있다. 이를 다른 말로 Bandit이라고 하는데, 이 Bandit에 서로 다른 확률로 잭팟을 터뜨리는 레버가 있다고 가정해 보자. 만약 우리가 각 레버의 잭팟 확률 혹은 각 레버를 당겼을 때의 평균 보상을 알고 있다면, 우리는 가장 높은 보상 기댓값을 주는 레버만 주구장창 당기면 된다. 하지만 일반적인 상황에서 우리는 그런 정보를 사전에 알지 못한다. 그럼 어떻게 하면 보상의 기댓값을 최대화할 수 있을까? 이러한 문제를 Multi-armed Bandit 문제라고 한다. 이 문제에 대해서 이해해 보면서, 강화학습에서의 탐험(Exploration)과 활.. 카테고리 없음 2025. 3. 18. 이전 1 2 3 4 ··· 13 다음