전체 글163 멀티헤드 어텐션 & 피드포워드 GPT: 멀티헤드 어텐션 & 피드포워드최근 AI 연구에서 가장 주목받는 주제 중 하나는 GPT(Generative Pre-trained Transformer) 모델이다. GPT는 자연어 이해와 생성을 위한 언어 모델로, 입력 데이터를 처리하는 forward 메서드와 이를 바탕으로 텍스트를 생성하는 generate 메서드를 통해 작동한다. 이 과정에서 GPT는 어텐션 메커니즘과 신경망 구조를 활용해 언어의 문맥과 패턴을 효과적으로 학습한다. 이 글에서는 GPT의 핵심 요소인 멀티헤드 어텐션과 피드포워드 네트워크, 블록 설계 방법, 그리고 토크나이저 제작 과정을 중심으로 내용을 정리해 보았다. 멀티헤드 어텐션어텐션 메커니즘(Attention Mechanism)은 GPT와 같은 트랜스포머 모델의 핵심 구성 요.. 개인공부&프로젝트 2025. 1. 4. 언어 모델 구조 및 셀프 어텐션 메커니즘 이해 언어 모델 구조 및 셀프 어텐션 메커니즘 이해GPTGPT는 자연어 이해와 생성을 위한 언어 모델로, 입력 데이터를 처리하는 forward 메서드와 이를 바탕으로 텍스트를 생성하는 generate 메서드를 통해 작동한다. 이 과정에서 GPT는 어텐션 메커니즘과 신경망 구조를 활용해 언어의 문맥과 패턴을 효과적으로 학습한다. 셀프 어텐션 메커니즘셀프 어텐션(Self Attention)은 입력된 각 단어가 문맥 내에서 다른 단어들과의 관계를 학습하는 데 핵심적인 역할을 한다. 이를 위해, 입력 시퀀스 X는 임베딩 후 세 가지 행렬 Q(Query), K(Key), V(Value)로 변환된다. 각각은 다음과 같은 연산으로 계산된다. $$Q=XW_Q,~ K=XW_K,~ V=XW_V $$ 여기서 $W_Q,~ W_K,.. 개인공부&프로젝트 2024. 12. 31. 클라우드 기반 GPU 컴퓨팅 플랫폼, 런팟(RunPod) 사용법 클라우드 기반 GPU 컴퓨팅 플랫폼, 런팟(RunPod) 사용법런팟 소개런팟(RunPod)은 인공지능 및 머신러닝 모델의 개발, 학습, 배포를 위한 클라우드 기반 GPU 플랫폼이다. 사용자는 필요에 따라 GPU 인스턴스를 신속하게 생성하고, 서버리스 환경에서 AI 애플리케이션을 확장할 수 있다. 런팟은 Multi-GPU를 사용할 수 있도록 지원하기 때문에 복잡한 인공지능 모델의 개발이나 대규모 데이터 처리 시 코랩 등에 비해 효율적이고 빠르게 진행할 수 있다는 장점을 가지고 있다. 런팟은 다양한 GPU 옵션을 통해 경제적인 선택이 가능하다. 예를 들어, NVIDIA A100 SXM 80GB GPU를 시간당 $1.89에 이용할 수 있다. 이처럼, 런팟은 리소스를 충분히 확보하지 못한 데이터 엔지니어들에게 .. 개인공부&프로젝트 2024. 12. 31. NLP 이해와 런팟 설치 NLP의 과거와 오늘NLP는 인간의 언어를 기계가 이해하고 처리하기 위한 도전으로 시작되었다. 아르츠루니와 트로얀스키는 기계 번역의 초기 개념을 제시하며 기반을 다졌고, 위버와 섀넌의 정보 이론을 바탕으로 1954년 조지타운-IBM 실험이 성공적으로 이루어졌다. 하지만 초기의 규칙 기반 접근은 언어의 복잡성을 다루기 어려웠고, 품질의 한계로 연구가 지체되었다. 같은 시기, 튜링은 "기계는 생각할 수 있는가?"라는 질문을 던지며 인간-기계 상호작용 가능성을 탐구했으나, 튜링테스트는 기계의 이해 능력을 완전히 검증하기엔 부족했다. 퍼셉트론은 신경망 학습의 기초를 마련했지만, 단층 구조의 한계로 연구가 한동안 정체되었다. 이후 역전파 알고리즘과 비선형 활성화 함수가 도입되며 신경망은 더 복잡한 문제를 학습할 .. 개인공부&프로젝트 2024. 12. 31. [도서 리뷰] 대규모 머신러닝 시스템 디자인 패턴 *한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.대규모 머신러닝 시스템 디자인 패턴위안 탕 지음정민정 옮김 대규모 머신러닝 시스템 디자인 패턴14가지 패턴으로 대규모 머신러닝 시스템을 완성하라!www.hanbit.co.kr간단 서평 나는 AI 엔지니어로서의 실무 경험도 소규모 초기 스타트업이 전부이고, 학사 졸업 직후 대학원에 진학을 하다 보니 대규모 데이터가 오고 가는 환경에서 머신러닝 모델을 운영해 볼 기회가 거의 없었다. 특히나 대규모 데이터의 효율적 처리나 엄격한 기술적 완성도보다 사용자 중심의 접근을 더 중요시하는 HCI 분야로 진학한 지금은 단일 GPU나 로컬 환경에서의 모델 개발 및 운영으로도 충분했기에 사실상 대규모 데이터와 분산 처리의 실질적인 필요성을 체감할 기회가 많지 않.. 리뷰/도서, 강의 리뷰 2024. 12. 29. 배치 사이즈가 1인 배치 처리와 스트리밍 처리는 같은가? 배치 사이즈가 1인 배치 처리와 스트리밍 처리는 같은가?데이터 수집 및 처리는 현대의 정보 시스템에서 필수적인 요소이다. 이를 구현하는 두 가지 대표적인 방식은 배치 처리와 스트리밍 방식이다. 그런데 문득, '배치 사이즈가 1인 배치 데이터 수집 방식은 스트리밍 방식과 같은 건가?'라는 생각이 들었다. 딥러닝 쪽에서도 배치 사이즈가 1인 Mini-batch 방식은 Online learning과 같다고 하니까.. 둘은 동일한 개념일까? 아니면 중요한 차이가 존재할까? 이러한 의문에 답하기 위해 내용을 좀 더 찾아보았다. 배치 데이터 수집 방식이란?배치 데이터 수집은 데이터를 일정한 크기로 묶어 한 번에 처리하는 방식이다. 일반적으로 배치 크기는 고정되어 있으며, 작업이 끝난 후 시스템은 다음 작업 요청까지.. 개인공부&프로젝트 2024. 12. 28. [도서 리뷰] 더 라스트 컴퍼니 * 해당 도서는 한빛비즈로부터 책을 제공받아 작성한 서평입니다. [도서 리뷰] 더 라스트 컴퍼니장혜진 지음 더 라스트 컴퍼니실리콘밸리에서 한국 기업이 배워야 할 단 하나의 회사, 엔비디아를 만나다www.hanbit.co.kr서평: 혁신의 원칙과 리더십의 교본책 더 라스트 컴퍼니는 엔비디아의 CEO 젠슨 황의 리더십과 독창적인 조직 문화를 깊이 있게 다룬 책이다. 처음 제목을 접했을 때, “왜 ‘라스트’일까? 끝까지 살아남는 기업을 뜻하는 걸까?”라는 의문이 들었지만, 실제 의미는 전혀 달랐다. 여기서 '더 라스트(The Last)'는 “내가 평생을 바치고 싶은 마지막 회사”라는 뜻이다. 우리나라에서도 한때 “이 회사에 뼈를 묻겠다”는 표현이 유행했었고, 또 현재에도 이를 몸소 실천하며 스스로의 성장은 물.. 리뷰/도서, 강의 리뷰 2024. 12. 22. AI 스터디 관련 질의응답 기록 (2024 가을학기 1차세션) AI 스터디 관련 질의응답 기록 (2024 가을학기 1차세션)나는 현재 Google Developers on Campus(이하 GDGoC)에서 AI 멘토로 활동하며, 멤버들을 대상으로 스터디 자료와 멘토링을 제공하고 있다. 이 과정에서 받은 질문들에 대해 답변하는 글을 작성하고자 한다. Question #1: 데이터 불균형Q1. 이번 스터디의 경우, 데이터셋이 img였는데, 주신 자료나 연관 링크를 읽고 분석해 보았을 때, 특정 클래스에 속하는 데이터가 다른 클래스에 비해 월등히 많은 (data imbalance) 한 상황을 보았습니다. 실제 데이터를 분석할 때도 이러한 상황이 많을 것 같은데 이를 어떠한 방식으로 처리할 수 있는지 궁금합니다.+ 클래스별 데이터 수를 고려하여 augumentaion을 다.. 컴퓨터 공학 기본/GDGoC 멘토 활동 기록 2024. 12. 15. OSError: [Errno 28] No space left on device 해결 OSError: [Errno 28] No space left on device 해결MMPose를 설치하던 중 다음과 같은 에러를 맞닥트렸다. 구글링을 해보니, 이 에러는 패키지 설치 중 임시 파일을 저장할 충분한 공간이 없을 때 발생한다고 한다. Python의 패키지 관리자인 pip은 패키지를 설치할 때 종종 다운로드한 패키지 파일을 압축 해제하거나 컴파일할 때 사용되는 임시 파일을 생성하는데, 이를 저장하기 위한 공간이 부족한 경우에 이 에러가 발생한다. 기본적으로 pip은 이 임시 파일들을 /tmp 디렉토리에 저장하는데, /tmp 디렉토리는 제한된 저장 공간을 가질 수 있기 때문에, 이를 더 넉넉한 공간을 제공하는 /var/tmp로 변경하면 에러가 해결될 수 있다는 정보를 찾았다. 이러한 내용에 따라.. 개인공부&프로젝트 2024. 12. 5. Kaggle API 이용법 (feat. kaggle.json이 뭐예요?) 나는 현재 Google Developers on Campus(이하 GDGoC)에서 AI 멘토로 활동하며, 멤버들을 대상으로 스터디 자료와 멘토링을 제공하고 있다. 이 과정에서 받은 질문들에 대해 답변하는 글을 작성하고자 한다. Kaggle API 이용법 (feat. kaggle.json이 뭐예요?)Kaggle은 데이터 과학자와 머신러닝 엔지니어들이 다양한 데이터셋을 활용하고 경진대회에 참여할 수 있는 플랫폼이다. https://www.kaggle.com/ Kaggle: Your Machine Learning and Data Science CommunityKaggle is the world’s largest data science community with powerful tools and resourc.. 컴퓨터 공학 기본/GDGoC 멘토 활동 기록 2024. 11. 27. [도서 리뷰] 한 권으로 배우는 게임 프로그래밍 * 한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.한 권으로 배우는 게임 프로그래밍박태준, 박효재, 윤하연 지음 한 권으로 배우는 게임 프로그래밍게임 개발자에게 필요한 것은 화려한 포트폴리오가 아닌 체계적인 이론 지식!www.hanbit.co.kr간단 서평재밌는 게임은 사람들을 즐겁게 만든다. 또 재밌는 게임을 하고 나면 나도 이런 게임을 만들고 싶다는 욕망이 생기기도 한다. 하지만 대부분의 사람들은 그런 마음이 들어도, 어떻게 시작해야할지도 모를뿐더러 개발을 하는 방법조차 몰라서 시작도 전에 포기하곤 한다. 나 또한 그랬다. AI 개발은 그런대로 할 줄 알지만, 게임 개발은 항상 야매로 하다보니 금세 흥미를 잃고 접곤 했다. 만들고 싶은 기능은 많은데, 하나씩 추가하다보면 어느새 코드가 너.. 리뷰/도서, 강의 리뷰 2024. 11. 24. Temporal Cycle Consistency Loss 구현체 최적화 벡터화 연산을 활용한 Temporal Cycle Consistency Loss 최적화최근 연구실에서 골프 모션 가이던스를 위한 시스템을 제작하고 있다. 이때, 사용자와 전문가 모션의 차이를 추출하기 위해 2022년 IEEE Access에 게재된 'AI Golf: Golf Swing Analysis Tool for Self-Training'라는 논문에서 제시한 S-TCC 네트워크를 이용하고 있는데, 여기서 S-TCC 인코더 학습에 사용된 Temporal Cycle Consistency Loss의 계산을 개선해보았다.골프 스윙 분석을 위한 S-TCC 네트워크개선 결과의 설명에 앞서, 논문에서 제시한 S-TCC(Skeleton-Based Temporal Cycle-Consistency) 네트워크에 대해 먼저 .. 개인공부&프로젝트 2024. 11. 23. 이전 1 2 3 4 5 6 7 ··· 14 다음