트랜스포머2 왜 RNN보다 트랜스포머가 좋다는걸까? (feat. 혁펜하임의 Easy! 딥러닝) 왜 RNN보다 트랜스포머가 더 강력한가? (feat. 혁펜하임의 Easy! 딥러닝)시계열 데이터를 다룰 때 가장 먼저 배우는 것은 RNN이다. RNN은 가장 기본적인 모델인 만큼 필수적으로 배우고 넘어가야 하는 개념 중 하나인데, 사실 대부분의 논문을 보면 RNN을 그대로 쓰는 경우는 거의 없다. 그 대신 트랜스포머(Transformer)를 주로 사용하곤 하는데, 이 트랜스포머의 어떤 점이 RNN을 대체하고 있는지 간단하게 정리해 보았다.연속적인 데이터와 RNN의 등장연속적인 데이터를 다룰 때 가장 중요한 개념 중 하나가 토크나이징(Tokenizing)이다. 자연어 처리(NLP)에서 문장을 의미 있는 단위로 나누는 과정은 필수적이며, 이를 효과적으로 수행하는 것이 모델 성능에 직접적인 영향을 미친다. 예.. 개인공부&프로젝트 2025. 2. 15. 트랜스포머 기반 LLM 동작 원리 톺아보기 트랜스포머 기반 LLM의 동작 원리 톺아보기 트랜스포머(Transformer)는 자연어 처리(NLP) 분야에서 사용되는 심층 신경망 아키텍처의 한 종류로, 2017년 Google에서 발표한 "Attention is All You Need" 논문에서 처음 등장했다. 이러한 트랜스포머 기반으로 BERT, GPT와 같은 거대 NLP 모델들이 등장했고, 현재는 다양한 변형을 거쳐 NLP 도메인뿐만 아니라 Vision 도메인 등에서도 활발하게 사용되고 있는 알짜배기 아키텍처이다. 이번 포스팅에서는 이 트랜스포머를 깊이 있게 설명하기보다는, 트랜스포머 아키텍처를 가볍게 살펴보고, 이러한 트랜스포머를 기반으로 하는 LLM이 어떻게 동작하는지 단계별로 톺아볼 것이다. 트랜스포머를 좀 더 깊이 있게 알고 싶다면 아래 포.. 카테고리 없음 2024. 4. 14. 이전 1 다음