개인공부&프로젝트

왜 RNN보다 트랜스포머가 좋다는걸까? (feat. 혁펜하임의 Easy! 딥러닝)

백악기작은펭귄 2025. 2. 15.

왜 RNN보다 트랜스포머가 더 강력한가? (feat. 혁펜하임의 Easy! 딥러닝)

시계열 데이터를 다룰 때 가장 먼저 배우는 것은 RNN이다. RNN은 가장 기본적인 모델인 만큼 필수적으로 배우고 넘어가야 하는 개념 중 하나인데, 사실 대부분의 논문을 보면 RNN을 그대로 쓰는 경우는 거의 없다. 그 대신 트랜스포머(Transformer)를 주로 사용하곤 하는데, 이 트랜스포머의 어떤 점이 RNN을 대체하고 있는지 간단하게 정리해 보았다.

연속적인 데이터와 RNN의 등장

연속적인 데이터를 다룰 때 가장 중요한 개념 중 하나가 토크나이징(Tokenizing)이다. 자연어 처리(NLP)에서 문장을 의미 있는 단위로 나누는 과정은 필수적이며, 이를 효과적으로 수행하는 것이 모델 성능에 직접적인 영향을 미친다. 예를 들어, "나는 학교에 간다"라는 문장은 ["나", "는", "학교", "에", "간다"]와 같이 분리될 수 있다. 이 과정이 제대로 이루어지지 않으면 모델이 언어를 올바르게 이해하기 어려워진다.

RNN(Recurrent Neural Network)은 이러한 연속적인 데이터를 처리하기 위해 개발된 대표적인 모델로, 이전 상태의 정보를 순차적으로 다음 상태로 전달하는 방식으로 동작한다. RNN의 기본 수식은 다음과 같다:

$$h_t = f(W_h h_{t-1} + W_x x_t)$$

여기서 $h_t$는 현재 시점의 은닉 상태(hidden state), $x_t$는 입력 데이터, $W_h$와 $W_x$는 가중치 행렬이며, $f$는 활성화 함수이다. 이 구조 덕분에 시간 순서가 중요한 데이터에 적합하지만, 몇 가지 근본적인 한계를 가진다.

RNN의 구조적 한계와 Attention의 등장

RNN이 가진 주요 한계는 다음과 같다:

1. 기울기 소실 문제(Vanishing Gradient Problem): RNN은 역전파 과정에서 연쇄적으로 그래디언트를 곱하게 되는데, 이 과정에서 그래디언트 값이 0에 가까워지면서 가중치 업데이트가 제대로 이루어지지 않는 문제가 발생한다. 이로 인해 멀리 떨어진 시점의 정보가 손실 함수(Loss)에 미치는 영향력이 급격히 감소하여, 모델이 장기 의존성을 학습하는 것이 어려워진다.

RNN에서 기울기가 '소실'된다는 표현은 사실 부정확하다. 다만 여기서는 설명의 편의를 위해 일반적으로 사용되는 term으로 작성하겠다.

2. 장기 의존성 문제(Long-Term Dependency Problem): RNN은 시점이 길어질수록 초기 입력의 정보가 점차 소실되는 경향이 있다. 즉, 시간이 지남에 따라 오래된 정보가 흐려지거나 사라지면서, 문맥을 유지하는 데 어려움을 겪는다. 이는 특히 긴 문장을 다룰 때 모델의 성능 저하를 유발하는 중요한 원인 중 하나이다.

이러한 문제를 해결하기 위해 LSTM(Long Short-Term Memory)과 GRU(Gated Recurrent Unit) 같은 변형 모델이 개발되었다. LSTM과 GRU는 정보가 소실되지 않도록 게이트(gate) 구조를 도입하여 더 긴 문맥을 학습할 수 있도록 개선되었지만, 여전히 완전한 해결책은 아니었다. 특히, Seq2Seq(sequence-to-sequence) 모델을 사용하는 기계 번역과 같은 NLP 작업에서는 입력과 출력 간의 연관성이 약해질 경우 성능 저하가 발생하는 문제가 남아 있었다.

트랜스포머의 등장과 NLP 혁신

트랜스포머(Transformer)는 RNN 기반 모델의 한계를 극복하고 더 강력한 성능을 제공하기 위해 등장했다. 트랜스포머의 핵심 개념은 Self-Attention 메커니즘으로, 문장 내 모든 단어가 서로 어떻게 연관되는지를 한 번에 고려할 수 있다. 예를 들어, "나는 학교에 간다"라는 문장에서 '학교'라는 단어가 '간다'와 긴밀한 관계를 가진다는 것을 한 번에 학습할 수 있다. 이는 기존 RNN 모델이 앞에서부터 순차적으로 정보를 처리해야 하는 것과는 대조적인 방식이다.

트랜스포머의 주요 장점은 다음과 같다:

병렬 연산 가능: RNN과 달리 모든 단어를 동시에 처리할 수 있어 학습 속도가 비약적으로 증가한다.
장기 의존성 문제 해결: Self-Attention을 활용해 문장 내 모든 단어를 서로 연관시키므로, 멀리 떨어진 단어 간 관계도 효과적으로 학습할 수 있다.
대용량 데이터 학습 가능: 트랜스포머는 대규모 데이터셋을 학습하는 데 최적화되어 있으며, 최신 NLP 모델의 근간이 되고 있다.

대표적인 트랜스포머 기반 모델에는 BERT(Bidirectional Encoder Representations from Transformers)와 GPT(Generative Pre-trained Transformer) 계열이 있다. BERT는 문장 내 단어들을 양방향으로 학습하여 문맥을 더 정확하게 파악할 수 있도록 하고, GPT는 대규모 텍스트 데이터를 기반으로 자연스러운 텍스트 생성을 가능하게 한다. 이처럼 트랜스포머 기술은 다양한 NLP 분야에서 혁신을 가져왔으며, 인공지능이 언어를 이해하고 생성하는 방식을 크게 변화시키고 있다.

이처럼 트랜스포머는 RNN이 가진 근본적인 한계를 극복하고, 보다 강력한 성능을 제공하기 때문에 NLP 분야에서 주류 모델로 자리 잡았다. RNN은 순차적으로 데이터를 처리해야 하는 구조적 특성 때문에 병렬 연산이 어렵고, 장기 의존성 문제로 인해 긴 문맥을 효과적으로 학습하기 어렵다는 한계를 가진다. 반면, 트랜스포머는 Self-Attention 메커니즘을 활용하여 입력 시퀀스의 모든 단어를 동시에 처리할 수 있으며, 장기적인 문맥도 효과적으로 반영할 수 있다. 또한, 병렬 처리가 가능해 학습 속도가 비약적으로 빨라지고, 대규모 데이터 학습에도 최적화되어 있다. 이러한 장점 덕분에 트랜스포머는 BERT, GPT 등의 강력한 모델을 탄생시키며 NLP뿐만 아니라 다양한 분야에서도 활용되고 있다. 앞으로도 트랜스포머 기반 기술은 더욱 발전하여 인공지능이 자연어를 이해하고 활용하는 방식에 혁신을 가져올 것으로 기대된다.

딥러닝을 시작하려는 학생들에게: 혁펜하임의 Easy! 딥러닝

무언가를 처음 공부할 때는 일단 전체적인 컨셉을 잡고 그다음 세부로 넘어가는 과정이 필요하다. 처음부터 어려운 개념을 세세하게 다루면 금방 질려버리기 때문이다(~~어쩌면 우리가 교수님의 수업을 잘 못 따라가는 이유일 수도 있다~~).

나는 딥러닝이라는 것에 처음 관심을 가졌던 게 대학교 2학년이었는데, 2학년 교육과정 중에는 딥러닝에 대해 제대로 배울 수 있는 수업이 별로 없었다. 애초에 딥러닝 관련 과목이 거의 없었고, 있더라도 4학년 혹은 대학원 과정 강의만 존재했다. 이 때문에 독학을 했어야 했는데, 사실 개념이 잡히지 않은 상태에서는 코드나 수식을 봐도 이해 안 되는 것 투성이었다. 그러던 중, 선배의 추천으로 유튜브에서 혁펜하임님의 강의를 듣게 되었는데, 이 강의 덕에 지치지 않고 딥러닝을 계속 공부할 수 있었던 것 같다.

혁펜하임님의 '이지 딥러닝' 수업을 통해 딥러닝의 기본 개념을 체계적으로 익힐 수 있었고, 'To The Transformer(TTT)'나 'After The Transformer(ATT)' 같은 강의들을 통해서 딥러닝 역사에 큰 획을 그은 개념인 트랜스포머를 기점으로 전후 발전 역사를 배울 수 있었다. 혁펜하임님의 강의는 단순히 개념을 늘어놓고 설명하는 형태가 아니라, 각각의 개념을 이해하기 위해 필요한 지식들을 알기 쉽게 엮어서, 재밌는 비유와 함께 설명해 준다. 게다가 수식만 들입다 부어주는 것이 아니라, 코드도 함께 제공해 줬기 때문에 정말 쉽게 실력을 기를 수 있었다.

몇 개 영상은 유료 멤버쉽 구독을 해야 볼 수 있는데, 솔직히 딸기 스무디 한잔 값이면 한달간 구독이 가능하니 꼭 구독하기를 바란다. 본인은 선형대수학 수업 들을 때 구독해서 1년 5개월간 구독을 유지했다

그리고 최근, 책도 나왔는데, 그 책의 이름이 바로 '혁펜하임의 Easy! 딥러닝'이다. 지금까지 공부를 하면서 정말 많은 딥러닝 책을 접했지만, 이 책은 혁펜하임님의 강의처럼 개념 설명이 깔끔하고 실습 코드가 잘 정리되어 있어 초보자들에게 특히 추천하고 싶다. 솔직히 내가 처음 공부를 시작했을 때, 이 책을 봤더라면 더 빠르게 감을 잡았을 수도 있지 않았을까 하는 생각이 들 정도이다.

물론 이 글 자체가 혁펜하임님께 책을 제공받아서 작성하고 있는 것이긴 하지만, 절대 빈 말이 아니다. 초보자들에게 추천한다고 하긴 했지만, 여전히 수학의 정석마냥 계속해서 꺼내 읽어볼 수 있는 '딥러닝의 정석'이라고 부를 만하지 않을까 싶기도 하다.

컨셉부터 잡고 심화로 이어지는 흐름을 가지고 있고, 이를 이해하는데에 필요한 내용은 부록과 영상으로 모두 공개하고 있다. 단순히 개념뿐만 아니라, 고민하고 생각해 볼만한 내용들 또한 심도 있게 다루고 있다.

당신이 딥러닝을 처음 공부하고 있는 학생이고, 그래서 왜 다들 트랜스포머, 트랜스포머 하는지 알고 싶어서 이 글을 봤다면, 이 책을 꼭 한번 사서 읽어보길 추천한다. 딥러닝 역사의 변곡점이 된 트랜스포머를 이렇게 직관적이고 깔끔하게 설명한 딥러닝 책은 국내에 이 책뿐일 거라고 자신한다.

덧) 혁펜하임님의 유행어 중 하나인 '엑웨액웨액'. 한번 들으면 잊을 수 없다

* 본 게시글은 혁펜하임의 <Easy! 딥러닝> 책의 리뷰어 활동으로 작성되었습니다.
도서 구매 링크 1 (교보문고)
도서 구매 링크 2 (출판사 자사몰)

저작자표시 비영리 변경금지 (새창열림)

'개인공부&프로젝트' 카테고리의 다른 글

퍼스널 페이지에 LLM 연동하기 2편 – Astro에 챗봇 연결하기 (feat. Gemini) (0)	2025.04.05
퍼스널 페이지에 LLM 연동하기 1편 - 지식베이스 자동 구축 (0)	2025.03.30
PARA 프레임워크로 생산성 관리하기 (feat. LLM Agent) (0)	2025.02.15
GPU 병렬화 기법 (0)	2025.02.04
디퓨전 모델과 ELBO 정리: DDPM 논문을 중심으로 (0)	2025.02.01