[AI/LLM] Transformer의 인코더와 디코더 쉽게 이해하기

Transformer 모델은 인코더와 디코더라는 두 가지 핵심 부분으로 나뉘어요.

오늘은 이 두 부분이 각각 어떤 역할을 하고, 어떻게 다르게 동작하는지 친근하게 설명해 볼게요!

📌 인코더 (Encoder)

역할: 인코더는 입력된 문장의 정보를 전체적으로 이해하려고 해요. 예를 들어, "나는 밥을 먹었다"라는 문장이 있으면, 인코더는 이 문장의 모든 단어들이 서로 어떻게 연결되고, 문장의 전체적인 의미와 맥락이 무엇인지를 파악해요.
특징: 인코더는 먼저 각 단어를 벡터로 변환한 후, 각 단어들이 서로 어떻게 연결되는지 파악해요. 이렇게 여러 번의 연산을 거치면, 문장의 의미를 더 깊고 정확하게 이해할 수 있어요.
구조: 인코더는 Self-Attention과 피드포워드 네트워크를 이용해요. Self-Attention은 모든 단어가 다른 단어와 어떤 관계가 있는지 계산하면서 문장 전체를 한 번에 처리해요.

📌 디코더 (Decoder)

역할: 디코더는 출력 문장을 생성하는 역할을 해요. 입력 문장을 처리한 후, 그에 맞는 출력을 하나씩 차례대로 만들어 가죠.
- 예를 들어, 번역을 한다면, 디코더는 먼저 첫 번째 단어를 생성하고, 그 다음 단어를 예측하면서 번역문을 완성해 나가요.
- 이때, 디코더는 이전에 생성된 단어들을 계속 참고하여 문맥에 맞는 단어를 예측해요.
특징: 디코더는 단어를 하나씩 예측하면서 문장을 만듭니다. 그리고 이전에 생성된 단어들을 바탕으로 다음 단어를 예측하기 때문에, 문장의 흐름을 자연스럽게 이어 나갈 수 있어요. 즉, 디코더는 문장의 순차적인 생성에 강점이 있어요.
구조: 디코더는 두 가지 Attention 기법을 사용해요:
1. Self-Attention: 디코더가 이미 생성된 단어들 간의 관계를 파악해서, 문맥에 맞는 다음 단어를 예측해요. 예를 들어, 앞에서 나온 단어들이 후속 단어에 어떻게 영향을 미칠지를 고려해요.
2. Encoder-Decoder Attention: 디코더는 인코더에서 나온 정보와 디코더에서 생성하려는 단어 간의 관계를 함께 고려해요. 이를 통해 입력 문장에서 얻은 정보를 바탕으로, 더 정확한 출력을 만들 수 있어요.

📌 트랜스포머 다양한 구조

트랜스포머는 기본적으로 인코더-디코더 구조를 가지지만, 인코더만 존재하는 모델과 디코더만 존재하는 모델도 있어요. 특히 생성형 AI로 주목받는 GPT의 경우 Only 디코더 모델이랍니다!

Only 인코더

BERT (Bidirectional Encoder Representations from Transformers)

구글의 BERT는 인코더만 사용하는 모델이에요. BERT는 문장에서 각 단어가 앞뒤 단어들과의 관계를 학습해서 문장을 깊게 이해하는 데 강점을 가지고 있어요. 기존의 모델들이 문장을 왼쪽에서 오른쪽, 또는 오른쪽에서 왼쪽으로만 처리했던 것과 달리, BERT는 양방향으로 정보를 학습하기 때문에 문맥을 더 잘 이해할 수 있어요.

장점:
- 문장 이해에 강점: BERT는 문장의 의미를 풍부하게 파악할 수 있어요. 특히 문장 분류, 감정 분석, 질문-응답과 같은 문장 이해 작업에서 매우 뛰어난 성능을 보여요.
- 사전 학습된 모델 활용: BERT는 사전 학습된 모델을 다양한 자연어 처리 작업에 쉽게 fine-tuning해서 사용할 수 있어요. 이를 통해 많은 데이터 없이도 빠르게 좋은 성능을 낼 수 있어요.
단점:
- 출력 생성에 한계: BERT는 출력 생성이 아니라 문장 이해에 특화된 모델이기 때문에 텍스트 생성이나 번역 등 순차적인 출력 생성 작업에는 제한적이에요.
- 속도 문제: BERT는 양방향 처리를 위해 많은 계산을 필요로 하므로, 추론 속도가 느릴 수 있어요.
적용 분야: 문장 분류, 감정 분석, 질문-응답 등 이해 기반 작업에 적합해요.

인코더 - 디코더

T5 (Text-to-Text Transfer Transformer)

구글의 T5는 인코더-디코더 구조를 사용해요. 이 모델은 입력 문장을 인코더가 처리하고, 그 처리된 정보를 바탕으로 디코더가 출력 문장을 생성하는 구조예요. 예를 들어, T5는 번역 작업을 할 때 입력 문장을 이해한 후, 이를 번역된 문장으로 변환하는 방식을 사용해요.
장점:
- 입출력 변환에 강점: T5는 입력과 출력을 모두 처리할 수 있어서 번역, 요약, 질문-응답 등 다양한 텍스트 변환 작업에 유리해요. 이를 통해 다양한 자연어 처리 작업을 하나의 모델로 처리할 수 있어요.
- 유연성: T5는 모든 자연어 처리 작업을 text-to-text 형식으로 처리할 수 있어서 모델 확장성이 뛰어나요.
단점:
- 복잡성: 인코더-디코더 구조는 연산이 복잡하고 자원을 많이 소모하는 경우가 많아요. 특히 긴 문장에 대한 처리에서 더 많은 메모리와 시간이 필요할 수 있어요.
- 속도 저하: 출력 생성이 순차적으로 이루어져야 하므로 처리 속도가 느릴 수 있어요.
적용 분야: 번역, 요약, 텍스트 생성 등 입력과 출력을 모두 다루는 작업에 적합해요.

Only 디코더

GPT 시리즈 (Generative Pretrained Transformer)

OpenAI의 GPT는 디코더만 사용하는 모델이에요. GPT는 문장에서 이전 단어들을 바탕으로 다음 단어를 예측하는 방식으로 작동해요. 이 모델은 주로 순차적인 텍스트 생성에 강점을 가지고 있어요. GPT는 텍스트 생성뿐만 아니라, 질문에 대한 답변을 할 때도 아주 효과적이에요.
장점:
- 텍스트 생성에 특화: GPT는 다음 단어를 예측하는 방식으로 작동하므로, 자연스러운 텍스트 생성에 매우 뛰어난 성능을 보여요. 특히 대화형 AI나 창의적인 글쓰기와 같은 작업에서 강점을 발휘해요.
- 효율적인 훈련: 디코더만 사용하기 때문에, 훈련 과정에서 상대적으로 간단하고 빠르게 수렴할 수 있어요.
단점:
- 문장 이해에 한계: GPT는 출력 생성에 최적화되어 있어서, 문장의 정확한 이해에는 다소 한계가 있을 수 있어요. 문맥이 복잡한 경우에는 예측의 정확도가 떨어질 수 있어요.
- 훈련 데이터 의존성: GPT 모델은 대규모 데이터에 의존하기 때문에 훈련 데이터가 부족하면 성능이 저하될 수 있어요.
적용 분야: 텍스트 생성, 대화형 모델, 창의적 글쓰기 등 순차적인 텍스트 생성이 필요한 작업에 적합해요.

📌 인코더와 디코더의 속도 차이

인코더는 병렬 연산이 가능해서 속도가 빠르고 효율적이에요. 한 번에 모든 단어를 처리할 수 있죠.
반면, 디코더는 단어를 하나씩 순차적으로 예측하기 때문에 속도가 상대적으로 느릴 수 있어요.

'🏛 Research > NLP & LLM' 카테고리의 다른 글

[AI/LLM] Transformer Attention 이해하기: Q, K, V의 역할과 동작 원리 (0)	2024.11.06
[프롬프트 엔지니어링] (5) 프롬프트 보안 : LLM 취약점과 보완 방법 (0)	2024.07.27
[프롬프트 엔지니어링] (4) 고급 기법 : Expert prompting, Generated knowledge prompting, RAG, Tree-of-Thought, Plan-and-solve prompting, Automatic prompt engineer (0)	2024.07.27
[프롬프트 엔지니어링] (3) 고급 기법: Few-shot, Chain-of-thought, Self-consistency, Selection-inference, Least-to-most, ReAct, Self-evaluation (0)	2024.07.27
[프롬프트 엔지니어링] (2) 프롬프트 설계 핵심 개념 : Role (역할) Policy (정책) Audience (대상) Knowledge (지식) Format (형식) Task (작업) Example (예시) (0)	2024.07.27

📌 인코더 (Encoder)

📌 디코더 (Decoder)

📌 트랜스포머 다양한 구조

Only 인코더

인코더 - 디코더

Only 디코더

📌 인코더와 디코더의 속도 차이

'🏛 Research > NLP & LLM' 카테고리의 다른 글

티스토리툴바