[기술 소개] Text-to-Image Generation | 이미지 생성 AI | DALL-E | GPT

Text to Image Generation

Text to Image generation은 텍스트 정보를 입력으로 받아서 해당 텍스트에 해당하는 이미지를 생성하는 기술이다. 딥러닝 기술의 발전으로 인해 2010년대 중반부터 개발되기 시작해 2022년에는 OpenAI의 DALL-E 2 , Google Brain의 Imagen , StabilityAI의 Stable Diffusion 과 같은 최첨단 텍스트-이미지 모델의 출력물이 실제 사진과 사람이 그린 예술품의 품질에 접근하기 시작했다.

Text to Image generation에서는 일반적으로 이러한 GAN(Generative Adversarial Networks) 모델을 텍스트와 이미지를 쌍으로 이루는 데이터셋을 학습시켜서 구현한다. 예를 들어, "A brown dog is sitting on a green grass field"라는 텍스트를 입력으로 받으면, 이에 해당하는 개가 초목밭에 앉아 있는 이미지를 생성하도록 학습된 GAN 모델은 해당 이미지를 생성할 수 있다. 이러한 Text to Image generation 기술은 컴퓨터 비전 분야에서 많은 응용 분야가 있다. 예를 들어, 일러스트나 디자인 작업을 대신해 자동으로 이미지를 생성하여 게임, 인테리어 디자인, 패션, 광고 산업 등에서 사용될 수 있고, 가상현실(VR) 분야나 자율 주행 기술에도 활용될 수 있다.

GAN은 생성자(Generator)와 판별자(Discriminator)라는 두 개의 네트워크로 이루어져 있는데, 생성자는 입력으로 들어온 랜덤한 잡음 벡터(noise vector)를 받아서 이미지를 생성하고, 판별자는 생성자가 만든 이미지와 진짜 이미지를 구분하여 얼마나 진짜 같은지를 판별하는 역할을 한다. 학습 과정에서 생성자는 판별자가 생성한 이미지를 진짜 이미지로 인식하도록 학습하고, 판별자는 생성자가 만든 이미지를 진짜 이미지와 구분할 수 있도록 학습한다.

DALL-E

최근 가장 유명한 Text to Image 분야의 논문 중 하나는 "DALL-E: Creating Images from Text"이다. 이 논문은 OpenAI에서 2021년 1월에 발표한 것으로, 텍스트 입력에 대해 상세한 이미지를 생성하는 대화식 모델을 제안한다. "DALL-E"는 "Wall-E"와 "Salvador Dali"의 이름을 합쳐 만든 이름으로, 다양한 텍스트 입력을 받아 이에 해당하는 고품질 이미지를 생성할 수 있는 모델이다.

DALL-E 모델은 120억 개의 파라미터를 가진 GPT-3(Generative Pre-trained Transformer 3)와 이미지 생성을 위한 Discrete VAE에 기반하며 약 2.5억개의 데이터셋(텍스트 이미지 쌍)으로 학습되었다.

모델의 학습 방법은 크게 두 단계로 이루어 진다.

Stage 1

첫 번째 단계는 이미지의 압축-복원 과정을 통해 dVAE 인코더와 디코더를 학습하는 것이다. 256x256 크기의 입력 이미지를 32x32 크기의 이미지 토큰으로 압축하고 다시 복원한 이미지가 원래 입력 이미지와 유사하도록 학습하는 것이다. 이 방법을 통해 품질의 큰 손실없이 transformer의 입력 토큰 시퀀스를 작게 만들 수 있다. 위의 예시 이미지를 보면 입력 이미지의 디테일이 약간씩 손실되지만 전체적으로 굉장히 잘 복원되는 것을 볼 수 있다. 이 때 초기 piror transformer 는 고정한 상태이다.

결국 텍스트 입력을 통해 이미지를 생성하기 위해서는 텍스트 토큰을 임베딩(트랜스포머에 포워딩)한 결과인 어떤 값을 dVAE 디코더에 입력해서 적절한 이미지를 생성해야 한다. 때문에 stage 1은 이미지를 압축한 값(32x32)이 dVAE 디코더를 통해 잘 복원되도록 학습해서 추후에 텍스트 토큰을 임베딩한 값(prior transformer를 통해) 또한 dVAE 디코더를 통해 원하는 이미지를 생성할 수 있도록 준비하는 과정이라고 볼 수 있다.

Stage 2

두 번째 단계는 첫 번째 단계에서 학습한 dVAE는 고정하고 prior transformer를 학습하는 과정이다. 256 개의 텍스트 토큰과 dVAE로 압축한 1024개(32x32)의 이미지 토큰을 사용하여 transformer를 autoregressive하게 학습하여 텍스트 토큰과 이미지 토큰의 joint distribution을 학습한다.

무슨 말인지 알기 쉽게 언어 모델의 학습 과정고 비교해 보자.
언어 모델의 경우 '나는' - '오늘도' 라는 텍스트를 모델에 주입하면 '나는' - '오늘도' - '학교에' 를 출력하고, 다시 '나는' - '오늘도' - '학교에' 를 모델에 입력해서 '나는' - '오늘도' - '학교에' - '등교한다' 라는 결과를 연속적으로 얻는 방식으로 학습을 진행한다.

DALL-E 모델은 이미지를 생성하는 모델이기 때문에 텍스트 토큰을 입력하고 1024(32x32)개 의 이미지 토큰을 autoregressive하게 출력하는 과정으로 학습한다. 또는 텍스트 토큰과 이미지 토큰의 일부를 입력하면서 다음 이미지 토큰을 순차적으로 출력하게 할 수도 있다. 다시 말해, transformer 디코더에 텍스트 토큰과 이미지 토큰을 입력하고 출력된 다음 이미지 토큰을 다시 입력 이미지 토큰에 추가하여 디코더 포워딩을 수행하는 과정을 반복하여 학습을 진행하는 것이다. 이는 transformer가 입력 텍스트에 따라 어떤 이미지 토큰을 생성하면 되는지를 학습하는 과정이라 볼 수 있다.

최종적으로 1024개의 이미지 토큰이 모두 쌓이게 되면 dVAE에 넣어서 결과 이미지를 생성하게 되는 것이다.

DALL-E 2

물론 지금은 업그레이드 버전인 DALL-E 2 까지 발표되었다. DALL-E 모델은 이전 모델과 달리 이미지 생성 과정에서 text-to-image 외에도 image-to-image 생성과 super-resolution 등 다양한 태스크를 수행할 수 있고 생성하는 이미지의 해상도 또한 512x512로 향상되었다.

DALL-E2는 GPT 모델과 Transformer 기반 아키텍처를 기반으로 하며, 대규모의 이미지와 텍스트 데이터셋으로 사전 학습된다. 이미지를 보고 캡션을 생성해주는 CLIP 모델의 반대라고 볼 수 있다. 자연어 형태의 캡션을 보고 이미지를 생성하니까.

학습된 모델은 주어진 텍스트 설명에 대해 이미지를 생성하고, 주어진 이미지와 텍스트 설명 쌍으로부터 특정 이미지를 생성하는 것이 가능하다. 또한, 생성된 이미지에 대해 지도학습을 수행하여 이미지의 특정 부분을 수정하거나, 새로운 이미지를 생성하는 등 다양한 활용이 가능하다는 점에서 이전 버전에 비해 활용 가치가 훨씬 높아졌다.

*Text to Image 분야 사전 지식

- 기본적인 CV & NLP 지식
- Transformer
- Large Language Model (LLM), GPT
- Autoregressive training
- Generative Adversarial Networks (GAN)
- Auto-Encoder (AE), Variational Auto-Encoder (VAE), Vector Quantised-Variational AutoEncoder (VQ-VAE), VQ-VAE-2

'🏛 Research > Generative AI' 카테고리의 다른 글

[Gen AI] Diffusion Model과 DDPM 개념 설명 (0)	2025.03.31
[논문 리뷰] DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION (0)	2025.03.23
[논문 리뷰] Zero-1-to-3: Zero-shot One Image to 3D Object \| Single-view object reconstruction (0)	2025.03.22
[Gen AI] Stable Diffusion: 이미지 생성 AI 이해하기 (0)	2024.11.04
VAE (Variational Autoencoder) 설명 \| VAE Pytorch 코드 예시 (0)	2024.01.06

[기술 소개] Text-to-Image Generation | 이미지 생성 AI | DALL-E | GPT | dVAE

'🏛 Research > Generative AI' 카테고리의 다른 글

티스토리툴바