Text to Image Generation
Text to Image generation์ ํ
์คํธ ์ ๋ณด๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์์ ํด๋น ํ
์คํธ์ ํด๋นํ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ธฐ์ ์ด๋ค. ๋ฅ๋ฌ๋ ๊ธฐ์ ์ ๋ฐ์ ์ผ๋ก ์ธํด 2010๋
๋ ์ค๋ฐ๋ถํฐ ๊ฐ๋ฐ๋๊ธฐ ์์ํด 2022๋
์๋ OpenAI์ DALL-E 2 , Google Brain์ Imagen , StabilityAI์ Stable Diffusion ๊ณผ ๊ฐ์ ์ต์ฒจ๋จ ํ
์คํธ-์ด๋ฏธ์ง ๋ชจ๋ธ์ ์ถ๋ ฅ๋ฌผ์ด ์ค์ ์ฌ์ง๊ณผ ์ฌ๋์ด ๊ทธ๋ฆฐ ์์ ํ์ ํ์ง์ ์ ๊ทผํ๊ธฐ ์์ํ๋ค.
Text to Image generation์์๋ ์ผ๋ฐ์ ์ผ๋ก ์ด๋ฌํ GAN(Generative Adversarial Networks) ๋ชจ๋ธ์ ํ
์คํธ์ ์ด๋ฏธ์ง๋ฅผ ์์ผ๋ก ์ด๋ฃจ๋ ๋ฐ์ดํฐ์
์ ํ์ต์์ผ์ ๊ตฌํํ๋ค. ์๋ฅผ ๋ค์ด, "A brown dog is sitting on a green grass field"๋ผ๋ ํ
์คํธ๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์ผ๋ฉด, ์ด์ ํด๋นํ๋ ๊ฐ๊ฐ ์ด๋ชฉ๋ฐญ์ ์์ ์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋๋ก ํ์ต๋ GAN ๋ชจ๋ธ์ ํด๋น ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ค. ์ด๋ฌํ Text to Image generation ๊ธฐ์ ์ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ๋ง์ ์์ฉ ๋ถ์ผ๊ฐ ์๋ค. ์๋ฅผ ๋ค์ด, ์ผ๋ฌ์คํธ๋ ๋์์ธ ์์
์ ๋์ ํด ์๋์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํ์ฌ ๊ฒ์, ์ธํ
๋ฆฌ์ด ๋์์ธ, ํจ์
, ๊ด๊ณ ์ฐ์
๋ฑ์์ ์ฌ์ฉ๋ ์ ์๊ณ , ๊ฐ์ํ์ค(VR) ๋ถ์ผ๋ ์์จ ์ฃผํ ๊ธฐ์ ์๋ ํ์ฉ๋ ์ ์๋ค.
GAN์ ์์ฑ์(Generator)์ ํ๋ณ์(Discriminator)๋ผ๋ ๋ ๊ฐ์ ๋คํธ์ํฌ๋ก ์ด๋ฃจ์ด์ ธ ์๋๋ฐ, ์์ฑ์๋ ์
๋ ฅ์ผ๋ก ๋ค์ด์จ ๋๋คํ ์ก์ ๋ฒกํฐ(noise vector)๋ฅผ ๋ฐ์์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ณ , ํ๋ณ์๋ ์์ฑ์๊ฐ ๋ง๋ ์ด๋ฏธ์ง์ ์ง์ง ์ด๋ฏธ์ง๋ฅผ ๊ตฌ๋ถํ์ฌ ์ผ๋ง๋ ์ง์ง ๊ฐ์์ง๋ฅผ ํ๋ณํ๋ ์ญํ ์ ํ๋ค. ํ์ต ๊ณผ์ ์์ ์์ฑ์๋ ํ๋ณ์๊ฐ ์์ฑํ ์ด๋ฏธ์ง๋ฅผ ์ง์ง ์ด๋ฏธ์ง๋ก ์ธ์ํ๋๋ก ํ์ตํ๊ณ , ํ๋ณ์๋ ์์ฑ์๊ฐ ๋ง๋ ์ด๋ฏธ์ง๋ฅผ ์ง์ง ์ด๋ฏธ์ง์ ๊ตฌ๋ถํ ์ ์๋๋ก ํ์ตํ๋ค.
DALL-E
์ต๊ทผ ๊ฐ์ฅ ์ ๋ช
ํ Text to Image ๋ถ์ผ์ ๋
ผ๋ฌธ ์ค ํ๋๋ "DALL-E: Creating Images from Text"์ด๋ค. ์ด ๋
ผ๋ฌธ์ OpenAI์์ 2021๋
1์์ ๋ฐํํ ๊ฒ์ผ๋ก, ํ
์คํธ ์
๋ ฅ์ ๋ํด ์์ธํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ํ์ ๋ชจ๋ธ์ ์ ์ํ๋ค. "DALL-E"๋ "Wall-E"์ "Salvador Dali"์ ์ด๋ฆ์ ํฉ์ณ ๋ง๋ ์ด๋ฆ์ผ๋ก, ๋ค์ํ ํ
์คํธ ์
๋ ฅ์ ๋ฐ์ ์ด์ ํด๋นํ๋ ๊ณ ํ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ ๋ชจ๋ธ์ด๋ค.
DALL-E ๋ชจ๋ธ์ 120์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง GPT-3(Generative Pre-trained Transformer 3)์ ์ด๋ฏธ์ง ์์ฑ์ ์ํ Discrete VAE์ ๊ธฐ๋ฐํ๋ฉฐ ์ฝ 2.5์ต๊ฐ์ ๋ฐ์ดํฐ์
(ํ
์คํธ ์ด๋ฏธ์ง ์)์ผ๋ก ํ์ต๋์๋ค.
๋ชจ๋ธ์ ํ์ต ๋ฐฉ๋ฒ์ ํฌ๊ฒ ๋ ๋จ๊ณ๋ก ์ด๋ฃจ์ด ์ง๋ค.
Stage 1
์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ ์ด๋ฏธ์ง์ ์์ถ-๋ณต์ ๊ณผ์ ์ ํตํด dVAE ์ธ์ฝ๋์ ๋์ฝ๋๋ฅผ ํ์ตํ๋ ๊ฒ์ด๋ค. 256x256 ํฌ๊ธฐ์ ์
๋ ฅ ์ด๋ฏธ์ง๋ฅผ 32x32 ํฌ๊ธฐ์ ์ด๋ฏธ์ง ํ ํฐ์ผ๋ก ์์ถํ๊ณ ๋ค์ ๋ณต์ํ ์ด๋ฏธ์ง๊ฐ ์๋ ์
๋ ฅ ์ด๋ฏธ์ง์ ์ ์ฌํ๋๋ก ํ์ตํ๋ ๊ฒ์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ํตํด ํ์ง์ ํฐ ์์ค์์ด transformer์ ์
๋ ฅ ํ ํฐ ์ํ์ค๋ฅผ ์๊ฒ ๋ง๋ค ์ ์๋ค. ์์ ์์ ์ด๋ฏธ์ง๋ฅผ ๋ณด๋ฉด ์
๋ ฅ ์ด๋ฏธ์ง์ ๋ํ
์ผ์ด ์ฝ๊ฐ์ฉ ์์ค๋์ง๋ง ์ ์ฒด์ ์ผ๋ก ๊ต์ฅํ ์ ๋ณต์๋๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ์ด ๋ ์ด๊ธฐ piror transformer ๋ ๊ณ ์ ํ ์ํ์ด๋ค.
๊ฒฐ๊ตญ ํ
์คํธ ์
๋ ฅ์ ํตํด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ์ํด์๋ ํ
์คํธ ํ ํฐ์ ์๋ฒ ๋ฉ(ํธ๋์คํฌ๋จธ์ ํฌ์๋ฉ)ํ ๊ฒฐ๊ณผ์ธ ์ด๋ค ๊ฐ์ dVAE ๋์ฝ๋์ ์
๋ ฅํด์ ์ ์ ํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํด์ผ ํ๋ค. ๋๋ฌธ์ stage 1์ ์ด๋ฏธ์ง๋ฅผ ์์ถํ ๊ฐ(32x32)์ด dVAE ๋์ฝ๋๋ฅผ ํตํด ์ ๋ณต์๋๋๋ก ํ์ตํด์ ์ถํ์ ํ
์คํธ ํ ํฐ์ ์๋ฒ ๋ฉํ ๊ฐ(prior transformer๋ฅผ ํตํด) ๋ํ dVAE ๋์ฝ๋๋ฅผ ํตํด ์ํ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋๋ก ์ค๋นํ๋ ๊ณผ์ ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
Stage 2
๋ ๋ฒ์งธ ๋จ๊ณ๋ ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์ ํ์ตํ dVAE๋ ๊ณ ์ ํ๊ณ prior transformer๋ฅผ ํ์ตํ๋ ๊ณผ์ ์ด๋ค. 256 ๊ฐ์ ํ
์คํธ ํ ํฐ๊ณผ dVAE๋ก ์์ถํ 1024๊ฐ(32x32)์ ์ด๋ฏธ์ง ํ ํฐ์ ์ฌ์ฉํ์ฌ transformer๋ฅผ autoregressiveํ๊ฒ ํ์ตํ์ฌ ํ
์คํธ ํ ํฐ๊ณผ ์ด๋ฏธ์ง ํ ํฐ์ joint distribution์ ํ์ตํ๋ค.
๋ฌด์จ ๋ง์ธ์ง ์๊ธฐ ์ฝ๊ฒ ์ธ์ด ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ๊ณ ๋น๊ตํด ๋ณด์.
์ธ์ด ๋ชจ๋ธ์ ๊ฒฝ์ฐ '๋๋' - '์ค๋๋' ๋ผ๋ ํ
์คํธ๋ฅผ ๋ชจ๋ธ์ ์ฃผ์
ํ๋ฉด '๋๋' - '์ค๋๋' - 'ํ๊ต์' ๋ฅผ ์ถ๋ ฅํ๊ณ , ๋ค์ '๋๋' - '์ค๋๋' - 'ํ๊ต์' ๋ฅผ ๋ชจ๋ธ์ ์
๋ ฅํด์ '๋๋' - '์ค๋๋' - 'ํ๊ต์' - '๋ฑ๊ตํ๋ค' ๋ผ๋ ๊ฒฐ๊ณผ๋ฅผ ์ฐ์์ ์ผ๋ก ์ป๋ ๋ฐฉ์์ผ๋ก ํ์ต์ ์งํํ๋ค.
DALL-E ๋ชจ๋ธ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ์ด๊ธฐ ๋๋ฌธ์ ํ
์คํธ ํ ํฐ์ ์
๋ ฅํ๊ณ 1024(32x32)๊ฐ ์ ์ด๋ฏธ์ง ํ ํฐ์ autoregressiveํ๊ฒ ์ถ๋ ฅํ๋ ๊ณผ์ ์ผ๋ก ํ์ตํ๋ค. ๋๋ ํ
์คํธ ํ ํฐ๊ณผ ์ด๋ฏธ์ง ํ ํฐ์ ์ผ๋ถ๋ฅผ ์
๋ ฅํ๋ฉด์ ๋ค์ ์ด๋ฏธ์ง ํ ํฐ์ ์์ฐจ์ ์ผ๋ก ์ถ๋ ฅํ๊ฒ ํ ์๋ ์๋ค. ๋ค์ ๋งํด, transformer ๋์ฝ๋์ ํ
์คํธ ํ ํฐ๊ณผ ์ด๋ฏธ์ง ํ ํฐ์ ์
๋ ฅํ๊ณ ์ถ๋ ฅ๋ ๋ค์ ์ด๋ฏธ์ง ํ ํฐ์ ๋ค์ ์
๋ ฅ ์ด๋ฏธ์ง ํ ํฐ์ ์ถ๊ฐํ์ฌ ๋์ฝ๋ ํฌ์๋ฉ์ ์ํํ๋ ๊ณผ์ ์ ๋ฐ๋ณตํ์ฌ ํ์ต์ ์งํํ๋ ๊ฒ์ด๋ค. ์ด๋ transformer๊ฐ ์
๋ ฅ ํ
์คํธ์ ๋ฐ๋ผ ์ด๋ค ์ด๋ฏธ์ง ํ ํฐ์ ์์ฑํ๋ฉด ๋๋์ง๋ฅผ ํ์ตํ๋ ๊ณผ์ ์ด๋ผ ๋ณผ ์ ์๋ค.
์ต์ข
์ ์ผ๋ก 1024๊ฐ์ ์ด๋ฏธ์ง ํ ํฐ์ด ๋ชจ๋ ์์ด๊ฒ ๋๋ฉด dVAE์ ๋ฃ์ด์ ๊ฒฐ๊ณผ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ฒ ๋๋ ๊ฒ์ด๋ค.
DALL-E 2
๋ฌผ๋ก ์ง๊ธ์ ์
๊ทธ๋ ์ด๋ ๋ฒ์ ์ธ DALL-E 2 ๊น์ง ๋ฐํ๋์๋ค. DALL-E ๋ชจ๋ธ์ ์ด์ ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ ์ด๋ฏธ์ง ์์ฑ ๊ณผ์ ์์ text-to-image ์ธ์๋ image-to-image ์์ฑ๊ณผ super-resolution ๋ฑ ๋ค์ํ ํ์คํฌ๋ฅผ ์ํํ ์ ์๊ณ ์์ฑํ๋ ์ด๋ฏธ์ง์ ํด์๋ ๋ํ 512x512๋ก ํฅ์๋์๋ค.
DALL-E2๋ GPT ๋ชจ๋ธ๊ณผ Transformer ๊ธฐ๋ฐ ์ํคํ
์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ๋๊ท๋ชจ์ ์ด๋ฏธ์ง์ ํ
์คํธ ๋ฐ์ดํฐ์
์ผ๋ก ์ฌ์ ํ์ต๋๋ค. ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ์บก์
์ ์์ฑํด์ฃผ๋ CLIP ๋ชจ๋ธ์ ๋ฐ๋๋ผ๊ณ ๋ณผ ์ ์๋ค. ์์ฐ์ด ํํ์ ์บก์
์ ๋ณด๊ณ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋๊น.
ํ์ต๋ ๋ชจ๋ธ์ ์ฃผ์ด์ง ํ
์คํธ ์ค๋ช
์ ๋ํด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ณ , ์ฃผ์ด์ง ์ด๋ฏธ์ง์ ํ
์คํธ ์ค๋ช
์์ผ๋ก๋ถํฐ ํน์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ฒ์ด ๊ฐ๋ฅํ๋ค. ๋ํ, ์์ฑ๋ ์ด๋ฏธ์ง์ ๋ํด ์ง๋ํ์ต์ ์ํํ์ฌ ์ด๋ฏธ์ง์ ํน์ ๋ถ๋ถ์ ์์ ํ๊ฑฐ๋, ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ฑ ๋ค์ํ ํ์ฉ์ด ๊ฐ๋ฅํ๋ค๋ ์ ์์ ์ด์ ๋ฒ์ ์ ๋นํด ํ์ฉ ๊ฐ์น๊ฐ ํจ์ฌ ๋์์ก๋ค.
*Text to Image ๋ถ์ผ ์ฌ์ ์ง์
- ๊ธฐ๋ณธ์ ์ธ CV & NLP ์ง์
- Transformer
- Large Language Model (LLM), GPT
- Autoregressive training
- Generative Adversarial Networks (GAN)
- Auto-Encoder (AE), Variational Auto-Encoder (VAE), Vector Quantised-Variational AutoEncoder (VQ-VAE), VQ-VAE-2