
Qwen(Alibaba Cloud)์์ ์์ค๊ธ์ ์คํ์์ค ์ด๋ฏธ์ง ์์ฑ ๋ฐ ํธ์ง ๋ชจ๋ธ์ ๊ณต๊ฐํ๋ฉด์ ํ์ ๊ฐ ๋๊ณ ์๋ค. ํ ํฌ๋์ปฌ ๋ฆฌํฌํธ๊ฐ ํจ๊ป ๊ณต๊ฐ๋์๊ธฐ์ ์ดํด๋ณด๊ณ ์ ํ๋ค. ๊ฐ์ธ์ ์ผ๋ก๋ ๋ฐ์ดํฐ ์์ง ๋ฐ ํํฐ๋ง ๋ถ๋ถ์ ๊ด์ฌ์ ๊ฐ์ง๊ณ ์ฝ์ด๋ดค๋ค.
1. ์ธํธ๋ก
Qwen์ ์๋ก์ด ์ด๋ฏธ์ง ์์ฑ ๋ฐ ํธ์ง ๋ชจ๋ธ Qwen-Image๋ฅผ ๊ณต๊ฐํ๋ฉฐ ์ฃผ๋ชฉ์ ๋ฐ๊ณ ์๋ค. ์ด ๋ชจ๋ธ์ ํ ์คํธ ๋ ๋๋ง๊ณผ ์ด๋ฏธ์ง ํธ์ง์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์คํ์์ค ํํ๋ก ์ ๊ณต๋๋ค๋ ์ ์์ ํฐ ์๋ฏธ๊ฐ ์๋ค. ํนํ ์์ด์ ๊ฐ์ ์ํ๋ฒณ ์ธ์ด๋ฟ๋ง ์๋๋ผ ์ค๊ตญ์ด์ ๊ฐ์ ํ์ ์ธ์ด๊น์ง ์ ๊ตํ๊ฒ ์ฒ๋ฆฌํ ์ ์๋ค๋ ์ ์์ ๊ธฐ์กด ๋ชจ๋ธ๋ค๊ณผ ์ฐจ๋ณํ๋๋ค.
Qwen-Image์ ํต์ฌ ๊ธฐ์ฌ๋ ํฌ๊ฒ ์ธ ๊ฐ์ง๋ก ์์ฝํ ์ ์๋ค. ์ฒซ์งธ, ์ ๊ตํ ํ ์คํธ ๋ ๋๋ง ๋ฅ๋ ฅ์ด๋ค. ๋จ์ํ ํ ์ค ๋ฌธ์ฅ์ด ์๋๋ผ ๋ฌธ๋จ ๋จ์์ ํ ์คํธ๊น์ง ์์ฐ์ค๋ฝ๊ฒ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค. ๋์งธ, ์ผ๊ด์ฑ ์๋ ์ด๋ฏธ์ง ํธ์ง์ด๋ค. ํ ์คํธ ๊ธฐ๋ฐ ํธ์ง, ์ด๋ฏธ์ง-ํ ์คํธ ํผํฉ ํธ์ง, ๋จ์ ์ด๋ฏธ์ง ๋ณด์ ๊น์ง ๋ค์ํ ํธ์ง ์๋๋ฆฌ์ค์์ ์๋ฏธ ๋ณด์กด๊ณผ ์๊ฐ์ ํ์ง์ ๋ชจ๋ ์ถฉ์กฑํ๋ค. ์ ์งธ, ๋ค์ํ ๋ฒค์น๋งํฌ์์์ ์ต๊ณ ์ฑ๋ฅ์ด๋ค. GenEval, DPG, OneIG-Bench ๊ฐ์ ์ด๋ฏธ์ง ์์ฑ ๋ฒค์น๋งํฌ๋ฟ ์๋๋ผ GEdit, ImgEdit, GSO ๊ฐ์ ํธ์ง ๋ฒค์น๋งํฌ์์๋ ์ผ๊ด๋๊ฒ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ๋ค.
์ด๋ฌํ ์ฑ๊ณผ๋ ๋ฐฉ๋ํ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ, ์ ์ง์ ํ์ต ์ ๋ต(curriculum learning), ๋ฉํฐํ์คํฌ ํ์ต ํจ๋ฌ๋ค์, ๊ทธ๋ฆฌ๊ณ ๋๊ท๋ชจ ๋ถ์ฐ ํ์ต ์ธํ๋ผ ์ต์ ํ๋ฅผ ํตํด ๊ฐ๋ฅํ๋ค. ๋ณธ ๊ธ์์๋ ํ ํฌ๋์ปฌ ๋ฆฌํฌํธ์ ๋ด์ฉ์ ๋ฐ๋ผ Qwen-Image์ ๋ชจ๋ธ ๊ตฌ์กฐ, ๋ฐ์ดํฐ ์ ๋ต, ํ์ต ๊ธฐ๋ฒ, ๊ทธ๋ฆฌ๊ณ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ฐจ๋ก๋ก ์ดํด๋ณธ๋ค.
2. Model

๋ณธ ์ ์์๋ QwenโImage์ ํต์ฌ ์ค๊ณ์ ๊ตฌ์ฑ ์์๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ค๋ช ํ๋ค. ์ ์ฒด ๋ชจ๋ธ์ (1) ์กฐ๊ฑด ์ธ์ฝ๋๋ก์์ ๋ฉํฐ๋ชจ๋ฌ LLM(Qwen2.5โVL), (2) ์๊ฐ ํ ํฌ๋์ด์ ๋ก์์ VAE, (3) ํ๋ฅ ์์ฑ์ ๋ณธ์ฒด์ธ ๋ฉํฐ๋ชจ๋ฌ ๋ํจ์ ํธ๋์คํฌ๋จธ(MMDiT) ๋ก ์ด๋ฃจ์ด์ง๋ค. ๊ฐ ๊ตฌ์ฑ์ ํ ์คํธ–์ด๋ฏธ์ง ์ ๋ ฌ์ ๊ฐํํ๊ณ , ๋ณต์กํ ํ ์คํธ ๋ ๋๋ง๊ณผ ์ ๋ฐ ํธ์ง์ ์์ ์ ์ผ๋ก ์ํํ๋๋ก ์ํธ ๋ณด์์ ์ผ๋ก ์ค๊ณ๋์๋ค.
2.1 ๋ชจ๋ธ ์ํคํ ์ฒ
Figure 6์ ๊ฐ์์ฒ๋ผ, Qwen-Image๋ ์ธ ๊ฐ์ง ์ฃผ์ ๋ชจ๋์ด ๊ฒฐํฉ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋๋ค.
- Multimodal Large Language Model (MLLM): ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ๋ฐ์ ํ๋ถํ ์๋ฏธ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํํ๋ ์กฐ๊ฑด ์ธ์ฝ๋. ์ฌ๊ธฐ์๋ Qwen2.5-VL์ ์ฌ์ฉํด ํ๋กฌํํธ ์ดํด ๋ฐ ๋น์ ·์ธ์ด ์ ๋ ฌ์ ๋ด๋นํ๋ค.
- Variational AutoEncoder (VAE): ์ด๋ฏธ์ง๋ฅผ ์ ์ฌ๊ณต๊ฐ(latent space) ํํ์ผ๋ก ์์ถํ๊ณ , ์์ฑ ๋จ๊ณ์์ ๋ค์ ๋ณต์ํ๋ ์ญํ ์ ํ๋ค. ํ ์คํธ ๋ ๋๋ง์ ์ํ ์ธ๋ฐํ ๋ํ ์ผ ๋ณต์ ํ์ง์ ๋ณด์ฅํ๋ค.
- Multimodal Diffusion Transformer (MMDiT): ๋ ธ์ด์ฆ์ ์ด๋ฏธ์ง ์ ์ฌ๋ฒกํฐ์ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ๋ ํต์ฌ ์์ฑ๊ธฐ๋ค. Flow-matching ๊ธฐ๋ฐ ํ์ต์ ํตํด ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ณผ์ ์ ๋ฐ๋ณตํ๋ฉฐ ์ต์ข ์ด๋ฏธ์ง๋ฅผ ๋ง๋ ๋ค.
์ด ๊ตฌ์กฐ๋ ํ
์คํธ ์ดํด(MLLM), ๊ณ ์ถฉ์ค๋ ์ด๋ฏธ์ง ํํ(VAE), ๊ฐ๋ ฅํ ํ๋ฅ ๋ชจ๋ธ๋ง(MMDiT)์ ๋ถ๋ฆฌํด ๊ฐ ๋ชจ๋์ ์ต์ ํํ ์ ์๊ฒ ํ๋ค.
์ค์ ์์ฑ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ด ์์ฝํ ์ ์๋ค.
- ์ฌ์ฉ์๊ฐ ํ ์คํธ ํ๋กฌํํธ(๋๋ ํ ์คํธ+์ด๋ฏธ์ง)๋ฅผ ์ ๋ ฅํ๋ค.
- MLLM(Qwen2.5-VL)์ด ์ ๋ ฅ์ ์๋ฉํฑ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํํ๋ค.
- VAE ์ธ์ฝ๋๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ ์ฌ๊ณต๊ฐ z๋ก ์์ถํ๋ค.
- MMDiT๊ฐ ์ ์ฌ๊ณต๊ฐ์์ ๋ ธ์ด์ฆ๋ฅผ ์ ์ฐจ ์ ๊ฑฐํ๋ฉด์ ์ด๋ฏธ์ง ๋ถํฌ๋ฅผ ํ์ต/์์ฑํ๋ค.
- ๋ง์ง๋ง์ผ๋ก VAE ๋์ฝ๋๊ฐ ๋ ธ์ด์ฆ๊ฐ ์ ๊ฑฐ๋ ์ ์ฌ๊ณต๊ฐ์ ์ค์ ์ด๋ฏธ์ง๋ก ๋ณต์ํ๋ค.
2.2 ๋ฉํฐ๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(MLLM)
Qwen2.5โVL์ ์กฐ๊ฑด ์ธ์ฝ๋๋ก ์ฑํํ ์ด์ ๋ ๋ค์ ์ธ ๊ฐ์ง๋ค.
- ์ฌ์ ์ ๋ ฌ๋ ๋น์ –์ธ์ด ๊ณต๊ฐ: ๋น์ –์ธ์ด ํํ์ด ์ด๋ฏธ ์ ๋ ฌ๋์ด ํ ์คํธโํฌโ์ด๋ฏธ์ง(T2I)์ ์ ํฉํ๋ฉฐ, ์์ LLM ๋๋น ์กฐ๊ฑด ์ ํธ๊ฐ ๋ ์ง์ ์ ์ด๋ค.
- ์ธ์ด ๋ชจ๋ธ๋ง ๋ณด์กด: ์ธ์ด ์ดํด/์ถ๋ก ๋ฅ๋ ฅ์ด ํผ์๋์ง ์์, ๊ธธ๊ณ ๊ตฌ์กฐํ๋ ํ๋กฌํํธ๋ ์์ ์ ์ผ๋ก ํด์ํ๋ค.
- ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ ์ง์: ์ด๋ฏธ์ง/ํ ์คํธ ๋์ ์กฐ๊ฑด์ ๋ค์ดํฐ๋ธ๋ก ์ฒ๋ฆฌํด ํธ์ง(TI2I) ๋ฑ ํ์ฅ ์์ ์ ์์ฐ์ค๋ฝ๊ฒ ํฌ๊ดํ๋ค.
์ ๋ ฅ ํ ์คํธ๊ฐ ์ฃผ์ด์ง๋ฉด, Qwen2.5-VL์ ๋ง์ง๋ง ๋ ์ด์ด ํ๋ ์ํ(hidden state)๋ฅผ ์กฐ๊ฑด ํํ ๋ก ์ฌ์ฉํ๋ค. ์์ ์ ํ์ ๋ฐ๋ผ ์๋ก ๋ค๋ฅธ ์์คํ ํ ํ๋ฆฟ์ ์ ์ฉํด ์กฐ๊ฑด ์ ํธ์ ์ผ๊ด์ฑ์ ๋์๋ค.

์ค๊ณ ํฌ์ธํธ
- (a) ์์, ์๋, ํ ์คํธ, ํํ, ํฌ๊ธฐ, ์ฌ์ง, ๊ณต๊ฐ ๊ด๊ณ ๋ฑ ์ด๋ฏธ์ง ๋ ๋๋ง์ ํ์ํ ์์๋ฅผ ์์ธํ ๊ธฐ์ ํ๋๋ก ํ๋กฌํํธ๋ฅผ ์ค๊ณํ๋ค.
- (b) ์์ ํ ์คํธ ์ ๋ ฅ๊ณผ ํ ์คํธ+์ด๋ฏธ์ง ์ ๋ ฅ์ ๊ฒฝ์ฐ์ ์๋ก ๋ค๋ฅธ ์์คํ ํ ํ๋ฆฟ์ ์ฌ์ฉํ์ฌ ์กฐ๊ฑด ํํ์ด ํ๋ค๋ฆฌ์ง ์๋๋ก ํ๋ค.
- (c) Qwen2.5-VL์ ์ต์ข ํ๋ ์ํ๋ง์ ์กฐ๊ฑด์ผ๋ก ํ์ฉํด ๋ค์ด์คํธ๋ฆผ ๋ชจ๋(MMDiT ๋ฑ)๊ณผ์ ๊ฒฐํฉ ๊ตฌ์กฐ๋ฅผ ๋จ์ํํ๋ค.
2.3 VAE
๊ฐ๋ ฅํ ์๊ฐ ์ ์ฌ ํํ์ ์์ฑ ํ์ง์ ์ํ์ ์ ์ข์ฐํ๋ค. QwenโImage๋ ๋จ์ผ ์ธ์ฝ๋·๋์ผ ๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ์ฑํํด ์ด๋ฏธ์ง์ ๋น๋์ค๋ฅผ ์์ฐ๋ฅด๋ ๋ฒ์ฉ ์ ์ฌ๋ฅผ ๋ชฉํ๋ก ํ๋ค.
- ์ํคํ ์ฒ ์ ํ: Wanโ2.1โVAE๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ธ์ฝ๋๋ฅผ freeze ํ๊ณ , ์ด๋ฏธ์ง ๋์ฝ๋๋ง ํ์ธํ๋ํ๋ค. ๋์ผ ์ธ์ฝ๋๋ฅผ ์ด๋ฏธ์ง/๋น๋์ค๊ฐ ๊ณต์ ํ๊ณ , ๋์ฝ๋๋ ๋ชจ๋ฌ๋ฆฌํฐ๋ณ๋ก ํนํ๋์ด ์ฑ๋ฅ ํํ์ ์ต์ํํ๋ค.
- ํ ์คํธโ๋ฆฌ์น ์ฝํผ์ค ํ์ต: PDF·์ฌ๋ผ์ด๋·ํฌ์คํฐ ๋ฑ ์ค์ธ๊ณ ๋ฌธ์์ ํฉ์ฑ ๋ฌธ๋จ์ ํฌํจํ ํ ์คํธโํ๋ถ ์ด๋ฏธ์ง๋ก ๋์ฝ๋๋ฅผ ์ถ๊ฐ ํ์ตํ์ฌ, ์์ ๊ธ์/์ธ๋ถ ๋ํ ์ผ ๋ณต์์ ์ค์ ๊ฐํ.
- Loss ์ค๊ณ: reconstruction + perceptual ์ ๊ฐ์ค ์กฐํฉ์ ๋์ ์ผ๋ก ์กฐ์ . ๋ฐ๋ณต ํจํด(์ํ ๋ฑ)์์ ๋ฐ์ํ๋ ๊ฒฉ์(aritifact)๋ฅผ ์ํ. ์ฌ๊ตฌ์ฑ ํ์ง์ด ๋์์ง๋ฉด GAN ํ๋ณ์ ์ ํธ์ ์ ํจ์ฑ์ด ๋จ์ด์ ธ adversarial ์์ค์ ์ ์ธ.
- Reconstruction Loss: L1/L2
- ์๋ณธ ์ด๋ฏธ์ง์ ๋ณต์๋ ์ด๋ฏธ์ง ํฝ์ ์ฐจ์ด๋ฅผ ์ง์ ๊ณ์ฐํ๋ ์์ค.
- ์์ ๊ธ์๋ ๋ฌธ์ ์ด๋ฏธ์ง์ฒ๋ผ ํฝ์ ๋จ์ ์ถฉ์ค๋๊ฐ ์ค์ํ ๊ฒฝ์ฐ ๋ฐ๋์ ํ์.
- ๋ค๋ง ๋จ์ ํฝ์ ์ฐจ์ด๋ง ์ฐ๋ฉด ๋งค๋๋ฝ์ง ์๊ณ ๋ธ๋ฌํ ๊ฒฐ๊ณผ๊ฐ ๋์ค๊ธฐ ์ฝ๋ค.
- Perceptual Loss
- VGG ๊ฐ์ ์ฌ์ ํ์ต๋ ๋คํธ์ํฌ์ ์ค๊ฐ feature map์์ ๋ ์ด๋ฏธ์ง ์ฐจ์ด๋ฅผ ๊ณ์ฐ.
- ํฝ์ ์ฐจ์ด๊ฐ ์๋๋ผ ์๊ฐ์ ์ผ๋ก ๋๊ปด์ง๋ ํ์ง ์ฐจ์ด๋ฅผ ์ค์ฌ์ค.
- ์: ๊ธ์ ํ์ด๋ ํ ์ค์ฒ ๊ฐ์ ๊ณ ์ฃผํ ๋ํ ์ผ์ ๋ ์ ๋ณต์ํ๋๋ก ์ ๋.
- Adversarial Loss
- ๋ณดํต์ ์ด๋ฏธ์ง๊ฐ “์ง์ง ๊ฐ์๊ฐ”๋ฅผ ํ๋ณํ๋ GAN ํ๋ณ์(discriminator)๋ฅผ ์ถ๊ฐ.
- ํ์ง๋ง ์ฌ๊ธฐ์๋ ์ฌ๊ตฌ์ฑ ํ์ง์ด ์ถฉ๋ถํ ์ฌ๋ผ๊ฐ๋ฉด ํ๋ณ์๊ฐ ๊ฑฐ์ ์ฐจ์ด๋ฅผ ๊ตฌ๋ณํ์ง ๋ชปํด ์ ํจํ ํ์ต ์ ํธ๋ฅผ ์ฃผ์ง ๋ชปํ๋ค๋ ๋ฌธ์ ๊ฐ ์์์.
- ๊ทธ๋์ GAN ๊ธฐ๋ฐ ์์ค์ ์ ์ธํ๊ณ , ์ฌ๊ตฌ์ฑ+์ง๊ฐ ์์ค์ ๊ฐ์ค์น๋ฅผ ๋์ ์ผ๋ก ์กฐ์ ํ๋ ๋ฐฉ์์ผ๋ก ์ต์ข ์ค๊ณ.
- Reconstruction Loss: L1/L2
- ํจ๊ณผ: ๋์ฝ๋๋ง์ ๊ฒฝ๋ ํ์ธํ๋์ผ๋ก๋ ๋ฌธ์ ๊ฐ๋ ์ฑ๊ณผ ๋ฏธ์ธ ๋ํ ์ผ์ด ์ ์๋ฏธํ๊ฒ ๊ฐ์ ๋๋ฉฐ, ์คํ์์ ์ ๋·์ ์ฑ ์งํ๋ก ๊ฒ์ฆ๋๋ค.
2.4 MMDiT
Qwen-Image์ ๋ณธ์ฒด ์์ฑ๊ธฐ๋ MMDiT(Multimodal Diffusion Transformer) ๊ตฌ์กฐ๋ก, ํ ์คํธ ํ ํฐ๊ณผ ์ด๋ฏธ์ง ์ ์ฌ(latent)๋ฅผ ํ๋์ ํธ๋์คํฌ๋จธ ๋ธ๋ก์์ ๋์์ ์ฒ๋ฆฌํ๋ค. ๊ธฐ์กด diffusion ๋ชจ๋ธ๋ค์ ์ฃผ๋ก U-Net ๊ธฐ๋ฐ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํด ์ด๋ฏธ์ง latent์ ํ ์คํธ ์กฐ๊ฑด์ cross-attention์ผ๋ก ๊ฒฐํฉํ์ง๋ง, ์ด๋ ๊ตฌ์กฐ๊ฐ ๋ณต์กํ๊ณ ํด์๋ ํ์ฅ์ ์ ์ฝ์ด ์์๋ค. ๋ฐ๋ฉด MMDiT๋ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ฐฑ๋ณธ๋ง์ผ๋ก ํตํฉ ์ค๊ณ๋ฅผ ๊ตฌํํ์ฌ ๋จ์์ฑ๊ณผ ํ์ฅ์ฑ์ ๋์์ ํ๋ณดํ๋ค.
2.4.1 ๊ธฐ์กด ์ ๊ทผ์ ํ๊ณ
- ๋จ์ ์ฐ๊ฒฐ(Concatenation)
ํ ์คํธ ํ ํฐ์ ์ด๋ฏธ์ง latent ๋ค์ ๋จ์ํ ์ด์ด๋ถ์ด๋ ๋ฐฉ์. ์ด ๊ฒฝ์ฐ ํ ์คํธ์ ์ด๋ฏธ์ง์ ๊ฒฝ๊ณ๊ฐ ๋ชจํธํ๊ณ , ํด์๋๊ฐ ๋ฌ๋ผ์ง ๋ positional encoding์ด ๊นจ์ง๊ธฐ ์ฝ๋ค. - Scaling RoPE ์ค์ ์ ๋ ฌ (Seedream 3.0 ๋ฑ)
ํ ์คํธ๋ฅผ 2D ํ ํฐ์ผ๋ก ๊ฐ์ฃผํด ์ด๋ฏธ์ง ์ค์ ํ(row)์ ๋ฐฐ์นํ๋ ๋ฐฉ์. ํ์ง๋ง ์ด๋ ๊ฒ ํ๋ฉด ํน์ ํ(์: ์ค์ 0ํ)์์ ํ ์คํธ์ ์ด๋ฏธ์ง ํฌ์ง์ ์ด ๋์ผํ ๊ฐ์ ๊ฐ์ ธ ๊ตฌ๋ถ์ด ์ด๋ ต๋ค.
2.4.2 MSRoPE: Multimodal Scalable RoPE (Qwen-Image ์ ์)

Qwen-Image๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด MSRoPE๋ฅผ ๋์ ํ๋ค.
- ํต์ฌ ์์ด๋์ด
ํ ์คํธ ์ ๋ ฅ์ 2D ํ ์๋ก ์ทจ๊ธํ๋, ๊ฐ๋ก·์ธ๋ก ๋์ผํ position ID๋ฅผ ์ฃผ์ด ์ด๋ฏธ์ง์ ๋๊ฐ์ (diagonal) ๋ฐฉํฅ์ ๋ฐ๋ผ ๋ฐฐ์นํ๋ค. - ํจ๊ณผ
- ์ด๋ฏธ์ง: ๊ธฐ์กด 2D-RoPE์ ์ฅ์ (ํด์๋ ์ค์ผ์ผ์ ๋์)์ ์ ์งํ๋ค.
- ํ ์คํธ: ์ฌ์ค์ 1D-RoPE์ ๋์น๋ผ ๊ธฐ์กด LLM์์ ์ฐ๋ ํํ๊ณผ ํธํ์ฑ์ด ๋๋ค.
- ํ ์คํธ/์ด๋ฏธ์ง ํฌ์ง์ ์ ๊ตฌ๋ถ ๊ฐ๋ฅ์ฑ์ด ๋ณด์ฅ๋์ด, attention์ด ํผ๋ ์์ด ์ modality๋ฅผ ์ฐ๊ฒฐํ๋ค.
- ์ค์ฉ์ฑ
๊ธฐ์กด RoPE ์คํ์ ํฌ์ง์ ๋งคํ๋ง ๊ต์ฒดํ๋ฉด ์ ์ฉ ๊ฐ๋ฅํ๊ณ , ์ถ๊ฐ์ ์ธ ํ์ต ํ๋ผ๋ฏธํฐ๊ฐ ํ์ ์๋ค. - ํ์ฅ์ฑ
๋ค์ค ์ด๋ฏธ์ง ์ ๋ ฅ(์: ํธ์ง ์์ ์์ ์๋ณธ ์ด๋ฏธ์ง์ ์์ ํ ์ด๋ฏธ์ง๋ฅผ ๋์์ ์กฐ๊ฑด์ผ๋ก ์ ๊ณต) ์์๋ ์๋ก์ด ์ถ์ธ frame dimension์ ๋์ ํ์ฌ ๊ฐ ์ด๋ฏธ์ง๋ฅผ ๊ตฌ๋ถํ ์ ์๋ค.
๊ฒฐ๊ตญ ์ด๋ฏธ์ง+ํ ์คํธ ํฌ์ง์ ๋ ์ธ์ฝ๋ฉ์์๋ ๋ ๋ชจ๋ฌ๋ฆฌํฐ์ ํน์ฑ์ ๋ฐ์ํ๋ฉด์๋, ์๋ก๊ฐ ๊ฒน์น๊ฑฐ๋ ํผ๋๋์ง ์๋๋ก ๊ตฌ๋ถ๋ ์์น ํํ์ ์ฃผ๋ ๊ฒ์ด ์ค์ํ๋ค. Qwen-Image๋ ์ด๋ฅผ ์ํด MSRoPE ๋ฐฉ์์ ๋์ ํด ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ์์ ์ ์ผ๋ก ์ ๋ ฌํ๋ฉด์๋ ์ค์ผ์ผ ๋ณํ์ ๊ฐํ ๊ตฌ์กฐ๋ฅผ ๊ตฌํํ๋ค.
2.4.3 ์ํคํ ์ฒ ๊ตฌ์ฑ ์์ฝ

- ๋ถ์ ํ ๋ชจ๋ํ: ์กฐ๊ฑด ์ดํด(MLLM), ์ ์ฌ ํํ(VAE), ํ๋ฅ ์์ฑ(MMDiT)์ ๋ถ๋ฆฌํ์ฌ ๊ฐ์ ํนํ๋ ๊ฐ์ ์ ์ต๋ํ ๋์ด๋๋ค. MLLM์ ํ๋กฌํํธ ํด์์, VAE๋ ์ถฉ์คํ ๋ณต์์, MMDiT๋ ๋๊ท๋ชจ ๋ถํฌ ๋ชจ๋ธ๋ง์ ์ง์คํ๋ค.
- ํ ์คํธ ๋ ๋๋ง ์ต์ ํ: ๋์ฝ๋๋ฅผ ํ ์คํธ-๋ฆฌ์น ๋ฐ์ดํฐ๋ก ํ์ธํ๋ํ์ฌ ์๋ฌธ์, ๋ณต์กํ ์์ฒด, ๋ฌธ๋จ ๋จ์ ํ ์คํธ๊น์ง ๋์ ๊ฐ๋ ์ฑ์ ํ๋ณดํ๋ค. ์ด๋ Table 1์์ ๋ณด์ด๋ VAE ๋์ฝ๋ ํ๋ผ๋ฏธํฐ ์ฆ์ค(73M)์ ์ง๊ฒฐ๋๋ค.
- MSRoPE: ํด์๋ ์ค์ผ์ผ ์ ๊ณผ์ ์์๋ ์์ ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , ํ ์คํธ/์ด๋ฏธ์ง ํฌ์ง์ ์ด ํผ๋๋์ง ์๋๋ก ๋ณด์ฅํ๋ค. ์ด๋ MMDiT์ 60๋ ์ด์ด ํธ๋์คํฌ๋จธ์ ๊ฒฐํฉํด ๊ณ ํด์๋์์๋ ์ ๋ฐํ ์์ฑ์ด ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- ๋ฉํฐ๋ชจ๋ฌ ํ์ฅ์ฑ: ๋จ์ผ ์ธ์ฝ๋–๋์ผ ๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ํตํด ์ด๋ฏธ์ง์ ๋น๋์ค๋ฅผ ์์ฐ๋ฅด๋ ๋ฒ์ฉ ์ ์ฌ ํํ์ ํ์ตํ๋ฉฐ, ํฅํ ๋น๋์ค ์์ฑ์ผ๋ก์ ํ์ฅ์ฑ์ ๋ด์ฌํ๋ค.
์ด๋ฌํ ์ค๊ณ๋ฅผ ํตํด Qwen-Image๋ ํ ์คํธ ์ผ๋ผ์ธ๋จผํธ, ์ธ๋ถ ๋ํ ์ผ ๋ณด์กด, ํด์๋ ํ์ฅ์ฑ์์ ๊ท ํ ์กํ ์งํ๋ฅผ ๋ฌ์ฑํ๋ค.
3. Data
Qwen-Image์ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ์์ง → ํํฐ๋ง → ์ฃผ์ → ํฉ์ฑ์ 4๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ฐ ๋จ๊ณ๊ฐ ์ปค๋ฆฌํ๋ผ ํ์ต๊ณผ ๋ง๋ฌผ๋ ค ํ ์คํธ ๋ ๋๋ง๊ณผ ํธ์ง ์ผ๊ด์ฑ์ ๊ฐํํ๋๋ก ์ค๊ณ๋์ด ์๋ค.
3.1 ๋ฐ์ดํฐ ์์ง

๋๊ท๋ชจ ์์ง์ ํต์ฌ์ ์์ด ์๋๋ผ ํ์ง๊ณผ ๋๋ฉ์ธ ๋ถํฌ์ ๊ท ํ์ด๋ค. Qwen-Image๋ ์ค์ ์ฌ์ฉ์ ํ๋กฌํํธ๊ฐ ์๊ตฌํ๋ ์ธ์ด·๋ ์ด์์·์ฅ๋ฅด ๋ค์์ฑ์ ๋ฐ์ํ๋๋ก ๋๋ฉ์ธ์ ์ค๊ณํ๋ค.
3.1.1 ๋๋ฉ์ธ ๊ตฌ์ฑ ๋ฐ ๋น์จ
๋ฐ์ดํฐ๋ Nature(์ฝ 55%) · Design(์ฝ 27%) · People(์ฝ 13%) · Synthetic(์ฝ 5%)๋ก ๊ตฌ์ฑ๋๋ค.
- Nature: ์ฌ๋ฌผ·ํ๊ฒฝ·๋์·์ค๋ด·์์ ๋ฑ ๊ด๋ฒ์ํ ์ผ๋ฐ ์ฅ๋ฉด. ์ฌ์ค์ ์ฌ์ง, ์กฐ๋ช , ๊ตฌ๋ ํ์ต์ ๊ธฐ๋ฐ์ด ๋์ด ๋ค๋ฅธ ๋๋ฉ์ธ ์ฑ๋ฅ ์์ ์ฑ์ ๋ณด์ฅ.
- Design: ํฌ์คํฐ·UI·ํ๋ ์ ํ ์ด์ ์ฌ๋ผ์ด๋·๋์งํธ ์ํธ ๋ฑ ํ ์คํธ์ ๋ ์ด์์์ด ํ๋ถํ ๊ตฌ์กฐ์ ์๊ฐ๋ฌผ. ํ ์คํธ ๋ ๋๋ง๊ณผ ๋ณต์ก ๋ ์ด์์ ์ฒ๋ฆฌ ํ์ต์ ํต์ฌ ์ถ.
- People: ์ธ๋ฌผ·์คํฌ์ธ ·ํ๋ ๋ฑ ์ฌ๋ ์ค์ฌ ์ด๋ฏธ์ง. ํธ์ง ์ ์๊ฐ์ ์ผ๊ด์ฑ(๋ฐฐ๊ฒฝ ์ ์ง), ์๋ฏธ์ ์ผ๊ด์ฑ(์ ์ฒด์ฑ ์ ์ง)์ ์ํด ํ์.
- Synthetic: ์ค์ ์ด๋ฏธ์ง๊ฐ ์๋ ํต์ ๋ ํฉ์ฑ ๋ฐ์ดํฐ. ํฌ๊ท ๋ฌธ์·ํผํฉ ์ธ์ด·ํฐํธ ๋ค์์ฑ·๋ค๋จ ๋ฐฐ์น ๊ฐ์ ๋กฑํ ์ผ ์ผ์ด์ค ๋ณด์์ฉ.
3.1.2 ์์ง ์ค๋ฌด ํ
- ํ ์คํธ ๋ฐ๋๊ฐ ๋์ ์ ์๋ฌธ์(PDF, PPT), ๊ฐํ, ํจํค์ง, ๊ด๊ณ ๋ฑ์ ์ฐ์ ํ๋ณดํ๋ฉด ํ ์คํธ ๋ ๋๋ง ์ฑ๋ฅ์ด ๋น ๋ฅด๊ฒ ํฅ์๋๋ค.
- ํฉ์ฑ ๋ฐ์ดํฐ๋ ์ ์ฒด ๋ถํฌ ์๊ณก์ ๋ง๊ธฐ ์ํด 5% ์ด๋ด๋ก ์ ์งํ๊ณ , ์ด์ํ ๊ธ์·ํฌ๊ท ํ์ ๊ฐ์ ํน์ ํ์คํฌ์ฉ์ผ๋ก ์ ํ์ ์ผ๋ก ์ฃผ์ ํ๋ ํธ์ด ์์ ์ ์ด๋ค.
3.2 ๋ฐ์ดํฐ ํํฐ๋ง

Qwen-Image๋ ๋ฐ์ดํฐ ํ์ง์ ๋จ์ํ ํ ๋ฒ ์ ์ ํ๋ ๊ฒ ์๋๋ผ, 7๋จ๊ณ(S1~S7) ์ ์ง์ ํํฐ๋ง ํ์ดํ๋ผ์ธ์ ์ค๊ณํด ํ์ต ๋์ด๋์ ํด์๋ ์ค์ผ์ผ ์ ์ ๋ง์ถฐ ๋ฐ์ดํฐ์ ์ ๊ณ ๋ํํ๋ค. ์ด๊ธฐ์๋ ์ต๋ํ ๋์ ๋ถํฌ๋ฅผ ํ๋ณดํ๊ณ , ํ๋ฐ์ผ๋ก ๊ฐ์๋ก ์ ์ ๊ธฐ์ค์ ๊ฐํํ๋ ๋ฐฉ์์ด๋ค.
3.2.1 S1: ์ด๊ธฐ ์ฌ์ ํ์ต ํ๋ ์ด์
- ํด์๋ 256p์์ ์์ํด ๋ค์ํ ์ข ํก๋น(1:1, 2:3, 3:2 …)๋ฅผ ์ ์งํด multi-aspect ratio ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Broken ํ์ผ, ๋๋ฌด ์์ ํด์๋, ์ค๋ณต, NSFW๋ฅผ ์ ๊ฑฐ → ๊ธฐ์ด ํ์ต ์์ ์ฑ ํ๋ณด.
3.2.2 S2: ํ์ง ํฅ์ ํํฐ

- ํ์ •์ ๋ช ๋•๋ฐ๊ธฐ•์ฑ๋•์ํธ๋กํผ•์ง๊ฐ ๊ธฐ์ค์ผ๋ก ์ ํ์ง ์ํ ์ ๊ฑฐ.
- ํนํ ์์ ๊ธ์ ํ, ์ฃ์ง ๋ณด์กด์ ํจ๊ณผ → ํ ์คํธ ๋ ๋๋ง ์ฑ๋ฅ ์ง์ ๊ฐํ.
3.2.3 S3: ์ด๋ฏธ์ง–ํ ์คํธ ์ ํฉ ๊ฐ์
- ์บก์
์์ค๋ฅผ Raw / Recaption(Qwen-VL Captioner) / Fused๋ก ๋๋.
- Raw: ์ง์์ฑ ํ๋ถํ์ง๋ง ๋ ธ์ด์ฆ ์์.
- Recaption: ๊ตฌ์กฐ์ ·์์ ์ .
- Fused: ๋ ์ฅ์ ์ ํฉ์ณ ์ง์+์์ ์ฑ ํ๋ณด.
- Chinese-CLIP, SigLIP2 ๊ธฐ๋ฐ ํํฐ๋ก ๋ฏธ์ค๋งค์น ์ ๊ฑฐ.
- Token Length, Invalid Caption ์ ๋ฆฌ → ์กฐ๊ฑด ์ ํธ ์ ํฉ์ฑ ๋ณด์ฅ.
3.2.4 S4: ํ ์คํธ ๋ ๋๋ง ๊ฐํ
- ์ธ์ด๋ณ(์์ด/์ค๊ตญ์ด/๊ธฐํ/๋นํ ์คํธ)๋ก ๋ถํ → ์ธ์ด ๊ท ํ ์ ์ง.
- ํฉ์ฑ ๋ฐ์ดํฐ ์ฃผ์ ์ผ๋ก ํฌ๊ท ๋ฌธ์·ํผํฉ ์ธ์ด ์ปค๋ฒ.
- Intensive Text, Small Character ํํฐ๋ก ๊ณผ๋ํ ๋ฌธ๋จ/์ด์ํ ๊ธ์ ์ ์ธ → ํ๋ จ ๋ถ์์ ์ฑ ๋ฐฉ์ง.
3.2.5 S5: ๊ณ ํด์๋(640p) ์ ์
- ํ์ง•ํด์๋•์ฌ๋ฏธ์ฑ
- ์ํฐ๋งํฌ•QR•๋ฐ์ฝ๋ ์ ๊ฑฐ.
- ๊ณ ํด์๋ ๋จ๊ณ์์ aesthetic ๊ธฐ์ค์ ๊ฐํํด ์๊ฐ์ ํ์ง๊ณผ ์ฌ์ค๊ฐ์ ๋์.
- ํ์ง: BRISQUE, NIQE, PIQE ๊ฐ์ no-reference IQA(์ด๋ฏธ์ง ํ์ง ํ๊ฐ) ์งํ ์ฌ์ฉํ๊ฑฐ๋ CLIP ์๋ฒ ๋ฉ ๊ธฐ๋ฐ IQA ๋ชจ๋ธ๋ ์ฌ์ฉ
- ์ฌ๋ฏธ์ฑ: LAION-Aesthetics predictor ๊ฐ์ ๊ณต๊ฐ ๋ชจ๋ธ ์ฌ์ฉ
3.2.6 S6: ์นดํ ๊ณ ๋ฆฌ ๋ฆฌ๋ฐธ๋ฐ์ฑ & ํฌํธ๋ ์ดํธ ๋ณด๊ฐ
- General / Portrait / Text Rendering์ผ๋ก ์ฌ๋ถ๋ฅ, ์ทจ์ฝ ๊ตฌ๊ฐ ๋ณด๊ฐ.
- ํฌํธ๋ ์ดํธ๋ ํ์ , ์๋ณต, ์กฐ๋ช , ๋ฌด๋๊น์ง ์บก์ ์ ๋ฐ์ํด ์ ์ฒด์ฑ+์ปจํ ์คํธ ์ผ๊ด์ฑ ๊ฐํ.
- ๋ชจ์์ดํฌ•๋ธ๋ฌ ์ผ๊ตด ์ ๊ฑฐ → ํ๋ผ์ด๋ฒ์์ ํ์ต ํผ๋ ๋ฐฉ์ง.
3.2.7 S7: ๋ฉํฐ์ค์ผ์ผ(640p+1328p) ๊ท ํ ํ์ต
- ๋จ์ผ ์ด๊ณ ํด์๋(1328p)๋ง ์ฐ๋ฉด ๋ถํฌ ์๊ณก ๋ฐ์ → ๊ณ์ธตํ ํ์๋ ธ๋ฏธ ์ค๊ณํด ์นดํ ๊ณ ๋ฆฌ๋ณ ์ต๊ณ ํ์ง ์ํ ๋ณด์กด.
- ํ ์คํธ ํฌํจ ์ํ ์ฌ์ํ๋ง์ผ๋ก ํ ํฐ ๋น๋ ๋กฑํ ์ผ ๋ณด์ .
- ๋ชฉํ: ๋ํ ์ผ ๋ฌ์ฌ๋ ฅ ํฅ์ + ์ ๋ฐ์ ๊ฐ๊ฑด์ฑ ์ ์ง.
S1~S7์ ๊ณผ์ ์ ๋ณด๋ฉด ๋จ์ํ ์ ํ์ง ์ด๋ฏธ์ง๋ฅผ ์ ๊ฑฐํ๋ ๊ฒ๋ฟ๋ง ์๋๋ผ, ์บก์ ๋ณด๊ฐ, ๋ฐ์ดํฐ ๋ถ๋ฅ/์ฌ๋ถ๋ฐฐ, ํฉ์ฑ ๋ฐ์ดํฐ ๋ณด๊ฐ ๋ฑ์ ํตํด ๋ฐ์ดํฐ์ ์ ๊ณ ๋ํํ๋ ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ์ ์ ์๋ค.
3.3 ๋ฐ์ดํฐ ์ด๋ ธํ ์ด์
Qwen-Image๋ “ํ๋์ ํจ์ค์์ ๋ค์ธต์ ์ฃผ์์ ๋์ ์์ฑ”ํ๋ ๋ฐฉ์์ ์ฑํํ๋ค. ์ฆ, ๋จ์ ์์ ์บก์ ๋ฟ ์๋๋ผ, ๊ตฌ์กฐํ ๋ฉํ๋ฐ์ดํฐ(JSON)๋ฅผ ํจ๊ป ์ถ๋ ฅํ๋๋ก ์ค๊ณํ์ฌ ์ดํ ํํฐ๋ง·์ํ๋ง·์ปค๋ฆฌํ๋ผ ํ์ต๊น์ง ์๋ํํ๋ค.
- ์์ ์บก์
(Caption)
- ๊ฐ์ฒด ์์ฑ(์์, ์ฌ์ง, ํฌ๊ธฐ ๋ฑ)
- ๊ณต๊ฐ ๊ด๊ณ(์ ๊ฒฝ/๋ฐฐ๊ฒฝ, ์๋์ ์์น)
- ํ๊ฒฝ ๋งฅ๋ฝ(์ค๋ด/์ค์ธ, ์กฐ๋ช , ๋ถ์๊ธฐ)
- ๋ณด์ด๋ ํ ์คํธ → ๋ฐ๋์ ์ธ์ฉ๋ถํธ๋ก ์๋ฌธ ๊ทธ๋๋ก ๊ธฐ๋ก (OCR ๊ฒ์ฆ์ฉ)
- ๊ตฌ์กฐํ JSON ๋ฉํ๋ฐ์ดํฐ
- "Image Type": product / natural / document / portrait ๋ฑ ๋ถ๋ฅ ํ๊ทธ
- "Image Style": studio / candid / cartoon / poster ๋ฑ ์คํ์ผ
- "Watermark List": ์ํฐ๋งํฌ, ๋ก๊ณ , QR ๋ฑ ๊ฒ์ถ๋ ์์ ๋ชฉ๋ก
- "Abnormal Element": ๊นจ์ง/ํฉ์ฑํฐ/์ ํด์/NSFW ์ฌ๋ถ
- ํ์ ์ "Language": ๋ณด์ด๋ ํ ์คํธ์ ์ธ์ด (EN/ZH/KO ๋ฑ)
3.3.1 ์ฃผ์ ํ๋กฌํํธ์ ์ถ๋ ฅ ์์

๋ ผ๋ฌธ์์๋ Qwen-VL ๊ธฐ๋ฐ ์ด๋ ธํ ์ด์ ํ๋กฌํํธ๋ฅผ ์ค๊ณํด ์ด๋ฏธ์ง ํ๋์์ Caption + JSON์ ํ๊บผ๋ฒ์ ๋ฝ์๋ธ๋ค.
{
"Caption": "ํฐ ๋ฐฐ๊ฒฝ ์ ๊ธ์ ๋จธ๊ทธ์ปต. ๋ผ๋ฒจ์ 'Cafe 24' ํ
์คํธ๊ฐ ์ธ์๋์ด ์๋ค.",
"Image Type": "product",
"Image Style": "studio",
"Watermark List": [],
"Abnormal Element": "no",
"Language": "ko"
}
3.3.2 ์ด์์ ์ด์
- ๊ฒ์์ฑ ๊ฐํ: ์์ฑ ๊ธฐ๋ฐ ๊ฒ์/ํํฐ๋ง์ด ๋ฐ๋ก ๊ฐ๋ฅ → ์: "Image Type"="document" AND "Language"="zh"๋ก ํ ์คํธ ํ๋ถํ ์ค๊ตญ์ด ๋ฌธ์๋ง ์ถ์ถ.
- ์ ํฉ ๊ฒ์ฆ: ์บก์ ๋ด ์ธ์ฉ ํ ์คํธ์ OCR ๊ฒฐ๊ณผ๋ฅผ ๋์กฐํด, ํ ์คํธ ๋ ๋๋ง ๋์ด๋ ์งํ๋ฅผ ์ฐ์ถํ๊ณ ์ปค๋ฆฌํ๋ผ ํ์ต ๋จ๊ณ(S4~S7)์ ๋ฐ์.
- ์๋ํ: ์ํฐ๋งํฌ·์ด์ ์์ ํ๊น ์ด ์๋ํ๋์ด ํ์ ๋ฐ์ดํฐ ํด๋ฆฌ๋ ํ์ดํ๋ผ์ธ๊ณผ ์ง์ ์ฐ๊ฒฐ๋จ.
- ๋ฉํฐํ์คํฌ ์ค๋น: Type/Style ํ๊ทธ๋ ์ดํ ๋ฉํฐํ์คํฌ ํ์ต(ํธ์ง, ์คํ์ผ ์ ํ ๋ฑ)์์ ์กฐ๊ฑด ์ ์ด ๋ณ์๋ก ์ฌํ์ฉ ๊ฐ๋ฅ.
3.4 ๋ฐ์ดํฐ ํฉ์ฑ

์ค์ธ๊ณ ํ ์คํธ๋ ๋กฑํ ์ผ ๋ถํฌ๊ฐ ์ฌํด, ํฌ๊ท ๋ฌธ์·๋ณต์กํ ๋ฐฐ์น·๋ค๊ตญ์ด ํผ์ฉ ๊ฐ์ ์ผ์ด์ค๊ฐ ์ค์ ๋ฐ์ดํฐ์์ ์ถฉ๋ถํ ๋ฑ์ฅํ์ง ์๋๋ค. Qwen-Image๋ ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด 3๋จ ํฉ์ฑ ์ ๋ต(Pure / Compositional / Complex Rendering)์ ์ค๊ณํ์ฌ, ์์ฐ ๋ฐ์ดํฐ๋ก๋ ์ปค๋ฒํ๊ธฐ ์ด๋ ค์ด ์์ญ์ ์ฒด๊ณ์ ์ผ๋ก ์ฃผ์ ํ๋ค.
3.4.1 Pure Rendering: ๋จ์ ๋ฐฐ๊ฒฝ ๋ฌธ๋จ
- ๋๊ท๋ชจ ํ ์คํธ ์ฝํผ์ค(๋ด์ค, ์ํค, ๊ธฐ์ ๋ฌธ์ ๋ฑ)์์ ๋ฌธ๋จ์ ์ถ์ถ.
- ์บ๋ฒ์ค ์์ ๊ธ์ ํฌ๊ธฐ, ์๊ฐ, ํ๊ฐ์ ๋๋ค ์ํ๋งํด ๋ฐฐ์น.
- ๋ ๋๋ง ์ค ์ผ๋ถ ์คํจํ๋ฉด ์ ์ฒด ์ํ ํ๊ธฐ → ํ์ง ๋ณด์ฆ.
- ํจ๊ณผ: ์ด์ํ ๊ธ์, ๋ณต์ก ์์ฒด, ์ปค๋(์๊ฐ) ํํ๋ ฅ ํฅ์.
3.4.2 Compositional Rendering: ๋งฅ๋ฝ ์ฅ๋ฉด ํฉ์ฑ
- ์ข ์ด, ๋๋ฌดํ, ๊ธ์ํ ๊ฐ์ ์ง๊ฐ ํ ์ค์ฒ ์์ ํ ์คํธ ํฉ์ฑ.
- ์ค์ ์ฌ์ง ๋ฐฐ๊ฒฝ๊ณผ ์ํ ๋ธ๋ ๋ฉํด ์์ฐ์ค๋ฌ์ด ์ฝ์ .
- Qwen-VL ๊ธฐ๋ฐ ์บก์ ์ผ๋ก “์ฅ๋ฉด-ํ ์คํธ ๊ด๊ณ”๋ฅผ ํจ๊ป ๊ธฐ์ .
- ํจ๊ณผ: ๊ฐํ, ํฌ์คํฐ, ๋ฉ๋ชจ์ง์ฒ๋ผ ๋งฅ๋ฝ ์ ํ ์คํธ ์ถ์ข ๋ฅ๋ ฅ ๊ฐํ.
3.4.3 Complex Rendering: ํ ํ๋ฆฟ ๊ธฐ๋ฐ ๋ณต์ก ๋ ์ด์์
- PPT ์ฌ๋ผ์ด๋, UI ๋ชฉ์ , ์ก์ง ๋ ์ด์์ ๊ฐ์ ๊ตฌ์กฐ์ ํ ํ๋ฆฟ ํ์ฉ.
- placeholder๋ฅผ ๊ท์น ๊ธฐ๋ฐ์ผ๋ก ์นํํ์ฌ ๋ค๋จ/์ ๋ ฌ/ํฐํธ·์์ ๊ท์น ์ ์ง.
- ํจ๊ณผ: ๋ฌธ๋จ·๋ชฉ๋ก·์์ด์ฝ·ํ๊ฐ ์ฝํ ๋ณต์ก ํ๋กฌํํธ ์คํ๋ ฅ ํ๋ณด.
3.4.4 ์ฃผ์์
- ํฉ์ฑ ๋น์ค์ ์ ์ฒด์์ ๊ณผ๋ํ์ง ์๊ฒ ์ ์งํ๊ณ , ์์ฐ ์ด๋ฏธ์ง์ ์ฃผ๊ธฐ์ ์ผ๋ก ๋ฆฌ๋ฐธ๋ฐ์ฑ.
- ํ ์คํธ ํฌ๊ธฐ ๋ถํฌ, ์ธ์ด๋ณ ๋ฌธ์ ๋น๋, ๋ฌธ๋จ ํ/์ด ์ ๋ฑ ํต๊ณ ์งํ๋ฅผ ๋ชจ๋ํฐ๋งํด ํฉ์ฑ ๋๋๋ฅผ ์กฐ์ .
- ๋ชฉํ๋ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฒด๊ฐ ์๋๋ผ, ์ค์ ํ๋กฌํํธ ๋ถํฌ์ ๋กฑํ ์ผ์ ๋ณด๊ฐํ๋ ๊ฒ.
4. Training
Qwen-Image์ ํ์ต์ Pre-training → Post-training → Multi-task 3์ถ์ผ๋ก ๊ตฌ์ฑ๋๋ค. ํต์ฌ์ flow matching ๊ธฐ๋ฐ ํ์ต ๋ชฉํ์ ๋๊ท๋ชจ ๋ถ์ฐ ์ต์ ํ ๊ธฐ๋ฒ์ ๊ฒฐํฉํ์ฌ ์์ ์ ์๋ ด๊ณผ ํ์ฅ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ ๊ฒ์ด๋ค.
4.1 Pre-training
4.1.1 Flow matching ๋ชฉํ์ ์์ ํด์ค
Qwen-Image๋ Rectified Flow ๊ณ์ด์ flow matching์ ํ์ต ๋ชฉํ๋ก ์ฑํํ๋ค. ์ด ๋ฐฉ์์ ODE ๊ธฐ๋ฐ ์ ์ํ๋ก ์์ ์ ์ธ ํ์ต ๋์ญํ์ ์ ๊ณตํ๋ฉด์๋, ์ต๋์ฐ๋์ถ์ (MLE)๊ณผ ์ํ์ ์ผ๋ก ๋์น์์ด ๋ณด์ฅ๋๋ค.
- ์ ๋ ฅ ์ด๋ฏธ์ง x0๋ VAE ์ธ์ฝ๋ E๋ฅผ ํตํด ์ ์ฌ z=E(x0๋ก ๋งคํ.
- ๋ ธ์ด์ฆ x1∼N(0,I)๋ฅผ ์ํ๋ง.
- ์ฌ์ฉ์ ์ ๋ ฅ S๋ก๋ถํฐ Qwen2.5-VL์ด ์กฐ๊ฑด ์ ์ฌ h=ฯ(S)๋ฅผ ์ถ์ถ.
- ์๊ฐ t∈[0,1]์ logit-normal ๋ถํฌ์์ ์ํ.
- Rectified Flow ์ ์์ ๋ฐ๋ผ intermediate latent variable์ velocity๋

- ์ฆ, vt๋ ๋ ธ์ด์ฆ์์ ์๋ณธ์ผ๋ก ๊ฐ๋ ์์ ๋ฒกํฐ์ด๋ค.
- ๋ชจ๋ธ์ fθ(xt,t,h)๋ก ์์ธกํ ์๋ vθ์ ์ ๋ต ์๋ vt์ ์ฐจ์ด๋ฅผ MSE๋ก ์ต์ํํ๋ค

์ฆ, “ํ๋ฆฟํ ์ด๋ฏธ์ง์์ ์๋ณธ์ผ๋ก ๊ฐ๋ ํ ๊ฑธ์์ ๋ฐฉํฅ”์ ๋ฐฐ์ฐ๋ ์ ์ด๋ค. ๋ฐ๋ผ์ step ์์ ๋ ๋ฏผ๊ฐํ๊ณ , ๊ณ ํด์๋ ํ์ต์์๋ ์๋ ด์ด ์์ ์ ์ด๋ค.
Rectified Flow ์์ ์์ธ ์ค๋ช
- x0: ์๋ณธ ์ด๋ฏธ์ง์ latent (๋ฐ์ดํฐ)
- x1: ์์ ๋ ธ์ด์ฆ latent (์ ๊ท๋ถํฌ N(0,I)\mathcal{N}(0,I)์์ ์ํ)
- xt: t ์์ ์์์ latent, ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ์ ์ ํ ๋ณด๊ฐ

- t=0 → xt=x1 → ์์ ํ ๋ ธ์ด์ฆ
- t=1 → xt=x0 → ์๋ณธ ๋ฐ์ดํฐ
- 0<t<1 → ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ๊ฐ ์์ธ ์ค๊ฐ ์ํ

๋ฏธ๋ถํ๋ฉด ํญ์ x0−x1, ์ฆ ๋ ธ์ด์ฆ์์ ๋ฐ์ดํฐ๋ก ํฅํ๋ ์ผ์ ํ ์๋ ๋ฒกํฐ๊ฐ ๋์จ๋ค.
- ๋ฐฉํฅ: ๋ ธ์ด์ฆ์์ ์๋ณธ์ผ๋ก ํฅํ๋ ๋ฐฉํฅ
- ํฌ๊ธฐ: ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ ์ฌ์ด์ ๊ฑฐ๋ฆฌ
๋ฐ๋ผ์ ๋ชจ๋ธ์ ๊ฐ xt ์์น์์ “์ง๊ธ ์ด latent๊ฐ ์ด๋ ๋ฐฉํฅ์ผ๋ก ์์ง์ฌ์ผ ๋ฐ์ดํฐ์ ๊ฐ๊น์์ง๋์ง”๋ฅผ ํ์ตํฉ๋๋ค.
4.1.2 Producer–Consumer ํ๋ ์์ํฌ
๋๊ท๋ชจ GPU ํด๋ฌ์คํฐ์์ ์ค๋ฃจํ๊ณผ ์์ ์ฑ์ ๋์์ ๋ฌ์ฑํ๊ธฐ ์ํด, ์ ์ฒ๋ฆฌ(Producer)์ ํ์ต(Consumer)์ ๋ถ๋ฆฌํ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ๋ค.
- Producer
- ํด์๋·ํ์ง ํํฐ๋ง → Qwen2.5-VL๋ก ์กฐ๊ฑด ์ ์ฌ h, VAE๋ก ์ฌ๊ตฌ์ฑ ์ ์ฌ z๋ฅผ ์ฌ์ ์ธ์ฝ๋ฉ
- ํด์๋๋ณ ์บ์ ๋ฒํท์ผ๋ก ๋ฌถ์ด ์์น ์ธ์ํ ์คํ ์ด(shared store)์ ์ ์ฌ
- Transport Layer
- RPC ์๋ฏธ๋ก ์ ์ง์ํ๋ ์ ์ฉ HTTP ๋ ์ด์ด → ๋น๋๊ธฐ·zero-copy ์ ์ก
- Consumer
- GPU ๋ฐ์ง ๋ ธ๋์์ ์ค์ง MMDiT ํ์ต๋ง ์ ๋ด
- ํ๋ผ๋ฏธํฐ๋ 4-way tensor parallel๋ก ๋ถ์ฐ, ๋ฐ์ดํฐ ๋ณ๋ ฌ ๊ทธ๋ฃน์ด Producer์์ ๋น๋๊ธฐ pull
์ด์์ ์ด์ : ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ํ์ต ์ค๋จ ์์ด ์ ๋ฐ์ดํธ ๊ฐ๋ฅ, Producer๊ฐ ์ ์ฒ๋ฆฌ๋ฅผ ๋ชจ๋ ๋ด๋นํด GPU ์์์ด ํ์ต์๋ง ์ง์ค๋จ → idle time ์ต์ํ.
4.1.3 ๋ถ์ฐ ํ์ต ์ต์ ํ
- ํ์ด๋ธ๋ฆฌ๋ ๋ณ๋ ฌ ์ ๋ต
- ๋ฐ์ดํฐ ๋ณ๋ ฌ + ํ ์ ๋ณ๋ ฌ์ ๊ฒฐํฉ.
- Transformer-Engine์ผ๋ก ํ ์ ๋ณ๋ ฌ degree๋ฅผ ์๋ ์ ํ.
- Multi-head self-attention์ head-wise parallelism์ ์ฌ์ฉํด ํต์ ์ค๋ฒํค๋ ์ํ.
- ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ
- Activation checkpointing์ ๋ฉ๋ชจ๋ฆฌ 11.3% ๊ฐ์ ํจ๊ณผ(71→63GB/GPU) ์์์ง๋ง, step ์๊ฐ์ด 3.75× ์ฆ๊ฐํด ์ ์ฒด ํ์ต ์๋๊ฐ ์คํ๋ ค ์ ํ → ์ต์ข ์ ์ผ๋ก ๋นํ์ฑํ.
- ๋์ ๋ถ์ฐ ์ตํฐ๋ง์ด์ (all-gather: bfloat16, reduce-scatter: float32)๋ฅผ ์ฌ์ฉํด ์๋·์์ ์ฑ ์ ์ถฉ.
4.1.4 ์ปค๋ฆฌํ๋ผํ ํ์ต ์ ๋ต
Qwen-Image๋ ๋จ์ผ ์ท์ผ๋ก ๋ชจ๋ ๋๋๋ฅผ ํ์ต์ํค๋ ๋์ , ํ์ต ์งํ์ ๋ฐ๋ผ ๋ฐ์ดํฐ์ ๊ณผ์ ๋๋๋ฅผ ์ ์ง์ ์ผ๋ก ์ฌ๋ฆฌ๋ ์ปค๋ฆฌํ๋ผ ํ์ต(curriculum learning) ๋ฐฉ์์ ์ฑํํ๋ค. ์ด ์ ๊ทผ์ ๋ชจ๋ธ์ด ๋จผ์ ์์ ์ ์ผ๋ก ๊ธฐ๋ณธ ๋ฅ๋ ฅ์ ํ๋ณดํ ๋ค, ์ ์ฐจ ๋ณต์กํ๊ณ ๊น๋ค๋ก์ด ์กฐ๊ฑด์ ํ์ตํด ๋๊ฐ๋๋ก ์ค๊ณ๋์๋ค.
- ํด์๋ ์์น
- 256p (multi-aspect ratio) → 640p → 1328p
- ์ด๊ธฐ์๋ coarseํ ๊ตฌ์กฐ์ ์ ๋ฐ์ ํจํด์ ์์ ์ ์ผ๋ก ํ์ต.
- ํ๋ฐ์๋ ๊ณ ํด์๋ ํ ์ค์ฒ, ์ธ๋ฐํ ๊ฒฝ๊ณ(edge), ์์ ๊ทธ๋ผ๋์ธํธ๊น์ง ํํํ ์ ์๊ฒ ๋๋ค.
- ๋นํ
์คํธ → ํ
์คํธ
- ์ด๊ธฐ์๋ ์ผ๋ฐ ์๊ฐ ํํ(๋ฌผ์ฒด·์ฅ๋ฉด) ์ค์ฌ.
- ์ดํ ํ ์คํธ๊ฐ ํฌํจ๋ ์ด๋ฏธ์ง(๊ฐํ, ๋ฌธ์, ํฌ์คํฐ)๋ฅผ ์ ์ง์ ์ผ๋ก ์ฃผ์ .
- ํนํ ํ์ค์ผ(CJK) ๋ฌธ์์ฒ๋ผ ๊ธ์ ์๊ฐ ๋ฐฉ๋ํ ์ธ์ด์์ ์ฑ๋ฅ ํฅ์์ด ๋๋๋ฌ์ง.
- ๋๊ท๋ชจ → ์ ์ ๋ฐ์ดํฐ
- ์ด๋ฐ: ์์ต ๋จ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก ๊ธฐ๋ณธ์ ์ธ ์์ฑ ๋ฅ๋ ฅ์ ํ์ฑ.
- ํ๋ฐ: ํํฐ๋ง์ ์๊ฒฉํ ์ ์ฉํด ๊ณ ํ์ง ์ํ๋ง ํ์ต.
- ์ด๋ ๊ฒ ํ๋ฉด ๋ ธ์ด์ฆ ๋ง์ ๋ฐ์ดํฐ๋ก๋ ์ด๊ธฐ ํํ๋ ฅ์ ํ๋ณดํ๋ฉด์, ํ๋ฐ์๋ ๊นจ๋ํ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ ceiling์ ๋์ด์ฌ๋ฆผ.
- ๋ถํฌ ๊ท ํํ
- ๋๋ฉ์ธ·ํด์๋ ๋ถํฌ๊ฐ ๋ถ๊ท ํํ๋ฉด ํน์ ์กฐ๊ฑด์์ ์ฑ๋ฅ ์ ํ.
- ์: ํ๊ฒฝ ์ด๋ฏธ์ง๋ ์ ๋๋๋ฐ, ํฌ์คํฐ๋ ์ธ๋ฌผ ์ฌ์ง์์ ๋ฌด๋์ง ์ ์์.
- ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ํ์ต ํ๋ฐ๋ถ์๋ underrepresented ์ผ์ด์ค(์: ์์ ๊ธ์, ํน์ ์ธ์ด, ์ธ๋กํ ๋ ์ด์์)๋ฅผ ์ ๊ทน oversamplingํ์ฌ ๊ท ํ์ ๋ง์ถค.
- ํ์ค → ํฉ์ฑ ๋ณด๊ฐ
- ์ค์ ๋ฐ์ดํฐ์ ๊ฑฐ์ ์๋ ์ผ์ด์ค๋ฅผ ํฉ์ฑ ๋ฐ์ดํฐ๋ก ์ฑ์.
- ํฌ๊ท ๋ฌธ์ (์: ๊ณ ๋ ๋ฌธ์, ํน์ ๊ธฐํธ)
- ๋ณต์กํ ๋ค๋จ ๋ ์ด์์ (์ ๋ฌธ·UI ๋ชฉ์ )
- ์ด๊ณ ๋ฐ ํ ์คํธ (๊ฐํ, ์ธํฌ๊ทธ๋ํฝ)
- ํฉ์ฑ ๋น์ค์ ์ ํ์ ์ผ๋ก๋ง ์ฃผ์ , ์ ์ฒด ๋ถํฌ๊ฐ ์๊ณก๋์ง ์๊ฒ ์ฃผ๊ธฐ์ ๋ฆฌ๋ฐธ๋ฐ์ฑ์ ์ํ.
- ํจ๊ณผ: ๋กฑํ ์ผ(ํฌ๊ท ์ผ์ด์ค)๊น์ง robustํ๊ฒ ์ปค๋ฒ.
- ์ค์ ๋ฐ์ดํฐ์ ๊ฑฐ์ ์๋ ์ผ์ด์ค๋ฅผ ํฉ์ฑ ๋ฐ์ดํฐ๋ก ์ฑ์.
4.2 Post-training
Qwen-Image์ ํ์ต์ Pre-training → Post-training → Multi-task ํ์ฅ์ ์ธ ์ถ์ผ๋ก ์งํ๋๋ค. Pre-training์์ ๋ชจ๋ธ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก “๋ณดํธ์ ์๊ฐ·ํ ์คํธ ๊ฒฐํฉ ๋ฅ๋ ฅ”์ ์ต๋ํ๋ค. ๊ทธ๋ฌ๋ ๋๊ท๋ชจ ์ฌ์ ํ์ต๋ง์ผ๋ก๋ ์ฌ์ ํ ์ทจ์ฝํ ์ธ๋ถ ์์ญ์ด ์กด์ฌํ๊ธฐ์ ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด Post-training์ด ์ํ๋๋ค.
MLLM(Qwen2.5-VL)์ ๊ณ์ ํ๋ฆฌ์ง์ด๊ณ , VAE๋ ์ธ์ฝ๋๋ ํ๋ฆฌ์ง, ๋์ฝ๋๋ pre-training ๊ตฌ๊ฐ์์๋ง ๋ณ๋ ํ์ธํ๋์ ์งํํ๋ค. MMDiT์ ๊ฒฝ์ฐ Pre-training > SFT > DPO > GRPO ์ ๋จ๊ณ์์ ๊ณ์ ํ์ตํ๋ฉฐ ์ ๋ฐ์ดํธ๋๋ค.
4.2.1 Supervised FineโTuning (SFT)
๋ชฉ์ : Pre-training์ผ๋ก๋ ๋์น๊ธฐ ์ฌ์ด ์ธ๋ฐํ ์์ญ์, ์ฌ๋ ์ฃผ์ ๊ธฐ๋ฐ์ผ๋ก ์ง์ ๋ณด์ .
- ๋ฐ์ดํฐ์ ๊ตฌ์ฑ: ๊ณ์ธต์ ์๋ฏธ ์นดํ ๊ณ ๋ฆฌ(hierarchical categories)๋ฅผ ๋ง๋ค์ด ๋ถ๋ฅ๋ณ๋ก ์ทจ์ฝ์ ์ ์ง์ค ๊ณต๋ต.
- ์ํ ์ ์ ๊ธฐ์ค: ์ ๋ช , ๋ํ ์ผ ํ๋ถ, ๋ฐ์, ํฌํ ๋ฆฌ์ผ๋ฆฌ์ฆ.
- ์ฌ๋ ์ฃผ์ ํ์ฉ: ๋จ์ ์บก์ ์ด ์๋๋ผ “์ด ํ๋กฌํํธ์๋ ์ด๋ฐ ๋ํ ์ผ์ด ๋ฐ๋์ ์ด์์ผ ํ๋ค”๋ ํํ๋ก ๊ณ ํ์ง ๋ ์ด๋ธ.
- ํจ๊ณผ:
- ํ๋กฌํํธ ์ถฉ์ค๋ ↑ (Prompt adherence)
- ์ง๊ฐ·๊ด์·๋ชจ๋ฐ·์ฃ์ง ๊ฐ์ ๋ฏธ์ธ ์์ ๊ฐ์
- ๊ฒฐ๊ณผ๋ฌผ์ ์ฌ์ง์ ๋ฆฌ์ผ๋ฆฌ์ฆ ๊ฐํ
์ฆ, SFT๋ “Pre-training์์ ๋์น ํ์๋ฅผ ์์์ ์ผ๋ก ๋ฉ์์ฃผ๋ ๋จ๊ณ”๋ผ ํ ์ ์๋ค.
4.2.2 Reinforcement Learning (RL)
๋ชฉ์ : ๋จ์ํ “์ ๋ง๋ค/ํ๋ฆฌ๋ค” ์์ค์ ๋์ด์,
- ์ฌ์ฉ์ ์ ํธ์ ์ ๋ ฌ(Preference alignment)
- ์ธ๋ฐํ ์ ์ด๋ ฅ ํ๋ณด
๋ ๊ฐ์ง๋ฅผ ๋ฌ์ฑํ๋ค.
4.2.2.1 DPO(Direct Preference Optimization)
- Flow matching ๊ตฌ์กฐ์ ์ ๋ง๊ณ , ๋๊ท๋ชจ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์๋ ํจ์จ์ . ์คํ๋ผ์ธ ๋ฐฉ์
- ๋ฐ์ดํฐ ์ค๋น
- ๊ฐ์ ํ๋กฌํํธ๋ก ์ฌ๋ฌ ์ด๋ฏธ์ง๋ฅผ ์์ฑ → ์ฌ๋์ด best์ worst ์ ํ
- Gold reference๊ฐ ์๋ ๊ฒฝ์ฐ๋ ๊ธฐ์ค๊ณผ ๊ดด๋ฆฌ๊ฐ ํฐ ์ํ์ “reject”๋ก ์ง์
- ํ์ต ๊ฐ๋
- ์น์/ํจ์ ์์ velocity ์ค์ฐจ ์ฐจ์ด(Diff)๋ฅผ ๋น๊ต
- ์ ์ฑ ๋ชจ๋ธ์ด ์ฐธ์กฐ(reference)๋ณด๋ค ๋ ์ ํธ๋๋ ์ชฝ์ผ๋ก ํ๋ฆ์ ๋ง์ถ๋๋ก ํ์ต
- ํจ๊ณผ
- ๋๊ท๋ชจ ์คํ๋ผ์ธ ์ ๋ ฌ์ ์ ํฉ
- ์ ๋ฐ์ ์ธ ์ฌ์ฉ์ ๋ง์กฑ๋๋ฅผ ๋น ๋ฅด๊ฒ ๋์ด์ฌ๋ฆผ
4.2.2.2 GRPO(Group Relative Policy Optimization)
- ์ธ๋ฐํ refinement์ ์ ํฉ. ์จ๋ผ์ธ (on-policy) ๋ฐฉ์
- ๋ฐฉ๋ฒ:
- ํ ํ๋กฌํํธ์์ ์ฌ๋ฌ ์ฅ(G๊ฐ)์ ์์ฑ
- Reward model ์ด ๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ ์ ๋งค๊น.
- ๊ทธ๋ฃน ๋ด ํ๊ท /ํ์คํธ์ฐจ๋ก ๋ณด์ ์ ๊ทํ → ๊ฐ ์ํ์ ์๋์ “์ด์ (Advantage)” ๊ณ์ฐ.
- on-policy ๋ฐฉ์: ์ํ์ ์์ฑํ๋ฉด์ ์ฆ์ ๋ณด์ → ๋ชจ๋ธ weight ์ ๋ฐ์ดํธ.
- Flow matching sampling์ด ์๋ deterministic์ด๋ผ์, exploration(ํ์์ฑ)์ ์ํด ODE → SDE๋ก reformulation + ๋ ธ์ด์ฆ σt ์ฃผ์ .
- ํจ๊ณผ:
- DPO์์ ์ปค๋ฒ ๋ชป ํ ์ธ๋ฐํ ์ทจํฅ ์กฐ์ (์: ๊ธด ๋ฌธ๋จ ๋ ๋๋ง, ๋ณต์ก ํธ์ง)
- ์์ ์์ญ์ ํ๋ฆฌํฐ๋ฅผ ์ ๊ตํ๊ฒ ๋ค๋ฌ์
DPO๋ก ๊ด๋ฒ์ ์คํ๋ผ์ธ ์ ๋ ฌ์ ๋จผ์ ์ํํ๊ณ , GRPO๋ก ๊ธด ๋ฌธ๋จ ๋ ๋๋ง·๋ณต์ก ํธ์ง ๋ฑ ์ธ๋ถ ์์ญ์ ๋ฏธ์ธ ๋ณด์ ํ๋ค.
4.3 Multiโtask training

- ์ค์ฌ์ฉ ์๋๋ฆฌ์ค๊ฐ T2I๋ง์ผ๋ก ๋๋์ง ์์: ์ฌ์ฉ์ ์๊ตฌ๋ T2I๋ฟ ์๋๋ผ, ๊ธฐ์กด ์ด๋ฏธ์ง๋ฅผ ์ง์๋๋ก ๋ฐ๊พธ๊ธฐ(TI2I), ์๋ณธ์ ๊ทธ๋๋ก ์ฌ๊ตฌ์ฑ(I2I), ์์ ์ ๋๋ ค๋ณด๊ธฐ(์ ๊ท ๋ทฐ ํฉ์ฑ), ์ฌ๋/์์ง ๋ฑ ๊ณ ์ ๋น์ ๊ณผ์ ๊น์ง ์ด์ด์ง๋ค.
- ์ผ๊ด์ฑ·๋ณด์กด์ฑ ๋ฌธ์ : ์์ T2I๋ง ํ์ตํ๋ฉด ํธ์ง ์ ์์ด๋ดํฐํฐ, ๋ฐฐ๊ฒฝ, ํ์ดํฌ๊ทธ๋ํผ๊ฐ ์ฝ๊ฒ ๊นจ์ง๋ค. ์ ๋ ฅ ์ด๋ฏธ์ง์ ํฝ์ ๋ ๋ฒจ ๋จ์๊น์ง ํ์ฉํด์ผ ๋ณด์กด์ฑ์ด ์ฌ๋ผ๊ฐ.
- ๋ฐ์ดํฐ·๋ชจ๋ธ ํจ์จ: ์ฌ๋ฌ ์ ์ฉ ๋ชจ๋ธ ๋์ ํ๋์ ๋ฐฑ๋ณธ(MMDiT) ์์์ ํ์คํฌ๋ฅผ ํตํฉํ๋ฉด ๋ฐ์ดํฐ·์ธํ๋ผ ํ์ดํ๋ผ์ธ, ์ค์ผ์ผ๋ง ์ ๋ต, ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ๊ณต์ ํ ์ ์์ด ํ์ต·์๋น ํจ์จ์ด ๋๋ค.
T2I ์ธ์ TI2I(์ง์ ๊ธฐ๋ฐ ํธ์ง), ์ ๊ท ๋ทฐ ํฉ์ฑ, ๊น์ด ์ถ์ ๋ฑ์ ๋จ์ผ ๋ฐฑ๋ณธ์ผ๋ก ์์ฐ๋ฅธ๋ค. ์ด๋ฅผ ์ํด ๋ ๊ฐ์ง ์กฐ๊ฑด ์ ํธ๋ฅผ ํจ๊ป ํฌ์ ํ๋ค.
4.3.1 ์ด์ค ์ปจ๋์ ๋
- MLLM ์๋ฏธ ์๋ฒ ๋ฉ h: ํ ์คํธ(๏ผ์ ํ์ ์ ๋ ฅ ์ด๋ฏธ์ง)์ ๋ํ ๊ณ ์์ค ์๋ฏธ/๋ฌธ๋งฅ์ ์ ๊ณต → ํ๋กฌํํธ ์์, ์ง์ ํด์์ด ์ข์์ง.
- VAE ํฝ์ ์๋ฒ ๋ฉ z: ์ ๋ ฅ ์ด๋ฏธ์ง ์์ฒด๋ฅผ VAE ์ธ์ฝ๋๋ก ์ ์ฌํํ ์ ํธ → ์ ์์ค ๋ํ ์ผ·๊ตฌ์กฐ๋ฅผ ๋ณด์กด.
- ๊ฒฐํฉ ๋ฐฉ๋ฒ: MMDiT์ ์ด๋ฏธ์ง ์คํธ๋ฆผ์ target ์ด๋ฏธ์ง์ ๋ ธ์ด์ฆ ์์ธ latent์ ์ ๋ ฅ ์ด๋ฏธ์ง์ VAE latent๋ฅผ ์ํ์ค ๋ฐฉํฅ์ผ๋ก ์ด์ด ๋ถ์ฌ(concat) ํฌ์ ํ๋ค.
- MMDiT๋ ํ ์คํธ ์คํธ๋ฆผ๊ณผ ์ด๋ฏธ์ง ์คํธ๋ฆผ(์ ๋ ฅ ์ด๋ฏธ์ง latent + ํ๊ฒ ์ด๋ฏธ์ง/๋ ธ์ด์ฆ latent) ์์์ joint self-attention์ ์ํํ๋ค.
- ํ์ต์ flow-matching์ ๋ฐ๋ผ ํ๊ฒ noised image latent ํ ํฐ ์์น์ ํํด ์๋์ฅ vθ(xt,t,h)์ ์์ธกํ์ฌ ์งํ๋๋ค.
4.3.2 MSRoPE ํ์ฅ: ํ๋ ์ ์ถ ๋์
TI2I·์ ๊ท ๋ทฐ ๋ฑ “๋ค์ค ์ด๋ฏธ์ง๊ฐ ๋์์ ์ ๋ ฅ”๋๋ ์ํฉ์ ๊ตฌ๋ถํ๋ ค๊ณ , ๊ธฐ์กด (๋์ด, ๋๋น) ํฌ์ง์ ์ธ์ฝ๋ฉ์ ํ๋ ์ ์ถ์ ์ถ๊ฐํ๋ค.
- ์) frame=0์ ์ ๋ ฅ(๋ ํผ๋ฐ์ค), frame=1์ ํ๊น(๋ ธ์ด์ฆ ์์ธ latent).
- ์ด๋ ๊ฒ ํ๋ฉด ๋์ผ ์์น๋ผ๋ “์ด๋ ํ๋ ์์ ํฝ์ ์ธ์ง”๋ฅผ ๋ชจ๋ธ์ด ๋ช ํํ ๊ตฌ๋ถํ๋ค → ํ๋ ์ ๊ฐ ์ ํฉ๊ณผ ํธ์ง ์์ ์ฑ ํฅ์.
4.3.3 ์์คํ ํ๋กฌํํธ ์ค๊ณ

- T2I: ์•์๋•ํ ์คํธ•ํ์•ํฌ๊ธฐ•์ฌ์ง•๊ณต๊ฐ ๊ด๊ณ•๋ฐฐ๊ฒฝ ๋ฑ์ ๊ตฌ์ฒด์ ์ผ๋ก ์์ ํ๋๋ก ์์คํ ํ ํ๋ฆฟ์ ๊ตฌ์ฑ
- TI2I: ๋จผ์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํต์ฌ ํน์ง์ ์์ฝํ๊ณ , ์ด์ด์ ์ฌ์ฉ์ ์ง์๊ฐ ์ด๋ป๊ฒ ์ ์ฉ๋ ์ง๋ฅผ ์ค๋ช ํ๋๋ก ์ ๋
4.3.4 ํ์ต ๋ฐฉ๋ฒ
- T2I
- ํ ์คํธ → Qwen2.5-VL → h
- ํ๊น ์ ์ฌ x0=E(์ด๋ฏธ์ง)์ ๋ ธ์ด์ฆ x1๋ก ์ค๊ฐ xt ๊ตฌ์ฑ
- MMDiT๊ฐ vθ(xt,t,h) ์์ธก → โฅvθ−(x0−x1)โฅ^2 loss
- ์ํ๋ง ํ VAE ๋์ฝ๋๋ก ์ต์ข ์ด๋ฏธ์ง ๋ณต์
- TI2I(ํธ์ง)
- ํ ์คํธ๏ผ์ ๋ ฅ ์ด๋ฏธ์ง → Qwen2.5-VL → h
- ์ด๋ฏธ์ง ์คํธ๋ฆผ์ [์ ๋ ฅ ์ด๋ฏธ์ง VAE ์ ์ฌ z_in] ⊕ [ํ๊น์ ๋ ธ์ด์ฆ ์์ธ ์ ์ฌ x_t] ์ฐ๊ฒฐ
- MSRoPE์ ํ๋ ์ ์ถ์ ์ถ๊ฐํด ๋ ๊ทธ๋ฃน์ ๊ตฌ๋ถ
- ํ๊ฒ ํ ํฐ์๋ง ์๋์ฅ MSE ์ ์ฉ(์ ๋ ฅ z_in์ ์กฐ๊ฑด ์ ํธ๋ก๋ง ์ฌ์ฉ)
- I2I ์ฌ๊ตฌ์ฑ
- TI2I์ ํน์ ์ผ์ด์ค(“๊ทธ๋๋ก ์ ์ง” ์ง์). ํ๊น=์ ๋ ฅ์ด๋ฏ๋ก ๋ณต์ ์ ํฉ์ ๊ฐํ๊ฒ ํ์ต → ํธ์ง ์ ๋นํธ์ง ์์ญ ๋ณด์กด์ฑ์ด ์ฌ๋ผ๊ฐ.
- ์ ๊ท ๋ทฐ/๊น์ด ๋ฑ
- ๋์ผํ ์ ๋ ฅ ๊ตฌ์ฑ์์ ์ง์ ํ ์คํธ๋ก “์ข๋ก 90๋ ํ์ ”, “๊น์ด ๋งต์ผ๋ก ๋ณํ” ๊ฐ์ ๋ชฉํ๋ฅผ ๋ช ์ํ๊ณ ํ๊ฒ ์ ์ฌ์ ์๋์ฅ์ ํ์ต.
- ๊ธฐํ ํ์ต ์ ๋ต
- ํผํฉ ๋น์จ: ์ด๋ฐ์ T2I ์ค์ฌ(์ผ๋ฐ ํํ ํ์ต) → ์ ์ฐจ TI2I/I2I ๋น์ค์ ์ฌ๋ฆผ(๋ณด์กด·์ ํฉ ๊ฐํ).
- ๋ฐฐ์น ๊ตฌ์ฑ: ํ ๋ฐฐ์น ์์ T2I/TI2I/I2I๋ฅผ ์์ด ํ์ต ์์ ์ฑ์ ๋์ด๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค
- ์ํ๋ง ๊ฐ์ค์น: ํ ์คํธ-๋ฆฌ์น ํฉ์ฑ ๋น์จ์ ๊ณผ๋ํ๊ฒ ์ฌ๋ฆฌ๋ฉด ์คํ์ผ/์ฌ๋ฏธ์ฑ ๋ถํฌ๊ฐ ํ๋ค๋ฆด ์ ์์ผ๋, ์ฃผ๊ธฐ์ ๋ฆฌ๋ฐธ๋ฐ์ฑ(์์ฐ ์ด๋ฏธ์ง ์ฌ์ฃผ์ )์ ๊ถ์ฅ.
5. Experiments
5.1 ์ธ๊ฐ ํ๊ฐ (AI Arena)

AI Arena๋ Elo ๋ ์ดํ ๊ธฐ๋ฐ์ ๊ณต๊ฐ ๋ฒค์น๋งํฌ ํ๋ซํผ์ผ๋ก, ๋์ผ ํ๋กฌํํธ์ ๋ํด ๋ฌด์์๋ก ์ ์ ๋ ๋ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ ์ด๋ฏธ์ง๋ฅผ ์ต๋ช ์ผ๋ก ์ ์ํ๊ณ pairwise voting์ ์งํํ๋ค. ์ฝ 5์ฒ ๊ฐ ํ๋กฌํํธ์ 200๋ช + ํ๊ฐ์๊ฐ ์ฐธ์ฌํ์ผ๋ฉฐ, ๊ฐ ๋ชจ๋ธ์ ์ต์ 1๋ง ํ ์ด์ ๋น๊ต์ ์ ์น๋ฌ ํต๊ณ์ ์์ ์ฑ์ ํ๋ณดํ๋ค.
- ๋น๊ต ๋์: Imagen 4 Ultra Preview 0606, Seedream 3.0, GPT Image 1 [High], FLUX.1 Kontext [Pro], Ideogram 3.0.
- ๊ฒฐ๊ณผ ํต์ฌ: Qwen-Image๋ ์ ์ผํ ์คํ์์ค ๋ชจ๋ธ๋ก ์ข ํฉ 3์. 1์(Imagen 4 Ultra Preview 0606) ๋๋น ์ฝ 30 Elo ๋ฎ์ง๋ง, GPT Image 1 [High]/FLUX.1 Kontext [Pro] ๋๋น 30+ Elo ์ฐ์๋ฅผ ๋ณด์.
5.2 ์ ๋ ํ๊ฐ (Quantitative Results)
Qwen-Image์ ๊ธฐ๋ณธ ์์ฑ ๋ฅ๋ ฅ๊ณผ ํ ์คํธ ๋ ๋๋ง·ํธ์ง ๋ฅ๋ ฅ์ ๊ณต๊ฐ ๋ฒค์น๋งํฌ๋ก ์ธก์ ํ๋ค.
5.2.1 VAE ๋ณต์ ์ฑ๋ฅ

- ๋ชจ๋ ํ ํฌ๋์ด์ ๋ 8×8 ์์ถ, latent C=16, ImageNet-1k 256×256์์ PSNR/SSIM ํ๊ฐ. ํ ์คํธ๊ฐ ๋ง์ ์ฌ๋ด ์ฝํผ์ค์์๋ ์ถ๊ฐ ๊ฒ์ฆ.
- QwenโImageโVAE๊ฐ ์ ์งํ์์ SOTA. ํนํ ์ด๋ฏธ์ง ์ฒ๋ฆฌ ์ Encoder 19M / Decoder 25M๋ง ํ์ฑํํ์ฌ ํ์ง–ํจ์จ ๊ท ํ์ ๋ฌ์ฑ.
5.2.2 Text-to-Image(T2I) ์ฑ๋ฅ
์ผ๋ฐ ์์ฑ๋ ฅ๊ณผ ํ ์คํธ ๋ ๋๋ง์ ๋ถ๋ฆฌ ํ๊ฐํ๋ค.
- DPG (1K dense ํ๋กฌํํธ): ์ข ํฉ 1์(Overall 88.32). ์์ฑ/๊ด๊ณ ํด์๊ณผ ํ๋กฌํํธ ์ ํฉ์์ ๋๋๋ฌ์ง.
- GenEval (๊ตฌ์ฑ์ ํ๋กฌํํธ): SFT ๊ธฐ์ค 0.87, RL ํ 0.91๋ก ๋ฆฌ๋๋ณด๋ 0.9 ๋ํ ์ ์ผ
- OneIGโBench (EN/ZH): ์์ด/์ค๊ตญ์ด ๋ ํธ๋ ๋ชจ๋ ์ข ํฉ 1์. ํนํ Alignment·Text ์นดํ ๊ณ ๋ฆฌ 1์๋ก ํ๋กฌํํธ ์ถ์ข ·๋ฌธ์ ๋ ๋๋ง์ด ๊ฐ์ .
- TIIF Bench mini (์ง์ ๋ฐ๋ฅด๊ธฐ): ์ข ํฉ 2์, GPT Image 1์ ์ด์ด ๊ทผ์ ์ด์ธ.
ํ ์คํธ ๋ ๋๋ง ํนํ
- CVTGโ2K(์๋ฌธ): ํ๊ท Word Accuracy 0.8288, NED 0.9116, CLIPScore 0.8017๋ก ์์๊ถ.
- ChineseWord(์ค๋ฌธ ๋จ์ ๋ ๋๋ง): Overall 58.30%๋ก ๋ชจ๋ ๋์ด๋(1~3๊ธ) ํฉ์ฐ ์ต๊ณ .
- LongTextโBench(์ฅ๋ฌธ): ZH 0.946(1์), EN 0.943(2์). ์ฅ๋ฌธ·๋ค์์ญ ํ ์คํธ ๋ ์ด์์ ์ถฉ์ค๋๊ฐ ๋์.
5.2.3 Image Editing (TI2I) ์ฑ๋ฅ
- GEditโBench (์ค์ฌ์ฉ ์ง์ 11์ข ): EN G_O 7.56, ZH G_O 7.52๋ก ์ ํธ๋ ์์๊ถ/1์๊ถ. ๋ค๊ตญ์ด ์ง์ ์ผ๋ฐํ ํ์ธ.
- ImgEdit (9๊ฐ ํธ์ง ๊ณผ์ , 734 ์ผ์ด์ค): Overall 4.27๋ก 1์. ์ง์ ์ ํฉ์ฑ·ํธ์ง ํ์ง·์ธ๋ถ ๋ณด์กด ๊ท ํ ์ฐ์.
- Novel View Synthesis (GSO): PSNR 15.11 / SSIM 0.884 / LPIPS 0.153๋ก ํนํ ๋ชจ๋ธ์ ์คํ๋ SOTA๊ธ.
- Depth Estimation (NYUv2/KITTI/ScanNet/DIODE/ETH3D): DepthPro ๊ต์ฌ ์ ํธ๋ก SFT๋ง ์ ์ฉํ์์๋ ํ์ฅ ๋ชจ๋ธ๊ตฐ๊ณผ ๋๋ฑ.
T2I, TI2I ์์ ๋ชจ๋ SOTA ๊ธ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ํนํ ํ ์คํธ ๋ ๋๋ง์ ๊ฐํ๋ค๋ ๊ฑธ ๊ฐ์กฐํ๊ณ ์์.
5.3 ์ ์ฑ ํ๊ฐ (Qualitative Results)
5.3.1 VAE ๋ณต์

- ํ ์คํธ๊ฐ ๋นฝ๋นฝํ PDF/ํฌ์คํฐ์์ ์์ ์๋ฌธ ๋จ์ด(์: “doubleโaspect”) ๊ฐ๋ ์ฑ์ ๋๋ ทํ๊ฒ ๋ณต์. ํ VAE ๋๋น ๋ฏธ์ธ ํ/์ปค๋/์๊ฐ ์ ์ง๊ฐ ์ฐ์.
5.3.2 T2I


- ์๋ฌธ ํ ์คํธ: ์ฅ๋ฌธ ๋ฌธ๋จ·๋ค์ง์ ํ์ง/์ฌ๋ผ์ด๋์์ ๋๋ฝ/์ค์/์ค๋ณต ์์ด ์ ํํ ๋ ๋๋ง. ๋ํด ๋ ์ด์์๋ ๋ฏธ์ ๊ท ํ ํ๋ณด.
- ์ค๋ฌธ ํ ์คํธ: ๋๋ จ·์์ ๊ฐํ·์ ๋ฆฌํ ๋ฌธ๋จ ๋ฑ์์ ๋ณต์ก ์ํ์ ์ ํํ ์ฌํ. ๊ณต๊ฐ ๋ฐฐ์น·์๊ทผ์ ๋ง์ถ ๊ธฐํ ์ ํฉ.
- ๋ค๊ฐ์ฒด·ํผํฉ ์ธ์ด: 12์ง ์ธํ ๋ฐฐ์ด, ๋น๊ตฌ๊ณต ์ด์ค์ด ๋ฐฐ์น ๋ฑ ๊ฐ์/์์น/์คํ์ผ ์ ์ฝ์ ๋์ ๋ง์กฑ.
- ๊ณต๊ฐ ๊ด๊ณ: ์ธ๋ฌผ ์ํธ์์ฉ·์๋๊ตฌ ๊ฑฐ๋ฆฌ·์ ์ด ๊ด๊ณ๋ฅผ ์ ํํ ๊ตฌํ.
5.3.3 TI2I


- ํ ์คํธ/์ฌ์ง ์์ : ์๋ณธ ์คํ์ผ ๋ณด์กด ์ํ์์ ํ ์คํธ ์นํ·๋ฒ๋(glaze) ์ง๊ฐ ๋ฑ ์ฌ์ง ์ถฉ์ค๋ ๋์.
- ๊ฐ์ฒด ์ถ๊ฐ/์ ๊ฑฐ/๊ต์ฒด: ๋นํธ์ง ์์ญ์ ๋ฐฐ๊ฒฝ·๊ด์ ์ผ๊ด์ฑ์ ์ ์ ์ง.
- ํฌ์ฆ ์กฐ์: ๋จธ๋ฆฌ์นด๋ฝ/์๋ณต ๋ํ ์ผ ์ ์ง, ๋ฐฐ๊ฒฝ ๋ณํ ์ต์ํ.
- ์ฒด์ธ๋ ํธ์ง: ์ถ์ถ→ํ๋, ๋ฐฐ์น→์ค์์ ์๋๋ฆฌ์ค์์ ๊ตฌ์กฐ์ ์ผ๊ด์ฑ(์: ์ ๋ฏธ ๊ตฌ์กฐ) ์ ์ง.
- ๋ทฐ ํ์ (±90°): ์ธ๋ฌผ/๋ฐฐ๊ฒฝ ๋์ ํ์ ๋ฑ ์ ์ญ ์ผ๊ด์ฑ์์ ๊ฐ์ธ.
Qwen-Image๋ ๋ณต์กํ ํ ์คํธ ๋ ๋๋ง๊ณผ ์ ๋ฐ ํธ์ง์ ๋์์ ๋์ด์ฌ๋ฆฐ ์คํ์์ค ์ด๋ฏธ์ง ์์ฑ·ํธ์ง ๋ชจ๋ธ์ด๋ค. ํ ํฌ๋์ปฌ ๋ฆฌํฌํธ๋ ๋ชจ๋ธ ๊ตฌ์กฐ, ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ๊ณผ ์ปค๋ฆฌํ๋ผ, pre/post-training ๋ฑ ๋ค์ํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ค.
๋ค๋ง, ํ์ต๊ณผ ๊ด๋ จํ ๊ตฌ์ฒด์ ์ธ ๋ ์ํผ—ํนํ pre/post-training์ ์์ฐจ์ ์ผ๋ก ์งํํ๋ฉด์ ์ด๋ป๊ฒ ์ฑ๋ฅ์ ์ ์ง·ํฅ์์์ผฐ๋์ง์ ๋ํ ๋ถ๋ถ—๋ ๊ณต๊ฐ๋์ด ์์ง ์์ ์์ฌ์์ด ๋จ๋๋ค. ๊ฒฐ๊ตญ, ํ ํฌ๋์ปฌ ๋ฆฌํฌํธ๋ฅผ ์ฝ๋ ๊ฒ๋ง์ผ๋ก ์ด ์์ค์ ๋ชจ๋ธ์ ์ง์ ์ค๊ณํ๊ณ ํ์ต๊น์ง ํด๋ผ ์ ์๋ ๊ธฐ์ ์ ๊ทนํ ์ ํ์ ์ผ ๊ฒ์ด๋ผ๋ ์๊ฐ์ด ๋ ๋ค.