[Gen AI] Qwen-Image ํ…Œํฌ๋‹ˆ์ปฌ ๋ฆฌํฌํŠธ ๋ถ„์„ | T2I, TI2I | ์ด๋ฏธ์ง€ ์ƒ์„ฑ ํŽธ์ง‘ ๋ชจ๋ธ

2025. 9. 15. 12:33ยท๐Ÿ› Research/Image•Video Generation
๋ฐ˜์‘ํ˜•

 

 

Qwen(Alibaba Cloud)์—์„œ ์ˆ˜์ค€๊ธ‰์˜ ์˜คํ”ˆ์†Œ์Šค ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ฐ ํŽธ์ง‘ ๋ชจ๋ธ์„ ๊ณต๊ฐœํ•˜๋ฉด์„œ ํ™”์ œ๊ฐ€ ๋˜๊ณ  ์žˆ๋‹ค. ํ…Œํฌ๋‹ˆ์ปฌ ๋ฆฌํฌํŠธ๊ฐ€ ํ•จ๊ป˜ ๊ณต๊ฐœ๋˜์—ˆ๊ธฐ์— ์‚ดํŽด๋ณด๊ณ ์ž ํ•œ๋‹ค. ๊ฐœ์ธ์ ์œผ๋กœ๋Š” ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ํ•„ํ„ฐ๋ง ๋ถ€๋ถ„์— ๊ด€์‹ฌ์„ ๊ฐ€์ง€๊ณ  ์ฝ์–ด๋ดค๋‹ค.


 

1. ์ธํŠธ๋กœ 

Qwen์€ ์ƒˆ๋กœ์šด ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ฐ ํŽธ์ง‘ ๋ชจ๋ธ Qwen-Image๋ฅผ ๊ณต๊ฐœํ•˜๋ฉฐ ์ฃผ๋ชฉ์„ ๋ฐ›๊ณ  ์žˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ํ…์ŠคํŠธ ๋ Œ๋”๋ง๊ณผ ์ด๋ฏธ์ง€ ํŽธ์ง‘์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ์˜คํ”ˆ์†Œ์Šค ํ˜•ํƒœ๋กœ ์ œ๊ณต๋œ๋‹ค๋Š” ์ ์—์„œ ํฐ ์˜๋ฏธ๊ฐ€ ์žˆ๋‹ค. ํŠนํžˆ ์˜์–ด์™€ ๊ฐ™์€ ์•ŒํŒŒ๋ฒณ ์–ธ์–ด๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ค‘๊ตญ์–ด์™€ ๊ฐ™์€ ํ•œ์ž ์–ธ์–ด๊นŒ์ง€ ์ •๊ตํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์—์„œ ๊ธฐ์กด ๋ชจ๋ธ๋“ค๊ณผ ์ฐจ๋ณ„ํ™”๋œ๋‹ค.

 

Qwen-Image์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ๋Š” ํฌ๊ฒŒ ์„ธ ๊ฐ€์ง€๋กœ ์š”์•ฝํ•  ์ˆ˜ ์žˆ๋‹ค. ์ฒซ์งธ, ์ •๊ตํ•œ ํ…์ŠคํŠธ ๋ Œ๋”๋ง ๋Šฅ๋ ฅ์ด๋‹ค. ๋‹จ์ˆœํ•œ ํ•œ ์ค„ ๋ฌธ์žฅ์ด ์•„๋‹ˆ๋ผ ๋ฌธ๋‹จ ๋‹จ์œ„์˜ ํ…์ŠคํŠธ๊นŒ์ง€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ๋‘˜์งธ, ์ผ๊ด€์„ฑ ์žˆ๋Š” ์ด๋ฏธ์ง€ ํŽธ์ง‘์ด๋‹ค. ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ํŽธ์ง‘, ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ํ˜ผํ•ฉ ํŽธ์ง‘, ๋‹จ์ˆœ ์ด๋ฏธ์ง€ ๋ณด์ •๊นŒ์ง€ ๋‹ค์–‘ํ•œ ํŽธ์ง‘ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์˜๋ฏธ ๋ณด์กด๊ณผ ์‹œ๊ฐ์  ํ’ˆ์งˆ์„ ๋ชจ๋‘ ์ถฉ์กฑํ•œ๋‹ค. ์…‹์งธ, ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ์ตœ๊ณ  ์„ฑ๋Šฅ์ด๋‹ค. GenEval, DPG, OneIG-Bench ๊ฐ™์€ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ฒค์น˜๋งˆํฌ๋ฟ ์•„๋‹ˆ๋ผ GEdit, ImgEdit, GSO ๊ฐ™์€ ํŽธ์ง‘ ๋ฒค์น˜๋งˆํฌ์—์„œ๋„ ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ๋‹ค.

 

์ด๋Ÿฌํ•œ ์„ฑ๊ณผ๋Š” ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ, ์ ์ง„์  ํ•™์Šต ์ „๋žต(curriculum learning), ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„, ๊ทธ๋ฆฌ๊ณ  ๋Œ€๊ทœ๋ชจ ๋ถ„์‚ฐ ํ•™์Šต ์ธํ”„๋ผ ์ตœ์ ํ™”๋ฅผ ํ†ตํ•ด ๊ฐ€๋Šฅํ–ˆ๋‹ค. ๋ณธ ๊ธ€์—์„œ๋Š” ํ…Œํฌ๋‹ˆ์ปฌ ๋ฆฌํฌํŠธ์˜ ๋‚ด์šฉ์„ ๋”ฐ๋ผ Qwen-Image์˜ ๋ชจ๋ธ ๊ตฌ์กฐ, ๋ฐ์ดํ„ฐ ์ „๋žต, ํ•™์Šต ๊ธฐ๋ฒ•, ๊ทธ๋ฆฌ๊ณ  ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ์ฐจ๋ก€๋กœ ์‚ดํŽด๋ณธ๋‹ค.

 

2. Model

๋ณธ ์ ˆ์—์„œ๋Š” Qwenโ€‘Image์˜ ํ•ต์‹ฌ ์„ค๊ณ„์™€ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์„ค๋ช…ํ•œ๋‹ค. ์ „์ฒด ๋ชจ๋ธ์€ (1) ์กฐ๊ฑด ์ธ์ฝ”๋”๋กœ์„œ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM(Qwen2.5โ€‘VL), (2) ์‹œ๊ฐ ํ† ํฌ๋‚˜์ด์ €๋กœ์„œ์˜ VAE, (3) ํ™•๋ฅ  ์ƒ์„ฑ์˜ ๋ณธ์ฒด์ธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋””ํ“จ์ „ ํŠธ๋žœ์Šคํฌ๋จธ(MMDiT) ๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค. ๊ฐ ๊ตฌ์„ฑ์€ ํ…์ŠคํŠธ–์ด๋ฏธ์ง€ ์ •๋ ฌ์„ ๊ฐ•ํ™”ํ•˜๊ณ , ๋ณต์žกํ•œ ํ…์ŠคํŠธ ๋ Œ๋”๋ง๊ณผ ์ •๋ฐ€ ํŽธ์ง‘์„ ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋„๋ก ์ƒํ˜ธ ๋ณด์™„์ ์œผ๋กœ ์„ค๊ณ„๋˜์—ˆ๋‹ค.

 

2.1 ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜

Figure 6์˜ ๊ฐœ์š”์ฒ˜๋Ÿผ, Qwen-Image๋Š” ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๋ชจ๋“ˆ์ด ๊ฒฐํ•ฉ๋œ ๊ตฌ์กฐ๋ฅผ ๊ฐ–๋Š”๋‹ค.

  • Multimodal Large Language Model (MLLM): ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ํ’๋ถ€ํ•œ ์˜๋ฏธ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์กฐ๊ฑด ์ธ์ฝ”๋”. ์—ฌ๊ธฐ์„œ๋Š” Qwen2.5-VL์„ ์‚ฌ์šฉํ•ด ํ”„๋กฌํ”„ํŠธ ์ดํ•ด ๋ฐ ๋น„์ „·์–ธ์–ด ์ •๋ ฌ์„ ๋‹ด๋‹นํ•œ๋‹ค.
  • Variational AutoEncoder (VAE): ์ด๋ฏธ์ง€๋ฅผ ์ž ์žฌ๊ณต๊ฐ„(latent space) ํ‘œํ˜„์œผ๋กœ ์••์ถ•ํ•˜๊ณ , ์ƒ์„ฑ ๋‹จ๊ณ„์—์„œ ๋‹ค์‹œ ๋ณต์›ํ•˜๋Š” ์—ญํ• ์„ ํ•œ๋‹ค. ํ…์ŠคํŠธ ๋ Œ๋”๋ง์„ ์œ„ํ•œ ์„ธ๋ฐ€ํ•œ ๋””ํ…Œ์ผ ๋ณต์› ํ’ˆ์งˆ์„ ๋ณด์žฅํ•œ๋‹ค.
  • Multimodal Diffusion Transformer (MMDiT): ๋…ธ์ด์ฆˆ์™€ ์ด๋ฏธ์ง€ ์ž ์žฌ๋ฒกํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ํ•ต์‹ฌ ์ƒ์„ฑ๊ธฐ๋‹ค. Flow-matching ๊ธฐ๋ฐ˜ ํ•™์Šต์„ ํ†ตํ•ด ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๋ฉฐ ์ตœ์ข… ์ด๋ฏธ์ง€๋ฅผ ๋งŒ๋“ ๋‹ค.

์ด ๊ตฌ์กฐ๋Š” ํ…์ŠคํŠธ ์ดํ•ด(MLLM), ๊ณ ์ถฉ์‹ค๋„ ์ด๋ฏธ์ง€ ํ‘œํ˜„(VAE), ๊ฐ•๋ ฅํ•œ ํ™•๋ฅ  ๋ชจ๋ธ๋ง(MMDiT)์„ ๋ถ„๋ฆฌํ•ด ๊ฐ ๋ชจ๋“ˆ์„ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•œ๋‹ค.
์‹ค์ œ ์ƒ์„ฑ ๊ณผ์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์š”์•ฝํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

  1. ์‚ฌ์šฉ์ž๊ฐ€ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ(๋˜๋Š” ํ…์ŠคํŠธ+์ด๋ฏธ์ง€)๋ฅผ ์ž…๋ ฅํ•œ๋‹ค.
  2. MLLM(Qwen2.5-VL)์ด ์ž…๋ ฅ์„ ์‹œ๋ฉ˜ํ‹ฑ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค.
  3. VAE ์ธ์ฝ”๋”๊ฐ€ ์ด๋ฏธ์ง€๋ฅผ ์ž ์žฌ๊ณต๊ฐ„ z๋กœ ์••์ถ•ํ•œ๋‹ค.
  4. MMDiT๊ฐ€ ์ž ์žฌ๊ณต๊ฐ„์—์„œ ๋…ธ์ด์ฆˆ๋ฅผ ์ ์ฐจ ์ œ๊ฑฐํ•˜๋ฉด์„œ ์ด๋ฏธ์ง€ ๋ถ„ํฌ๋ฅผ ํ•™์Šต/์ƒ์„ฑํ•œ๋‹ค.
  5. ๋งˆ์ง€๋ง‰์œผ๋กœ VAE ๋””์ฝ”๋”๊ฐ€ ๋…ธ์ด์ฆˆ๊ฐ€ ์ œ๊ฑฐ๋œ ์ž ์žฌ๊ณต๊ฐ„์„ ์‹ค์ œ ์ด๋ฏธ์ง€๋กœ ๋ณต์›ํ•œ๋‹ค.

 

 

2.2 ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(MLLM)

Qwen2.5โ€‘VL์„ ์กฐ๊ฑด ์ธ์ฝ”๋”๋กœ ์ฑ„ํƒํ•œ ์ด์œ ๋Š” ๋‹ค์Œ ์„ธ ๊ฐ€์ง€๋‹ค.

  1. ์‚ฌ์ „ ์ •๋ ฌ๋œ ๋น„์ „–์–ธ์–ด ๊ณต๊ฐ„: ๋น„์ „–์–ธ์–ด ํ‘œํ˜„์ด ์ด๋ฏธ ์ •๋ ฌ๋˜์–ด ํ…์ŠคํŠธโ€‘ํˆฌโ€‘์ด๋ฏธ์ง€(T2I)์— ์ ํ•ฉํ•˜๋ฉฐ, ์ˆœ์ˆ˜ LLM ๋Œ€๋น„ ์กฐ๊ฑด ์‹ ํ˜ธ๊ฐ€ ๋” ์ง์ ‘์ ์ด๋‹ค.
  2. ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ณด์กด: ์–ธ์–ด ์ดํ•ด/์ถ”๋ก  ๋Šฅ๋ ฅ์ด ํ›ผ์†๋˜์ง€ ์•Š์•„, ๊ธธ๊ณ  ๊ตฌ์กฐํ™”๋œ ํ”„๋กฌํ”„ํŠธ๋„ ์•ˆ์ •์ ์œผ๋กœ ํ•ด์„ํ•œ๋‹ค.
  3. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ ์ง€์›: ์ด๋ฏธ์ง€/ํ…์ŠคํŠธ ๋™์‹œ ์กฐ๊ฑด์„ ๋„ค์ดํ‹ฐ๋ธŒ๋กœ ์ฒ˜๋ฆฌํ•ด ํŽธ์ง‘(TI2I) ๋“ฑ ํ™•์žฅ ์ž‘์—…์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํฌ๊ด„ํ•œ๋‹ค.

์ž…๋ ฅ ํ…์ŠคํŠธ๊ฐ€ ์ฃผ์–ด์ง€๋ฉด, Qwen2.5-VL์˜ ๋งˆ์ง€๋ง‰ ๋ ˆ์ด์–ด ํžˆ๋“  ์ƒํƒœ(hidden state)๋ฅผ ์กฐ๊ฑด ํ‘œํ˜„ h๋กœ ์‚ฌ์šฉํ•œ๋‹ค. ์ž‘์—… ์œ ํ˜•์— ๋”ฐ๋ผ ์„œ๋กœ ๋‹ค๋ฅธ ์‹œ์Šคํ…œ ํ…œํ”Œ๋ฆฟ์„ ์ ์šฉํ•ด ์กฐ๊ฑด ์‹ ํ˜ธ์˜ ์ผ๊ด€์„ฑ์„ ๋†’์˜€๋‹ค.

์„ค๊ณ„ ํฌ์ธํŠธ

  • (a) ์ƒ‰์ƒ, ์ˆ˜๋Ÿ‰, ํ…์ŠคํŠธ, ํ˜•ํƒœ, ํฌ๊ธฐ, ์žฌ์งˆ, ๊ณต๊ฐ„ ๊ด€๊ณ„ ๋“ฑ ์ด๋ฏธ์ง€ ๋ Œ๋”๋ง์— ํ•„์š”ํ•œ ์š”์†Œ๋ฅผ ์ƒ์„ธํžˆ ๊ธฐ์ˆ ํ•˜๋„๋ก ํ”„๋กฌํ”„ํŠธ๋ฅผ ์„ค๊ณ„ํ–ˆ๋‹ค.
  • (b) ์ˆœ์ˆ˜ ํ…์ŠคํŠธ ์ž…๋ ฅ๊ณผ ํ…์ŠคํŠธ+์ด๋ฏธ์ง€ ์ž…๋ ฅ์˜ ๊ฒฝ์šฐ์— ์„œ๋กœ ๋‹ค๋ฅธ ์‹œ์Šคํ…œ ํ…œํ”Œ๋ฆฟ์„ ์‚ฌ์šฉํ•˜์—ฌ ์กฐ๊ฑด ํ‘œํ˜„์ด ํ”๋“ค๋ฆฌ์ง€ ์•Š๋„๋ก ํ–ˆ๋‹ค.
  • (c) Qwen2.5-VL์˜ ์ตœ์ข… ํžˆ๋“  ์ƒํƒœ๋งŒ์„ ์กฐ๊ฑด์œผ๋กœ ํ™œ์šฉํ•ด ๋‹ค์šด์ŠคํŠธ๋ฆผ ๋ชจ๋“ˆ(MMDiT ๋“ฑ)๊ณผ์˜ ๊ฒฐํ•ฉ ๊ตฌ์กฐ๋ฅผ ๋‹จ์ˆœํ™”ํ–ˆ๋‹ค.

 

2.3 VAE

๊ฐ•๋ ฅํ•œ ์‹œ๊ฐ ์ž ์žฌ ํ‘œํ˜„์€ ์ƒ์„ฑ ํ’ˆ์งˆ์˜ ์ƒํ•œ์„ ์„ ์ขŒ์šฐํ•œ๋‹ค. Qwenโ€‘Image๋Š” ๋‹จ์ผ ์ธ์ฝ”๋”·๋“€์–ผ ๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ์ฑ„ํƒํ•ด ์ด๋ฏธ์ง€์™€ ๋น„๋””์˜ค๋ฅผ ์•„์šฐ๋ฅด๋Š” ๋ฒ”์šฉ ์ž ์žฌ๋ฅผ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

  • ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ: Wanโ€‘2.1โ€‘VAE๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ธ์ฝ”๋”๋ฅผ freeze ํ•˜๊ณ , ์ด๋ฏธ์ง€ ๋””์ฝ”๋”๋งŒ ํŒŒ์ธํŠœ๋‹ํ•œ๋‹ค. ๋™์ผ ์ธ์ฝ”๋”๋ฅผ ์ด๋ฏธ์ง€/๋น„๋””์˜ค๊ฐ€ ๊ณต์œ ํ•˜๊ณ , ๋””์ฝ”๋”๋Š” ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ณ„๋กœ ํŠนํ™”๋˜์–ด ์„ฑ๋Šฅ ํƒ€ํ˜‘์„ ์ตœ์†Œํ™”ํ•œ๋‹ค.
  • ํ…์ŠคํŠธโ€‘๋ฆฌ์น˜ ์ฝ”ํผ์Šค ํ•™์Šต: PDF·์Šฌ๋ผ์ด๋“œ·ํฌ์Šคํ„ฐ ๋“ฑ ์‹ค์„ธ๊ณ„ ๋ฌธ์„œ์™€ ํ•ฉ์„ฑ ๋ฌธ๋‹จ์„ ํฌํ•จํ•œ ํ…์ŠคํŠธโ€‘ํ’๋ถ€ ์ด๋ฏธ์ง€๋กœ ๋””์ฝ”๋”๋ฅผ ์ถ”๊ฐ€ ํ•™์Šตํ•˜์—ฌ, ์ž‘์€ ๊ธ€์ž/์„ธ๋ถ€ ๋””ํ…Œ์ผ ๋ณต์›์„ ์ค‘์  ๊ฐ•ํ™”.
  • Loss ์„ค๊ณ„: reconstruction + perceptual ์˜ ๊ฐ€์ค‘ ์กฐํ•ฉ์„ ๋™์ ์œผ๋กœ ์กฐ์ •. ๋ฐ˜๋ณต ํŒจํ„ด(์ˆ˜ํ’€ ๋“ฑ)์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๊ฒฉ์ž(aritifact)๋ฅผ ์™„ํ™”. ์žฌ๊ตฌ์„ฑ ํ’ˆ์งˆ์ด ๋†’์•„์ง€๋ฉด GAN ํŒ๋ณ„์ž ์‹ ํ˜ธ์˜ ์œ ํšจ์„ฑ์ด ๋–จ์–ด์ ธ adversarial ์†์‹ค์€ ์ œ์™ธ.
    • Reconstruction Loss: L1/L2
      • ์›๋ณธ ์ด๋ฏธ์ง€์™€ ๋ณต์›๋œ ์ด๋ฏธ์ง€ ํ”ฝ์…€ ์ฐจ์ด๋ฅผ ์ง์ ‘ ๊ณ„์‚ฐํ•˜๋Š” ์†์‹ค.
      • ์ž‘์€ ๊ธ€์ž๋‚˜ ๋ฌธ์„œ ์ด๋ฏธ์ง€์ฒ˜๋Ÿผ ํ”ฝ์…€ ๋‹จ์œ„ ์ถฉ์‹ค๋„๊ฐ€ ์ค‘์š”ํ•œ ๊ฒฝ์šฐ ๋ฐ˜๋“œ์‹œ ํ•„์š”.
      • ๋‹ค๋งŒ ๋‹จ์ˆœ ํ”ฝ์…€ ์ฐจ์ด๋งŒ ์“ฐ๋ฉด ๋งค๋„๋Ÿฝ์ง€ ์•Š๊ณ  ๋ธ”๋Ÿฌํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ค๊ธฐ ์‰ฝ๋‹ค.
    • Perceptual Loss
      • VGG ๊ฐ™์€ ์‚ฌ์ „ ํ•™์Šต๋œ ๋„คํŠธ์›Œํฌ์˜ ์ค‘๊ฐ„ feature map์—์„œ ๋‘ ์ด๋ฏธ์ง€ ์ฐจ์ด๋ฅผ ๊ณ„์‚ฐ.
      • ํ”ฝ์…€ ์ฐจ์ด๊ฐ€ ์•„๋‹ˆ๋ผ ์‹œ๊ฐ์ ์œผ๋กœ ๋А๊ปด์ง€๋Š” ํ’ˆ์งˆ ์ฐจ์ด๋ฅผ ์ค„์—ฌ์คŒ.
      • ์˜ˆ: ๊ธ€์ž ํš์ด๋‚˜ ํ…์Šค์ฒ˜ ๊ฐ™์€ ๊ณ ์ฃผํŒŒ ๋””ํ…Œ์ผ์„ ๋” ์ž˜ ๋ณต์›ํ•˜๋„๋ก ์œ ๋„.
    • Adversarial Loss
      • ๋ณดํ†ต์€ ์ด๋ฏธ์ง€๊ฐ€ “์ง„์งœ ๊ฐ™์€๊ฐ€”๋ฅผ ํŒ๋ณ„ํ•˜๋Š” GAN ํŒ๋ณ„์ž(discriminator)๋ฅผ ์ถ”๊ฐ€.
      • ํ•˜์ง€๋งŒ ์—ฌ๊ธฐ์„œ๋Š” ์žฌ๊ตฌ์„ฑ ํ’ˆ์งˆ์ด ์ถฉ๋ถ„ํžˆ ์˜ฌ๋ผ๊ฐ€๋ฉด ํŒ๋ณ„์ž๊ฐ€ ๊ฑฐ์˜ ์ฐจ์ด๋ฅผ ๊ตฌ๋ณ„ํ•˜์ง€ ๋ชปํ•ด ์œ ํšจํ•œ ํ•™์Šต ์‹ ํ˜ธ๋ฅผ ์ฃผ์ง€ ๋ชปํ•œ๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Œ.
      • ๊ทธ๋ž˜์„œ GAN ๊ธฐ๋ฐ˜ ์†์‹ค์€ ์ œ์™ธํ•˜๊ณ , ์žฌ๊ตฌ์„ฑ+์ง€๊ฐ ์†์‹ค์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋™์ ์œผ๋กœ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ตœ์ข… ์„ค๊ณ„.
  • ํšจ๊ณผ: ๋””์ฝ”๋”๋งŒ์˜ ๊ฒฝ๋Ÿ‰ ํŒŒ์ธํŠœ๋‹์œผ๋กœ๋„ ๋ฌธ์ž ๊ฐ€๋…์„ฑ๊ณผ ๋ฏธ์„ธ ๋””ํ…Œ์ผ์ด ์œ ์˜๋ฏธํ•˜๊ฒŒ ๊ฐœ์„ ๋˜๋ฉฐ, ์‹คํ—˜์—์„œ ์ •๋Ÿ‰·์ •์„ฑ ์ง€ํ‘œ๋กœ ๊ฒ€์ฆ๋œ๋‹ค.

 

2.4 MMDiT

Qwen-Image์˜ ๋ณธ์ฒด ์ƒ์„ฑ๊ธฐ๋Š” MMDiT(Multimodal Diffusion Transformer) ๊ตฌ์กฐ๋กœ, ํ…์ŠคํŠธ ํ† ํฐ๊ณผ ์ด๋ฏธ์ง€ ์ž ์žฌ(latent)๋ฅผ ํ•˜๋‚˜์˜ ํŠธ๋žœ์Šคํฌ๋จธ ๋ธ”๋ก์—์„œ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•œ๋‹ค. ๊ธฐ์กด diffusion ๋ชจ๋ธ๋“ค์€ ์ฃผ๋กœ U-Net ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•ด ์ด๋ฏธ์ง€ latent์™€ ํ…์ŠคํŠธ ์กฐ๊ฑด์„ cross-attention์œผ๋กœ ๊ฒฐํ•ฉํ–ˆ์ง€๋งŒ, ์ด๋Š” ๊ตฌ์กฐ๊ฐ€ ๋ณต์žกํ•˜๊ณ  ํ•ด์ƒ๋„ ํ™•์žฅ์— ์ œ์•ฝ์ด ์žˆ์—ˆ๋‹ค. ๋ฐ˜๋ฉด MMDiT๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ฐฑ๋ณธ๋งŒ์œผ๋กœ ํ†ตํ•ฉ ์„ค๊ณ„๋ฅผ ๊ตฌํ˜„ํ•˜์—ฌ ๋‹จ์ˆœ์„ฑ๊ณผ ํ™•์žฅ์„ฑ์„ ๋™์‹œ์— ํ™•๋ณดํ–ˆ๋‹ค.

 

2.4.1 ๊ธฐ์กด ์ ‘๊ทผ์˜ ํ•œ๊ณ„

  1. ๋‹จ์ˆœ ์—ฐ๊ฒฐ(Concatenation)
    ํ…์ŠคํŠธ ํ† ํฐ์„ ์ด๋ฏธ์ง€ latent ๋’ค์— ๋‹จ์ˆœํžˆ ์ด์–ด๋ถ™์ด๋Š” ๋ฐฉ์‹. ์ด ๊ฒฝ์šฐ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€์˜ ๊ฒฝ๊ณ„๊ฐ€ ๋ชจํ˜ธํ•˜๊ณ , ํ•ด์ƒ๋„๊ฐ€ ๋‹ฌ๋ผ์งˆ ๋•Œ positional encoding์ด ๊นจ์ง€๊ธฐ ์‰ฝ๋‹ค.
  2. Scaling RoPE ์ค‘์•™ ์ •๋ ฌ (Seedream 3.0 ๋“ฑ)
    ํ…์ŠคํŠธ๋ฅผ 2D ํ† ํฐ์œผ๋กœ ๊ฐ„์ฃผํ•ด ์ด๋ฏธ์ง€ ์ค‘์•™ ํ–‰(row)์— ๋ฐฐ์น˜ํ•˜๋Š” ๋ฐฉ์‹. ํ•˜์ง€๋งŒ ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ํŠน์ • ํ–‰(์˜ˆ: ์ค‘์•™ 0ํ–‰)์—์„œ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€ ํฌ์ง€์…˜์ด ๋™์ผํ•œ ๊ฐ’์„ ๊ฐ€์ ธ ๊ตฌ๋ถ„์ด ์–ด๋ ต๋‹ค.

 

2.4.2 MSRoPE: Multimodal Scalable RoPE (Qwen-Image ์ œ์•ˆ)

Qwen-Image๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด MSRoPE๋ฅผ ๋„์ž…ํ–ˆ๋‹ค.

  • ํ•ต์‹ฌ ์•„์ด๋””์–ด
    ํ…์ŠคํŠธ ์ž…๋ ฅ์„ 2D ํ…์„œ๋กœ ์ทจ๊ธ‰ํ•˜๋˜, ๊ฐ€๋กœ·์„ธ๋กœ ๋™์ผํ•œ position ID๋ฅผ ์ฃผ์–ด ์ด๋ฏธ์ง€์˜ ๋Œ€๊ฐ์„ (diagonal) ๋ฐฉํ–ฅ์„ ๋”ฐ๋ผ ๋ฐฐ์น˜ํ•œ๋‹ค.
  • ํšจ๊ณผ
    1. ์ด๋ฏธ์ง€: ๊ธฐ์กด 2D-RoPE์˜ ์žฅ์ (ํ•ด์ƒ๋„ ์Šค์ผ€์ผ์—… ๋Œ€์‘)์„ ์œ ์ง€ํ•œ๋‹ค.
    2. ํ…์ŠคํŠธ: ์‚ฌ์‹ค์ƒ 1D-RoPE์™€ ๋™์น˜๋ผ ๊ธฐ์กด LLM์—์„œ ์“ฐ๋˜ ํ‘œํ˜„๊ณผ ํ˜ธํ™˜์„ฑ์ด ๋†’๋‹ค.
    3. ํ…์ŠคํŠธ/์ด๋ฏธ์ง€ ํฌ์ง€์…˜์˜ ๊ตฌ๋ถ„ ๊ฐ€๋Šฅ์„ฑ์ด ๋ณด์žฅ๋˜์–ด, attention์ด ํ˜ผ๋™ ์—†์ด ์–‘ modality๋ฅผ ์—ฐ๊ฒฐํ•œ๋‹ค.
  • ์‹ค์šฉ์„ฑ
    ๊ธฐ์กด RoPE ์Šคํƒ์— ํฌ์ง€์…˜ ๋งคํ•‘๋งŒ ๊ต์ฒดํ•˜๋ฉด ์ ์šฉ ๊ฐ€๋Šฅํ•˜๊ณ , ์ถ”๊ฐ€์ ์ธ ํ•™์Šต ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ํ•„์š” ์—†๋‹ค.
  • ํ™•์žฅ์„ฑ
    ๋‹ค์ค‘ ์ด๋ฏธ์ง€ ์ž…๋ ฅ(์˜ˆ: ํŽธ์ง‘ ์ž‘์—…์—์„œ ์›๋ณธ ์ด๋ฏธ์ง€์™€ ์ˆ˜์ • ํ›„ ์ด๋ฏธ์ง€๋ฅผ ๋™์‹œ์— ์กฐ๊ฑด์œผ๋กœ ์ œ๊ณต) ์‹œ์—๋Š” ์ƒˆ๋กœ์šด ์ถ•์ธ frame dimension์„ ๋„์ž…ํ•˜์—ฌ ๊ฐ ์ด๋ฏธ์ง€๋ฅผ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ฒฐ๊ตญ ์ด๋ฏธ์ง€+ํ…์ŠคํŠธ ํฌ์ง€์…”๋„ ์ธ์ฝ”๋”ฉ์—์„œ๋Š” ๋‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ํŠน์„ฑ์„ ๋ฐ˜์˜ํ•˜๋ฉด์„œ๋„, ์„œ๋กœ๊ฐ€ ๊ฒน์น˜๊ฑฐ๋‚˜ ํ˜ผ๋™๋˜์ง€ ์•Š๋„๋ก ๊ตฌ๋ถ„๋œ ์œ„์น˜ ํ‘œํ˜„์„ ์ฃผ๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค. Qwen-Image๋Š” ์ด๋ฅผ ์œ„ํ•ด MSRoPE ๋ฐฉ์‹์„ ๋„์ž…ํ•ด ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ์•ˆ์ •์ ์œผ๋กœ ์ •๋ ฌํ•˜๋ฉด์„œ๋„ ์Šค์ผ€์ผ ๋ณ€ํ™”์— ๊ฐ•ํ•œ ๊ตฌ์กฐ๋ฅผ ๊ตฌํ˜„ํ–ˆ๋‹ค.

 

 

2.4.3 ์•„ํ‚คํ…์ฒ˜ ๊ตฌ์„ฑ ์š”์•ฝ 

  • ๋ถ„์—…ํ˜• ๋ชจ๋“ˆํ™”: ์กฐ๊ฑด ์ดํ•ด(MLLM), ์ž ์žฌ ํ‘œํ˜„(VAE), ํ™•๋ฅ  ์ƒ์„ฑ(MMDiT)์„ ๋ถ„๋ฆฌํ•˜์—ฌ ๊ฐ์ž ํŠนํ™”๋œ ๊ฐ•์ ์„ ์ตœ๋Œ€ํ•œ ๋Œ์–ด๋ƒˆ๋‹ค. MLLM์€ ํ”„๋กฌํ”„ํŠธ ํ•ด์„์—, VAE๋Š” ์ถฉ์‹คํ•œ ๋ณต์›์—, MMDiT๋Š” ๋Œ€๊ทœ๋ชจ ๋ถ„ํฌ ๋ชจ๋ธ๋ง์— ์ง‘์ค‘ํ•œ๋‹ค.
  • ํ…์ŠคํŠธ ๋ Œ๋”๋ง ์ตœ์ ํ™”: ๋””์ฝ”๋”๋ฅผ ํ…์ŠคํŠธ-๋ฆฌ์น˜ ๋ฐ์ดํ„ฐ๋กœ ํŒŒ์ธํŠœ๋‹ํ•˜์—ฌ ์†Œ๋ฌธ์ž, ๋ณต์žกํ•œ ์„œ์ฒด, ๋ฌธ๋‹จ ๋‹จ์œ„ ํ…์ŠคํŠธ๊นŒ์ง€ ๋†’์€ ๊ฐ€๋…์„ฑ์„ ํ™•๋ณดํ•œ๋‹ค. ์ด๋Š” Table 1์—์„œ ๋ณด์ด๋Š” VAE ๋””์ฝ”๋” ํŒŒ๋ผ๋ฏธํ„ฐ ์ฆ์„ค(73M)์— ์ง๊ฒฐ๋œ๋‹ค.
  • MSRoPE: ํ•ด์ƒ๋„ ์Šค์ผ€์ผ ์—… ๊ณผ์ •์—์„œ๋„ ์•ˆ์ •์ ์ธ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๊ณ , ํ…์ŠคํŠธ/์ด๋ฏธ์ง€ ํฌ์ง€์…˜์ด ํ˜ผ๋™๋˜์ง€ ์•Š๋„๋ก ๋ณด์žฅํ•œ๋‹ค. ์ด๋Š” MMDiT์˜ 60๋ ˆ์ด์–ด ํŠธ๋žœ์Šคํฌ๋จธ์™€ ๊ฒฐํ•ฉํ•ด ๊ณ ํ•ด์ƒ๋„์—์„œ๋„ ์ •๋ฐ€ํ•œ ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.
  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ™•์žฅ์„ฑ: ๋‹จ์ผ ์ธ์ฝ”๋”–๋“€์–ผ ๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€์™€ ๋น„๋””์˜ค๋ฅผ ์•„์šฐ๋ฅด๋Š” ๋ฒ”์šฉ ์ž ์žฌ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋ฉฐ, ํ–ฅํ›„ ๋น„๋””์˜ค ์ƒ์„ฑ์œผ๋กœ์˜ ํ™•์žฅ์„ฑ์„ ๋‚ด์žฌํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ์„ค๊ณ„๋ฅผ ํ†ตํ•ด Qwen-Image๋Š” ํ…์ŠคํŠธ ์–ผ๋ผ์ธ๋จผํŠธ, ์„ธ๋ถ€ ๋””ํ…Œ์ผ ๋ณด์กด, ํ•ด์ƒ๋„ ํ™•์žฅ์„ฑ์—์„œ ๊ท ํ˜• ์žกํžŒ ์ง„ํ™”๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

 

3. Data

Qwen-Image์˜ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์€ ์ˆ˜์ง‘ → ํ•„ํ„ฐ๋ง → ์ฃผ์„ → ํ•ฉ์„ฑ์˜ 4๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๊ฐ ๋‹จ๊ณ„๊ฐ€ ์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต๊ณผ ๋งž๋ฌผ๋ ค ํ…์ŠคํŠธ ๋ Œ๋”๋ง๊ณผ ํŽธ์ง‘ ์ผ๊ด€์„ฑ์„ ๊ฐ•ํ™”ํ•˜๋„๋ก ์„ค๊ณ„๋˜์–ด ์žˆ๋‹ค.

3.1 ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘

๋Œ€๊ทœ๋ชจ ์ˆ˜์ง‘์˜ ํ•ต์‹ฌ์€ ์–‘์ด ์•„๋‹ˆ๋ผ ํ’ˆ์งˆ๊ณผ ๋„๋ฉ”์ธ ๋ถ„ํฌ์˜ ๊ท ํ˜•์ด๋‹ค. Qwen-Image๋Š” ์‹ค์ œ ์‚ฌ์šฉ์ž ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์š”๊ตฌํ•˜๋Š” ์–ธ์–ด·๋ ˆ์ด์•„์›ƒ·์žฅ๋ฅด ๋‹ค์–‘์„ฑ์„ ๋ฐ˜์˜ํ•˜๋„๋ก ๋„๋ฉ”์ธ์„ ์„ค๊ณ„ํ–ˆ๋‹ค.

3.1.1 ๋„๋ฉ”์ธ ๊ตฌ์„ฑ ๋ฐ ๋น„์œจ

๋ฐ์ดํ„ฐ๋Š” Nature(์•ฝ 55%) · Design(์•ฝ 27%) · People(์•ฝ 13%) · Synthetic(์•ฝ 5%)๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

  • Nature: ์‚ฌ๋ฌผ·ํ’๊ฒฝ·๋„์‹œ·์‹ค๋‚ด·์Œ์‹ ๋“ฑ ๊ด‘๋ฒ”์œ„ํ•œ ์ผ๋ฐ˜ ์žฅ๋ฉด. ์‚ฌ์‹ค์  ์žฌ์งˆ, ์กฐ๋ช…, ๊ตฌ๋„ ํ•™์Šต์˜ ๊ธฐ๋ฐ˜์ด ๋˜์–ด ๋‹ค๋ฅธ ๋„๋ฉ”์ธ ์„ฑ๋Šฅ ์•ˆ์ •์„ฑ์„ ๋ณด์žฅ.
  • Design: ํฌ์Šคํ„ฐ·UI·ํ”„๋ ˆ์  ํ…Œ์ด์…˜ ์Šฌ๋ผ์ด๋“œ·๋””์ง€ํ„ธ ์•„ํŠธ ๋“ฑ ํ…์ŠคํŠธ์™€ ๋ ˆ์ด์•„์›ƒ์ด ํ’๋ถ€ํ•œ ๊ตฌ์กฐ์  ์‹œ๊ฐ๋ฌผ. ํ…์ŠคํŠธ ๋ Œ๋”๋ง๊ณผ ๋ณต์žก ๋ ˆ์ด์•„์›ƒ ์ฒ˜๋ฆฌ ํ•™์Šต์˜ ํ•ต์‹ฌ ์ถ•.
  • People: ์ธ๋ฌผ·์Šคํฌ์ธ ·ํ™œ๋™ ๋“ฑ ์‚ฌ๋žŒ ์ค‘์‹ฌ ์ด๋ฏธ์ง€. ํŽธ์ง‘ ์‹œ ์‹œ๊ฐ์  ์ผ๊ด€์„ฑ(๋ฐฐ๊ฒฝ ์œ ์ง€), ์˜๋ฏธ์  ์ผ๊ด€์„ฑ(์ •์ฒด์„ฑ ์œ ์ง€)์„ ์œ„ํ•ด ํ•„์ˆ˜.
  • Synthetic: ์‹ค์ œ ์ด๋ฏธ์ง€๊ฐ€ ์•„๋‹Œ ํ†ต์ œ๋œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ. ํฌ๊ท€ ๋ฌธ์ž·ํ˜ผํ•ฉ ์–ธ์–ด·ํฐํŠธ ๋‹ค์–‘์„ฑ·๋‹ค๋‹จ ๋ฐฐ์น˜ ๊ฐ™์€ ๋กฑํ…Œ์ผ ์ผ€์ด์Šค ๋ณด์™„์šฉ.

3.1.2 ์ˆ˜์ง‘ ์‹ค๋ฌด ํŒ

  • ํ…์ŠคํŠธ ๋ฐ€๋„๊ฐ€ ๋†’์€ ์ „์ž๋ฌธ์„œ(PDF, PPT), ๊ฐ„ํŒ, ํŒจํ‚ค์ง€, ๊ด‘๊ณ  ๋“ฑ์„ ์šฐ์„  ํ™•๋ณดํ•˜๋ฉด ํ…์ŠคํŠธ ๋ Œ๋”๋ง ์„ฑ๋Šฅ์ด ๋น ๋ฅด๊ฒŒ ํ–ฅ์ƒ๋œ๋‹ค.
  • ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋Š” ์ „์ฒด ๋ถ„ํฌ ์™œ๊ณก์„ ๋ง‰๊ธฐ ์œ„ํ•ด 5% ์ด๋‚ด๋กœ ์œ ์ง€ํ•˜๊ณ , ์ดˆ์†Œํ˜• ๊ธ€์ž·ํฌ๊ท€ ํ•œ์ž ๊ฐ™์€ ํŠน์ˆ˜ ํƒœ์Šคํฌ์šฉ์œผ๋กœ ์ œํ•œ์ ์œผ๋กœ ์ฃผ์ž…ํ•˜๋Š” ํŽธ์ด ์•ˆ์ •์ ์ด๋‹ค.

 

3.2 ๋ฐ์ดํ„ฐ ํ•„ํ„ฐ๋ง

Qwen-Image๋Š” ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์„ ๋‹จ์ˆœํžˆ ํ•œ ๋ฒˆ ์ •์ œํ•˜๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, 7๋‹จ๊ณ„(S1~S7) ์ ์ง„์  ํ•„ํ„ฐ๋ง ํŒŒ์ดํ”„๋ผ์ธ์„ ์„ค๊ณ„ํ•ด ํ•™์Šต ๋‚œ์ด๋„์™€ ํ•ด์ƒ๋„ ์Šค์ผ€์ผ ์—…์— ๋งž์ถฐ ๋ฐ์ดํ„ฐ์…‹์„ ๊ณ ๋„ํ™”ํ–ˆ๋‹ค. ์ดˆ๊ธฐ์—๋Š” ์ตœ๋Œ€ํ•œ ๋„“์€ ๋ถ„ํฌ๋ฅผ ํ™•๋ณดํ•˜๊ณ , ํ›„๋ฐ˜์œผ๋กœ ๊ฐˆ์ˆ˜๋ก ์ •์ œ ๊ธฐ์ค€์„ ๊ฐ•ํ™”ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.

 

3.2.1 S1: ์ดˆ๊ธฐ ์‚ฌ์ „ ํ•™์Šต ํ๋ ˆ์ด์…˜

  • ํ•ด์ƒ๋„ 256p์—์„œ ์‹œ์ž‘ํ•ด ๋‹ค์–‘ํ•œ ์ข…ํšก๋น„(1:1, 2:3, 3:2 …)๋ฅผ ์œ ์ง€ํ•ด multi-aspect ratio ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.
  • Broken ํŒŒ์ผ, ๋„ˆ๋ฌด ์ž‘์€ ํ•ด์ƒ๋„, ์ค‘๋ณต, NSFW๋ฅผ ์ œ๊ฑฐ → ๊ธฐ์ดˆ ํ•™์Šต ์•ˆ์ •์„ฑ ํ™•๋ณด.

3.2.2 S2: ํ™”์งˆ ํ–ฅ์ƒ ํ•„ํ„ฐ

  • ํšŒ์ „•์„ ๋ช…๋„•๋ฐ๊ธฐ•์ฑ„๋„•์—”ํŠธ๋กœํ”ผ•์งˆ๊ฐ ๊ธฐ์ค€์œผ๋กœ ์ €ํ’ˆ์งˆ ์ƒ˜ํ”Œ ์ œ๊ฑฐ.
  • ํŠนํžˆ ์ž‘์€ ๊ธ€์ž ํš, ์—ฃ์ง€ ๋ณด์กด์— ํšจ๊ณผ → ํ…์ŠคํŠธ ๋ Œ๋”๋ง ์„ฑ๋Šฅ ์ง์ ‘ ๊ฐ•ํ™”.

3.2.3 S3: ์ด๋ฏธ์ง€–ํ…์ŠคํŠธ ์ •ํ•ฉ ๊ฐœ์„ 

  • ์บก์…˜ ์†Œ์Šค๋ฅผ Raw / Recaption(Qwen-VL Captioner) / Fused๋กœ ๋‚˜๋ˆ”.
    • Raw: ์ง€์‹์„ฑ ํ’๋ถ€ํ•˜์ง€๋งŒ ๋…ธ์ด์ฆˆ ์žˆ์Œ.
    • Recaption: ๊ตฌ์กฐ์ ·์„œ์ˆ ์ .
    • Fused: ๋‘ ์žฅ์ ์„ ํ•ฉ์ณ ์ง€์‹+์„œ์ˆ ์„ฑ ํ™•๋ณด.
  • Chinese-CLIP, SigLIP2 ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋กœ ๋ฏธ์Šค๋งค์น˜ ์ œ๊ฑฐ.
  • Token Length, Invalid Caption ์ •๋ฆฌ → ์กฐ๊ฑด ์‹ ํ˜ธ ์ •ํ•ฉ์„ฑ ๋ณด์žฅ.

3.2.4 S4: ํ…์ŠคํŠธ ๋ Œ๋”๋ง ๊ฐ•ํ™”

  • ์–ธ์–ด๋ณ„(์˜์–ด/์ค‘๊ตญ์–ด/๊ธฐํƒ€/๋น„ํ…์ŠคํŠธ)๋กœ ๋ถ„ํ•  → ์–ธ์–ด ๊ท ํ˜• ์œ ์ง€.
  • ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ฃผ์ž…์œผ๋กœ ํฌ๊ท€ ๋ฌธ์ž·ํ˜ผํ•ฉ ์–ธ์–ด ์ปค๋ฒ„.
  • Intensive Text, Small Character ํ•„ํ„ฐ๋กœ ๊ณผ๋„ํ•œ ๋ฌธ๋‹จ/์ดˆ์†Œํ˜• ๊ธ€์ž ์ œ์™ธ → ํ›ˆ๋ จ ๋ถˆ์•ˆ์ •์„ฑ ๋ฐฉ์ง€.

3.2.5 S5: ๊ณ ํ•ด์ƒ๋„(640p) ์ •์ œ

  • ํ’ˆ์งˆ•ํ•ด์ƒ๋„•์‹ฌ๋ฏธ์„ฑ
  • ์›Œํ„ฐ๋งˆํฌ•QR•๋ฐ”์ฝ”๋“œ ์ œ๊ฑฐ.
  • ๊ณ ํ•ด์ƒ๋„ ๋‹จ๊ณ„์—์„œ aesthetic ๊ธฐ์ค€์„ ๊ฐ•ํ™”ํ•ด ์‹œ๊ฐ์  ํ’ˆ์งˆ๊ณผ ์‚ฌ์‹ค๊ฐ์„ ๋†’์ž„.
  • ํ’ˆ์งˆ: BRISQUE, NIQE, PIQE ๊ฐ™์€ no-reference IQA(์ด๋ฏธ์ง€ ํ’ˆ์งˆ ํ‰๊ฐ€) ์ง€ํ‘œ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ CLIP ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฐ˜ IQA ๋ชจ๋ธ๋„ ์‚ฌ์šฉ 
  • ์‹ฌ๋ฏธ์„ฑ: LAION-Aesthetics predictor ๊ฐ™์€ ๊ณต๊ฐœ ๋ชจ๋ธ ์‚ฌ์šฉ

3.2.6 S6: ์นดํ…Œ๊ณ ๋ฆฌ ๋ฆฌ๋ฐธ๋Ÿฐ์‹ฑ & ํฌํŠธ๋ ˆ์ดํŠธ ๋ณด๊ฐ•

  • General / Portrait / Text Rendering์œผ๋กœ ์žฌ๋ถ„๋ฅ˜, ์ทจ์•ฝ ๊ตฌ๊ฐ„ ๋ณด๊ฐ•.
  • ํฌํŠธ๋ ˆ์ดํŠธ๋Š” ํ‘œ์ •, ์˜๋ณต, ์กฐ๋ช…, ๋ฌด๋“œ๊นŒ์ง€ ์บก์…˜์— ๋ฐ˜์˜ํ•ด ์ •์ฒด์„ฑ+์ปจํ…์ŠคํŠธ ์ผ๊ด€์„ฑ ๊ฐ•ํ™”.
  • ๋ชจ์ž์ดํฌ•๋ธ”๋Ÿฌ ์–ผ๊ตด ์ œ๊ฑฐ → ํ”„๋ผ์ด๋ฒ„์‹œ์™€ ํ•™์Šต ํ˜ผ๋ž€ ๋ฐฉ์ง€.

3.2.7 S7: ๋ฉ€ํ‹ฐ์Šค์ผ€์ผ(640p+1328p) ๊ท ํ˜• ํ•™์Šต

  • ๋‹จ์ผ ์ดˆ๊ณ ํ•ด์ƒ๋„(1328p)๋งŒ ์“ฐ๋ฉด ๋ถ„ํฌ ์™œ๊ณก ๋ฐœ์ƒ → ๊ณ„์ธตํ˜• ํƒ์†Œ๋…ธ๋ฏธ ์„ค๊ณ„ํ•ด ์นดํ…Œ๊ณ ๋ฆฌ๋ณ„ ์ตœ๊ณ  ํ’ˆ์งˆ ์ƒ˜ํ”Œ ๋ณด์กด.
  • ํ…์ŠคํŠธ ํฌํ•จ ์ƒ˜ํ”Œ ์žฌ์ƒ˜ํ”Œ๋ง์œผ๋กœ ํ† ํฐ ๋นˆ๋„ ๋กฑํ…Œ์ผ ๋ณด์ •.
  • ๋ชฉํ‘œ: ๋””ํ…Œ์ผ ๋ฌ˜์‚ฌ๋ ฅ ํ–ฅ์ƒ + ์ „๋ฐ˜์  ๊ฐ•๊ฑด์„ฑ ์œ ์ง€.
S1~S7์˜ ๊ณผ์ •์„ ๋ณด๋ฉด ๋‹จ์ˆœํžˆ ์ €ํ’ˆ์งˆ ์ด๋ฏธ์ง€๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์บก์…˜ ๋ณด๊ฐ•, ๋ฐ์ดํ„ฐ ๋ถ„๋ฅ˜/์žฌ๋ถ„๋ฐฐ, ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ๋ณด๊ฐ• ๋“ฑ์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์…‹์„ ๊ณ ๋„ํ™”ํ•˜๋Š” ๊ณผ์ •์ด๋ผ๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

 

3.3 ๋ฐ์ดํ„ฐ ์–ด๋…ธํ…Œ์ด์…˜

Qwen-Image๋Š” “ํ•˜๋‚˜์˜ ํŒจ์Šค์—์„œ ๋‹ค์ธต์  ์ฃผ์„์„ ๋™์‹œ ์ƒ์„ฑ”ํ•˜๋Š” ๋ฐฉ์‹์„ ์ฑ„ํƒํ•œ๋‹ค. ์ฆ‰, ๋‹จ์ˆœ ์„œ์ˆ  ์บก์…˜๋ฟ ์•„๋‹ˆ๋ผ, ๊ตฌ์กฐํ™” ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ(JSON)๋ฅผ ํ•จ๊ป˜ ์ถœ๋ ฅํ•˜๋„๋ก ์„ค๊ณ„ํ•˜์—ฌ ์ดํ›„ ํ•„ํ„ฐ๋ง·์ƒ˜ํ”Œ๋ง·์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต๊นŒ์ง€ ์ž๋™ํ™”ํ•œ๋‹ค.

  • ์„œ์ˆ  ์บก์…˜ (Caption)
    • ๊ฐ์ฒด ์†์„ฑ(์ƒ‰์ƒ, ์žฌ์งˆ, ํฌ๊ธฐ ๋“ฑ)
    • ๊ณต๊ฐ„ ๊ด€๊ณ„(์ „๊ฒฝ/๋ฐฐ๊ฒฝ, ์ƒ๋Œ€์  ์œ„์น˜)
    • ํ™˜๊ฒฝ ๋งฅ๋ฝ(์‹ค๋‚ด/์‹ค์™ธ, ์กฐ๋ช…, ๋ถ„์œ„๊ธฐ)
    • ๋ณด์ด๋Š” ํ…์ŠคํŠธ → ๋ฐ˜๋“œ์‹œ ์ธ์šฉ๋ถ€ํ˜ธ๋กœ ์›๋ฌธ ๊ทธ๋Œ€๋กœ ๊ธฐ๋ก (OCR ๊ฒ€์ฆ์šฉ)
  • ๊ตฌ์กฐํ™” JSON ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ
    • "Image Type": product / natural / document / portrait ๋“ฑ ๋ถ„๋ฅ˜ ํƒœ๊ทธ
    • "Image Style": studio / candid / cartoon / poster ๋“ฑ ์Šคํƒ€์ผ
    • "Watermark List": ์›Œํ„ฐ๋งˆํฌ, ๋กœ๊ณ , QR ๋“ฑ ๊ฒ€์ถœ๋œ ์š”์†Œ ๋ชฉ๋ก
    • "Abnormal Element": ๊นจ์ง/ํ•ฉ์„ฑํ‹ฐ/์ €ํ•ด์ƒ/NSFW ์—ฌ๋ถ€
    • ํ•„์š” ์‹œ "Language": ๋ณด์ด๋Š” ํ…์ŠคํŠธ์˜ ์–ธ์–ด (EN/ZH/KO ๋“ฑ)

3.3.1 ์ฃผ์„ ํ”„๋กฌํ”„ํŠธ์™€ ์ถœ๋ ฅ ์˜ˆ์‹œ

 

๋…ผ๋ฌธ์—์„œ๋Š” Qwen-VL ๊ธฐ๋ฐ˜ ์–ด๋…ธํ…Œ์ด์…˜ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์„ค๊ณ„ํ•ด ์ด๋ฏธ์ง€ ํ•˜๋‚˜์—์„œ Caption + JSON์„ ํ•œ๊บผ๋ฒˆ์— ๋ฝ‘์•„๋‚ธ๋‹ค.

{
  "Caption": "ํฐ ๋ฐฐ๊ฒฝ ์œ„ ๊ธˆ์† ๋จธ๊ทธ์ปต. ๋ผ๋ฒจ์— 'Cafe 24' ํ…์ŠคํŠธ๊ฐ€ ์ธ์‡„๋˜์–ด ์žˆ๋‹ค.",
  "Image Type": "product",
  "Image Style": "studio",
  "Watermark List": [],
  "Abnormal Element": "no",
  "Language": "ko"
}

3.3.2 ์šด์˜์ƒ ์ด์ 

  • ๊ฒ€์ƒ‰์„ฑ ๊ฐ•ํ™”: ์†์„ฑ ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰/ํ•„ํ„ฐ๋ง์ด ๋ฐ”๋กœ ๊ฐ€๋Šฅ → ์˜ˆ: "Image Type"="document" AND "Language"="zh"๋กœ ํ…์ŠคํŠธ ํ’๋ถ€ํ•œ ์ค‘๊ตญ์–ด ๋ฌธ์„œ๋งŒ ์ถ”์ถœ.
  • ์ •ํ•ฉ ๊ฒ€์ฆ: ์บก์…˜ ๋‚ด ์ธ์šฉ ํ…์ŠคํŠธ์™€ OCR ๊ฒฐ๊ณผ๋ฅผ ๋Œ€์กฐํ•ด, ํ…์ŠคํŠธ ๋ Œ๋”๋ง ๋‚œ์ด๋„ ์ง€ํ‘œ๋ฅผ ์‚ฐ์ถœํ•˜๊ณ  ์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต ๋‹จ๊ณ„(S4~S7)์— ๋ฐ˜์˜.
  • ์ž๋™ํ™”: ์›Œํ„ฐ๋งˆํฌ·์ด์ƒ ์š”์†Œ ํƒœ๊น…์ด ์ž๋™ํ™”๋˜์–ด ํ›„์† ๋ฐ์ดํ„ฐ ํด๋ฆฌ๋‹ ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ์ง์ ‘ ์—ฐ๊ฒฐ๋จ.
  • ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์ค€๋น„: Type/Style ํƒœ๊ทธ๋Š” ์ดํ›„ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต(ํŽธ์ง‘, ์Šคํƒ€์ผ ์ „ํ™˜ ๋“ฑ)์—์„œ ์กฐ๊ฑด ์ œ์–ด ๋ณ€์ˆ˜๋กœ ์žฌํ™œ์šฉ ๊ฐ€๋Šฅ.

 

3.4 ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ

์‹ค์„ธ๊ณ„ ํ…์ŠคํŠธ๋Š” ๋กฑํ…Œ์ผ ๋ถ„ํฌ๊ฐ€ ์‹ฌํ•ด, ํฌ๊ท€ ๋ฌธ์ž·๋ณต์žกํ•œ ๋ฐฐ์น˜·๋‹ค๊ตญ์–ด ํ˜ผ์šฉ ๊ฐ™์€ ์ผ€์ด์Šค๊ฐ€ ์‹ค์ œ ๋ฐ์ดํ„ฐ์—์„œ ์ถฉ๋ถ„ํžˆ ๋“ฑ์žฅํ•˜์ง€ ์•Š๋Š”๋‹ค. Qwen-Image๋Š” ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด 3๋‹จ ํ•ฉ์„ฑ ์ „๋žต(Pure / Compositional / Complex Rendering)์„ ์„ค๊ณ„ํ•˜์—ฌ, ์ž์—ฐ ๋ฐ์ดํ„ฐ๋กœ๋Š” ์ปค๋ฒ„ํ•˜๊ธฐ ์–ด๋ ค์šด ์˜์—ญ์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ฃผ์ž…ํ–ˆ๋‹ค.

3.4.1 Pure Rendering: ๋‹จ์ƒ‰ ๋ฐฐ๊ฒฝ ๋ฌธ๋‹จ

  • ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค(๋‰ด์Šค, ์œ„ํ‚ค, ๊ธฐ์ˆ  ๋ฌธ์„œ ๋“ฑ)์—์„œ ๋ฌธ๋‹จ์„ ์ถ”์ถœ.
  • ์บ”๋ฒ„์Šค ์œ„์— ๊ธ€์ž ํฌ๊ธฐ, ์ž๊ฐ„, ํ–‰๊ฐ„์„ ๋žœ๋ค ์ƒ˜ํ”Œ๋งํ•ด ๋ฐฐ์น˜.
  • ๋ Œ๋”๋ง ์ค‘ ์ผ๋ถ€ ์‹คํŒจํ•˜๋ฉด ์ „์ฒด ์ƒ˜ํ”Œ ํ๊ธฐ → ํ’ˆ์งˆ ๋ณด์ฆ.
  • ํšจ๊ณผ: ์ดˆ์†Œํ˜• ๊ธ€์ž, ๋ณต์žก ์„œ์ฒด, ์ปค๋‹(์ž๊ฐ„) ํ‘œํ˜„๋ ฅ ํ–ฅ์ƒ.

3.4.2 Compositional Rendering: ๋งฅ๋ฝ ์žฅ๋ฉด ํ•ฉ์„ฑ

  • ์ข…์ด, ๋‚˜๋ฌดํŒ, ๊ธˆ์†ํŒ ๊ฐ™์€ ์งˆ๊ฐ ํ…์Šค์ฒ˜ ์œ„์— ํ…์ŠคํŠธ ํ•ฉ์„ฑ.
  • ์‹ค์ œ ์‚ฌ์ง„ ๋ฐฐ๊ฒฝ๊ณผ ์•ŒํŒŒ ๋ธ”๋ Œ๋”ฉํ•ด ์ž์—ฐ์Šค๋Ÿฌ์šด ์‚ฝ์ž….
  • Qwen-VL ๊ธฐ๋ฐ˜ ์บก์…˜์œผ๋กœ “์žฅ๋ฉด-ํ…์ŠคํŠธ ๊ด€๊ณ„”๋ฅผ ํ•จ๊ป˜ ๊ธฐ์ˆ .
  • ํšจ๊ณผ: ๊ฐ„ํŒ, ํฌ์Šคํ„ฐ, ๋ฉ”๋ชจ์ง€์ฒ˜๋Ÿผ ๋งฅ๋ฝ ์† ํ…์ŠคํŠธ ์ถ”์ข… ๋Šฅ๋ ฅ ๊ฐ•ํ™”.

3.4.3 Complex Rendering: ํ…œํ”Œ๋ฆฟ ๊ธฐ๋ฐ˜ ๋ณต์žก ๋ ˆ์ด์•„์›ƒ

  • PPT ์Šฌ๋ผ์ด๋“œ, UI ๋ชฉ์—…, ์žก์ง€ ๋ ˆ์ด์•„์›ƒ ๊ฐ™์€ ๊ตฌ์กฐ์  ํ…œํ”Œ๋ฆฟ ํ™œ์šฉ.
  • placeholder๋ฅผ ๊ทœ์น™ ๊ธฐ๋ฐ˜์œผ๋กœ ์น˜ํ™˜ํ•˜์—ฌ ๋‹ค๋‹จ/์ •๋ ฌ/ํฐํŠธ·์ƒ‰์ƒ ๊ทœ์น™ ์œ ์ง€.
  • ํšจ๊ณผ: ๋ฌธ๋‹จ·๋ชฉ๋ก·์•„์ด์ฝ˜·ํ‘œ๊ฐ€ ์–ฝํžŒ ๋ณต์žก ํ”„๋กฌํ”„ํŠธ ์‹คํ–‰๋ ฅ ํ™•๋ณด.

3.4.4 ์ฃผ์˜์ 

  • ํ•ฉ์„ฑ ๋น„์ค‘์€ ์ „์ฒด์—์„œ ๊ณผ๋„ํ•˜์ง€ ์•Š๊ฒŒ ์œ ์ง€ํ•˜๊ณ , ์ž์—ฐ ์ด๋ฏธ์ง€์™€ ์ฃผ๊ธฐ์ ์œผ๋กœ ๋ฆฌ๋ฐธ๋Ÿฐ์‹ฑ.
  • ํ…์ŠคํŠธ ํฌ๊ธฐ ๋ถ„ํฌ, ์–ธ์–ด๋ณ„ ๋ฌธ์ž ๋นˆ๋„, ๋ฌธ๋‹จ ํ–‰/์—ด ์ˆ˜ ๋“ฑ ํ†ต๊ณ„ ์ง€ํ‘œ๋ฅผ ๋ชจ๋‹ˆํ„ฐ๋งํ•ด ํ•ฉ์„ฑ ๋‚œ๋„๋ฅผ ์กฐ์ ˆ.
  • ๋ชฉํ‘œ๋Š” ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ž์ฒด๊ฐ€ ์•„๋‹ˆ๋ผ, ์‹ค์ œ ํ”„๋กฌํ”„ํŠธ ๋ถ„ํฌ์˜ ๋กฑํ…Œ์ผ์„ ๋ณด๊ฐ•ํ•˜๋Š” ๊ฒƒ.

 

4. Training

Qwen-Image์˜ ํ•™์Šต์€ Pre-training → Post-training → Multi-task 3์ถ•์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ํ•ต์‹ฌ์€ flow matching ๊ธฐ๋ฐ˜ ํ•™์Šต ๋ชฉํ‘œ์™€ ๋Œ€๊ทœ๋ชจ ๋ถ„์‚ฐ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์•ˆ์ •์  ์ˆ˜๋ ด๊ณผ ํ™•์žฅ์„ฑ์„ ๋™์‹œ์— ๋‹ฌ์„ฑํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

4.1 Pre-training

4.1.1 Flow matching ๋ชฉํ‘œ์™€ ์ˆ˜์‹ ํ•ด์„ค

Qwen-Image๋Š” Rectified Flow ๊ณ„์—ด์˜ flow matching์„ ํ•™์Šต ๋ชฉํ‘œ๋กœ ์ฑ„ํƒํ•œ๋‹ค. ์ด ๋ฐฉ์‹์€ ODE ๊ธฐ๋ฐ˜ ์ •์‹ํ™”๋กœ ์•ˆ์ •์ ์ธ ํ•™์Šต ๋™์—ญํ•™์„ ์ œ๊ณตํ•˜๋ฉด์„œ๋„, ์ตœ๋Œ€์šฐ๋„์ถ”์ •(MLE)๊ณผ ์ˆ˜ํ•™์ ์œผ๋กœ ๋™์น˜์ž„์ด ๋ณด์žฅ๋œ๋‹ค.

  • ์ž…๋ ฅ ์ด๋ฏธ์ง€ x0โ€‹๋Š” VAE ์ธ์ฝ”๋” E๋ฅผ ํ†ตํ•ด ์ž ์žฌ z=E(x0)์œผ๋กœ ๋งคํ•‘.
  • ๋…ธ์ด์ฆˆ x1∼N(0,I)๋ฅผ ์ƒ˜ํ”Œ๋ง.
  • ์‚ฌ์šฉ์ž ์ž…๋ ฅ S๋กœ๋ถ€ํ„ฐ Qwen2.5-VL์ด ์กฐ๊ฑด ์ž ์žฌ h=ฯ•(S)๋ฅผ ์ถ”์ถœ.
  • ์‹œ๊ฐ„ t∈[0,1]์€ logit-normal ๋ถ„ํฌ์—์„œ ์ƒ˜ํ”Œ.
  • Rectified Flow ์ •์˜์— ๋”ฐ๋ผ intermediate latent variable์™€ velocity๋Š”

  • โ€‹์ฆ‰, vt๋Š” ๋…ธ์ด์ฆˆ์—์„œ ์›๋ณธ์œผ๋กœ ๊ฐ€๋Š” ์ƒ์ˆ˜ ๋ฒกํ„ฐ์ด๋‹ค.
  • ๋ชจ๋ธ์€ fθ(xt,t,h)๋กœ ์˜ˆ์ธกํ•œ ์†๋„ vθ์™€ ์ •๋‹ต ์†๋„ vt์˜ ์ฐจ์ด๋ฅผ MSE๋กœ ์ตœ์†Œํ™”ํ•œ๋‹ค

 

์ฆ‰, “ํ๋ฆฟํ•œ ์ด๋ฏธ์ง€์—์„œ ์›๋ณธ์œผ๋กœ ๊ฐ€๋Š” ํ•œ ๊ฑธ์Œ์˜ ๋ฐฉํ–ฅ”์„ ๋ฐฐ์šฐ๋Š” ์…ˆ์ด๋‹ค. ๋”ฐ๋ผ์„œ step ์ˆ˜์— ๋œ ๋ฏผ๊ฐํ•˜๊ณ , ๊ณ ํ•ด์ƒ๋„ ํ•™์Šต์—์„œ๋„ ์ˆ˜๋ ด์ด ์•ˆ์ •์ ์ด๋‹ค.

 

Rectified Flow ์ˆ˜์‹ ์ƒ์„ธ ์„ค๋ช…

  • x0: ์›๋ณธ ์ด๋ฏธ์ง€์˜ latent (๋ฐ์ดํ„ฐ)
  • x1โ€‹: ์ˆœ์ˆ˜ ๋…ธ์ด์ฆˆ latent (์ •๊ทœ๋ถ„ํฌ N(0,I)\mathcal{N}(0,I)N(0,I)์—์„œ ์ƒ˜ํ”Œ)
  • xtโ€‹: t ์‹œ์ ์—์„œ์˜ latent, ๋ฐ์ดํ„ฐ์™€ ๋…ธ์ด์ฆˆ์˜ ์„ ํ˜• ๋ณด๊ฐ„

  • t=0 → xt=x1โ€‹ → ์™„์ „ํ•œ ๋…ธ์ด์ฆˆ
  • t=1 → xt=x0โ€‹ → ์›๋ณธ ๋ฐ์ดํ„ฐ
  • 0<t<1 → ๋ฐ์ดํ„ฐ์™€ ๋…ธ์ด์ฆˆ๊ฐ€ ์„ž์ธ ์ค‘๊ฐ„ ์ƒํƒœ

๋ฏธ๋ถ„ํ•˜๋ฉด ํ•ญ์ƒ x0−x1โ€‹, ์ฆ‰ ๋…ธ์ด์ฆˆ์—์„œ ๋ฐ์ดํ„ฐ๋กœ ํ–ฅํ•˜๋Š” ์ผ์ •ํ•œ ์†๋„ ๋ฒกํ„ฐ๊ฐ€ ๋‚˜์˜จ๋‹ค.

  • ๋ฐฉํ–ฅ: ๋…ธ์ด์ฆˆ์—์„œ ์›๋ณธ์œผ๋กœ ํ–ฅํ•˜๋Š” ๋ฐฉํ–ฅ
  • ํฌ๊ธฐ: ๋ฐ์ดํ„ฐ์™€ ๋…ธ์ด์ฆˆ ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ

๋”ฐ๋ผ์„œ ๋ชจ๋ธ์€ ๊ฐ xtโ€‹ ์œ„์น˜์—์„œ “์ง€๊ธˆ ์ด latent๊ฐ€ ์–ด๋А ๋ฐฉํ–ฅ์œผ๋กœ ์›€์ง์—ฌ์•ผ ๋ฐ์ดํ„ฐ์— ๊ฐ€๊นŒ์›Œ์ง€๋Š”์ง€”๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

 

 

4.1.2 Producer–Consumer ํ”„๋ ˆ์ž„์›Œํฌ

๋Œ€๊ทœ๋ชจ GPU ํด๋Ÿฌ์Šคํ„ฐ์—์„œ ์Šค๋ฃจํ’‹๊ณผ ์•ˆ์ •์„ฑ์„ ๋™์‹œ์— ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด, ์ „์ฒ˜๋ฆฌ(Producer)์™€ ํ•™์Šต(Consumer)์„ ๋ถ„๋ฆฌํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

  • Producer
    • ํ•ด์ƒ๋„·ํ’ˆ์งˆ ํ•„ํ„ฐ๋ง → Qwen2.5-VL๋กœ ์กฐ๊ฑด ์ž ์žฌ h, VAE๋กœ ์žฌ๊ตฌ์„ฑ ์ž ์žฌ z๋ฅผ ์‚ฌ์ „ ์ธ์ฝ”๋”ฉ
    • ํ•ด์ƒ๋„๋ณ„ ์บ์‹œ ๋ฒ„ํ‚ท์œผ๋กœ ๋ฌถ์–ด ์œ„์น˜ ์ธ์‹ํ˜• ์Šคํ† ์–ด(shared store)์— ์ ์žฌ
  • Transport Layer
    • RPC ์˜๋ฏธ๋ก ์„ ์ง€์›ํ•˜๋Š” ์ „์šฉ HTTP ๋ ˆ์ด์–ด → ๋น„๋™๊ธฐ·zero-copy ์ „์†ก
  • Consumer
    • GPU ๋ฐ€์ง‘ ๋…ธ๋“œ์—์„œ ์˜ค์ง MMDiT ํ•™์Šต๋งŒ ์ „๋‹ด
    • ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” 4-way tensor parallel๋กœ ๋ถ„์‚ฐ, ๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌ ๊ทธ๋ฃน์ด Producer์—์„œ ๋น„๋™๊ธฐ pull

์šด์˜์  ์ด์ : ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์„ ํ•™์Šต ์ค‘๋‹จ ์—†์ด ์—…๋ฐ์ดํŠธ ๊ฐ€๋Šฅ, Producer๊ฐ€ ์ „์ฒ˜๋ฆฌ๋ฅผ ๋ชจ๋‘ ๋‹ด๋‹นํ•ด GPU ์ž์›์ด ํ•™์Šต์—๋งŒ ์ง‘์ค‘๋จ → idle time ์ตœ์†Œํ™”.

 

4.1.3 ๋ถ„์‚ฐ ํ•™์Šต ์ตœ์ ํ™”

  • ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ณ‘๋ ฌ ์ „๋žต
    • ๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌ + ํ…์„œ ๋ณ‘๋ ฌ์„ ๊ฒฐํ•ฉ.
    • Transformer-Engine์œผ๋กœ ํ…์„œ ๋ณ‘๋ ฌ degree๋ฅผ ์ž๋™ ์ „ํ™˜.
    • Multi-head self-attention์€ head-wise parallelism์„ ์‚ฌ์šฉํ•ด ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ ์™„ํ™”.
  • ๋ฉ”๋ชจ๋ฆฌ ์ตœ์ ํ™”
    • Activation checkpointing์€ ๋ฉ”๋ชจ๋ฆฌ 11.3% ๊ฐ์†Œ ํšจ๊ณผ(71→63GB/GPU) ์žˆ์—ˆ์ง€๋งŒ, step ์‹œ๊ฐ„์ด 3.75× ์ฆ๊ฐ€ํ•ด ์ „์ฒด ํ•™์Šต ์†๋„๊ฐ€ ์˜คํžˆ๋ ค ์ €ํ•˜ → ์ตœ์ข…์ ์œผ๋กœ ๋น„ํ™œ์„ฑํ™”.
    • ๋Œ€์‹  ๋ถ„์‚ฐ ์˜ตํ‹ฐ๋งˆ์ด์ €(all-gather: bfloat16, reduce-scatter: float32)๋ฅผ ์‚ฌ์šฉํ•ด ์†๋„·์•ˆ์ •์„ฑ ์ ˆ์ถฉ.

4.1.4 ์ปค๋ฆฌํ˜๋Ÿผํ˜• ํ•™์Šต ์ „๋žต

Qwen-Image๋Š” ๋‹จ์ผ ์ƒท์œผ๋กœ ๋ชจ๋“  ๋‚œ๋„๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š” ๋Œ€์‹ , ํ•™์Šต ์ง„ํ–‰์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ์™€ ๊ณผ์—… ๋‚œ๋„๋ฅผ ์ ์ง„์ ์œผ๋กœ ์˜ฌ๋ฆฌ๋Š” ์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต(curriculum learning) ๋ฐฉ์‹์„ ์ฑ„ํƒํ–ˆ๋‹ค. ์ด ์ ‘๊ทผ์€ ๋ชจ๋ธ์ด ๋จผ์ € ์•ˆ์ •์ ์œผ๋กœ ๊ธฐ๋ณธ ๋Šฅ๋ ฅ์„ ํ™•๋ณดํ•œ ๋’ค, ์ ์ฐจ ๋ณต์žกํ•˜๊ณ  ๊นŒ๋‹ค๋กœ์šด ์กฐ๊ฑด์„ ํ•™์Šตํ•ด ๋‚˜๊ฐ€๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค.

  • ํ•ด์ƒ๋„ ์ƒ์Šน
    • 256p (multi-aspect ratio) → 640p → 1328p
    • ์ดˆ๊ธฐ์—๋Š” coarseํ•œ ๊ตฌ์กฐ์™€ ์ „๋ฐ˜์  ํŒจํ„ด์„ ์•ˆ์ •์ ์œผ๋กœ ํ•™์Šต.
    • ํ›„๋ฐ˜์—๋Š” ๊ณ ํ•ด์ƒ๋„ ํ…์Šค์ฒ˜, ์„ธ๋ฐ€ํ•œ ๊ฒฝ๊ณ„(edge), ์ƒ‰์ƒ ๊ทธ๋ผ๋””์–ธํŠธ๊นŒ์ง€ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.
  • ๋น„ํ…์ŠคํŠธ → ํ…์ŠคํŠธ
    • ์ดˆ๊ธฐ์—๋Š” ์ผ๋ฐ˜ ์‹œ๊ฐ ํ‘œํ˜„(๋ฌผ์ฒด·์žฅ๋ฉด) ์ค‘์‹ฌ.
    • ์ดํ›„ ํ…์ŠคํŠธ๊ฐ€ ํฌํ•จ๋œ ์ด๋ฏธ์ง€(๊ฐ„ํŒ, ๋ฌธ์„œ, ํฌ์Šคํ„ฐ)๋ฅผ ์ ์ง„์ ์œผ๋กœ ์ฃผ์ž….
    • ํŠนํžˆ ํ•œ์ค‘์ผ(CJK) ๋ฌธ์ž์ฒ˜๋Ÿผ ๊ธ€์ž ์ˆ˜๊ฐ€ ๋ฐฉ๋Œ€ํ•œ ์–ธ์–ด์—์„œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ๋‘๋“œ๋Ÿฌ์ง.
  • ๋Œ€๊ทœ๋ชจ → ์ •์ œ ๋ฐ์ดํ„ฐ
    • ์ดˆ๋ฐ˜: ์ˆ˜์–ต ๋‹จ์œ„ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋กœ ๊ธฐ๋ณธ์ ์ธ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ˜•์„ฑ.
    • ํ›„๋ฐ˜: ํ•„ํ„ฐ๋ง์„ ์—„๊ฒฉํžˆ ์ ์šฉํ•ด ๊ณ ํ’ˆ์งˆ ์ƒ˜ํ”Œ๋งŒ ํ•™์Šต.
    • ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋…ธ์ด์ฆˆ ๋งŽ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ์ดˆ๊ธฐ ํ‘œํ˜„๋ ฅ์„ ํ™•๋ณดํ•˜๋ฉด์„œ, ํ›„๋ฐ˜์—๋Š” ๊นจ๋—ํ•œ ๋ฐ์ดํ„ฐ๋กœ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ceiling์„ ๋Œ์–ด์˜ฌ๋ฆผ.
  • ๋ถ„ํฌ ๊ท ํ˜•ํ™”
    • ๋„๋ฉ”์ธ·ํ•ด์ƒ๋„ ๋ถ„ํฌ๊ฐ€ ๋ถˆ๊ท ํ˜•ํ•˜๋ฉด ํŠน์ • ์กฐ๊ฑด์—์„œ ์„ฑ๋Šฅ ์ €ํ•˜.
    • ์˜ˆ: ํ’๊ฒฝ ์ด๋ฏธ์ง€๋Š” ์ž˜ ๋˜๋Š”๋ฐ, ํฌ์Šคํ„ฐ๋‚˜ ์ธ๋ฌผ ์‚ฌ์ง„์—์„œ ๋ฌด๋„ˆ์งˆ ์ˆ˜ ์žˆ์Œ.
    • ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต ํ›„๋ฐ˜๋ถ€์—๋Š” underrepresented ์ผ€์ด์Šค(์˜ˆ: ์ž‘์€ ๊ธ€์ž, ํŠน์ • ์–ธ์–ด, ์„ธ๋กœํ˜• ๋ ˆ์ด์•„์›ƒ)๋ฅผ ์ ๊ทน oversamplingํ•˜์—ฌ ๊ท ํ˜•์„ ๋งž์ถค.
  • ํ˜„์‹ค → ํ•ฉ์„ฑ ๋ณด๊ฐ•
    • ์‹ค์ œ ๋ฐ์ดํ„ฐ์— ๊ฑฐ์˜ ์—†๋Š” ์ผ€์ด์Šค๋ฅผ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ์ฑ„์›€.
      • ํฌ๊ท€ ๋ฌธ์ž (์˜ˆ: ๊ณ ๋Œ€ ๋ฌธ์ž, ํŠน์ˆ˜ ๊ธฐํ˜ธ)
      • ๋ณต์žกํ•œ ๋‹ค๋‹จ ๋ ˆ์ด์•„์›ƒ (์‹ ๋ฌธ·UI ๋ชฉ์—…)
      • ์ดˆ๊ณ ๋ฐ€ ํ…์ŠคํŠธ (๊ฐ„ํŒ, ์ธํฌ๊ทธ๋ž˜ํ”ฝ)
    • ํ•ฉ์„ฑ ๋น„์ค‘์€ ์ œํ•œ์ ์œผ๋กœ๋งŒ ์ฃผ์ž…, ์ „์ฒด ๋ถ„ํฌ๊ฐ€ ์™œ๊ณก๋˜์ง€ ์•Š๊ฒŒ ์ฃผ๊ธฐ์  ๋ฆฌ๋ฐธ๋Ÿฐ์‹ฑ์„ ์ˆ˜ํ–‰.
    • ํšจ๊ณผ: ๋กฑํ…Œ์ผ(ํฌ๊ท€ ์ผ€์ด์Šค)๊นŒ์ง€ robustํ•˜๊ฒŒ ์ปค๋ฒ„.

 

4.2 Post-training

Qwen-Image์˜ ํ•™์Šต์€ Pre-training → Post-training → Multi-task ํ™•์žฅ์˜ ์„ธ ์ถ•์œผ๋กœ ์ง„ํ–‰๋œ๋‹ค. Pre-training์—์„œ ๋ชจ๋ธ์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋กœ “๋ณดํŽธ์  ์‹œ๊ฐ·ํ…์ŠคํŠธ ๊ฒฐํ•ฉ ๋Šฅ๋ ฅ”์„ ์Šต๋“ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต๋งŒ์œผ๋กœ๋Š” ์—ฌ์ „ํžˆ ์ทจ์•ฝํ•œ ์„ธ๋ถ€ ์˜์—ญ์ด ์กด์žฌํ•˜๊ธฐ์— ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด Post-training์ด ์ˆ˜ํ–‰๋œ๋‹ค.

MLLM(Qwen2.5-VL)์€ ๊ณ„์† ํ”„๋ฆฌ์ง•์ด๊ณ , VAE๋Š” ์ธ์ฝ”๋”๋Š” ํ”„๋ฆฌ์ง•, ๋””์ฝ”๋”๋Š” pre-training ๊ตฌ๊ฐ„์—์„œ๋งŒ ๋ณ„๋„ ํŒŒ์ธํŠœ๋‹์„ ์ง„ํ–‰ํ•œ๋‹ค. MMDiT์˜ ๊ฒฝ์šฐ Pre-training > SFT > DPO > GRPO ์ „ ๋‹จ๊ณ„์—์„œ ๊ณ„์† ํ•™์Šตํ•˜๋ฉฐ ์—…๋ฐ์ดํŠธ๋œ๋‹ค. 

4.2.1 Supervised Fineโ€‘Tuning (SFT)

๋ชฉ์ : Pre-training์œผ๋กœ๋Š” ๋†“์น˜๊ธฐ ์‰ฌ์šด ์„ธ๋ฐ€ํ•œ ์˜์—ญ์„, ์‚ฌ๋žŒ ์ฃผ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ง์ ‘ ๋ณด์ •.

  • ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ: ๊ณ„์ธต์  ์˜๋ฏธ ์นดํ…Œ๊ณ ๋ฆฌ(hierarchical categories)๋ฅผ ๋งŒ๋“ค์–ด ๋ถ„๋ฅ˜๋ณ„๋กœ ์ทจ์•ฝ์ ์„ ์ง‘์ค‘ ๊ณต๋žต.
  • ์ƒ˜ํ”Œ ์„ ์ • ๊ธฐ์ค€: ์„ ๋ช…, ๋””ํ…Œ์ผ ํ’๋ถ€, ๋ฐ์Œ, ํฌํ† ๋ฆฌ์–ผ๋ฆฌ์ฆ˜.
  • ์‚ฌ๋žŒ ์ฃผ์„ ํ™œ์šฉ: ๋‹จ์ˆœ ์บก์…˜์ด ์•„๋‹ˆ๋ผ “์ด ํ”„๋กฌํ”„ํŠธ์—๋Š” ์ด๋Ÿฐ ๋””ํ…Œ์ผ์ด ๋ฐ˜๋“œ์‹œ ์‚ด์•„์•ผ ํ•œ๋‹ค”๋Š” ํ˜•ํƒœ๋กœ ๊ณ ํ’ˆ์งˆ ๋ ˆ์ด๋ธ”.
  • ํšจ๊ณผ:
    • ํ”„๋กฌํ”„ํŠธ ์ถฉ์‹ค๋„ ↑ (Prompt adherence)
    • ์งˆ๊ฐ·๊ด‘์›·๋ชจ๋ฐœ·์—ฃ์ง€ ๊ฐ™์€ ๋ฏธ์„ธ ์š”์†Œ ๊ฐœ์„ 
    • ๊ฒฐ๊ณผ๋ฌผ์˜ ์‚ฌ์ง„์  ๋ฆฌ์–ผ๋ฆฌ์ฆ˜ ๊ฐ•ํ™”

์ฆ‰, SFT๋Š” “Pre-training์—์„œ ๋†“์นœ ํ‹ˆ์ƒˆ๋ฅผ ์ˆ˜์ž‘์—…์œผ๋กœ ๋ฉ”์›Œ์ฃผ๋Š” ๋‹จ๊ณ„”๋ผ ํ•  ์ˆ˜ ์žˆ๋‹ค.

4.2.2 Reinforcement Learning (RL)

๋ชฉ์ : ๋‹จ์ˆœํžˆ “์ž˜ ๋งž๋‹ค/ํ‹€๋ฆฌ๋‹ค” ์ˆ˜์ค€์„ ๋„˜์–ด์„œ,

  • ์‚ฌ์šฉ์ž ์„ ํ˜ธ์— ์ •๋ ฌ(Preference alignment)
  • ์„ธ๋ฐ€ํ•œ ์ œ์–ด๋ ฅ ํ™•๋ณด

๋‘ ๊ฐ€์ง€๋ฅผ ๋‹ฌ์„ฑํ•œ๋‹ค.

 

4.2.2.1 DPO(Direct Preference Optimization)

  • Flow matching ๊ตฌ์กฐ์™€ ์ž˜ ๋งž๊ณ , ๋Œ€๊ทœ๋ชจ ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ์—๋„ ํšจ์œจ์ . ์˜คํ”„๋ผ์ธ ๋ฐฉ์‹
  • ๋ฐ์ดํ„ฐ ์ค€๋น„
    • ๊ฐ™์€ ํ”„๋กฌํ”„ํŠธ๋กœ ์—ฌ๋Ÿฌ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑ → ์‚ฌ๋žŒ์ด best์™€ worst ์„ ํƒ
    • Gold reference๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ๋Š” ๊ธฐ์ค€๊ณผ ๊ดด๋ฆฌ๊ฐ€ ํฐ ์ƒ˜ํ”Œ์„ “reject”๋กœ ์ง€์ •
  • ํ•™์Šต ๊ฐœ๋…
    • ์Šน์ž/ํŒจ์ž ์Œ์˜ velocity ์˜ค์ฐจ ์ฐจ์ด(Diff)๋ฅผ ๋น„๊ต
    • ์ •์ฑ… ๋ชจ๋ธ์ด ์ฐธ์กฐ(reference)๋ณด๋‹ค ๋” ์„ ํ˜ธ๋˜๋Š” ์ชฝ์œผ๋กœ ํ๋ฆ„์„ ๋งž์ถ”๋„๋ก ํ•™์Šต
  • ํšจ๊ณผ
    • ๋Œ€๊ทœ๋ชจ ์˜คํ”„๋ผ์ธ ์ •๋ ฌ์— ์ ํ•ฉ
    • ์ „๋ฐ˜์ ์ธ ์‚ฌ์šฉ์ž ๋งŒ์กฑ๋„๋ฅผ ๋น ๋ฅด๊ฒŒ ๋Œ์–ด์˜ฌ๋ฆผ

4.2.2.2 GRPO(Group Relative Policy Optimization)

  • ์„ธ๋ฐ€ํ•œ refinement์— ์ ํ•ฉ. ์˜จ๋ผ์ธ (on-policy) ๋ฐฉ์‹
  • ๋ฐฉ๋ฒ•:
    • ํ•œ ํ”„๋กฌํ”„ํŠธ์—์„œ ์—ฌ๋Ÿฌ ์žฅ(G๊ฐœ)์„ ์ƒ์„ฑ
    • Reward model ์ด ๊ฐ ์ด๋ฏธ์ง€๋ฅผ ์ ์ˆ˜ ๋งค๊น€.
    • ๊ทธ๋ฃน ๋‚ด ํ‰๊ท /ํ‘œ์ค€ํŽธ์ฐจ๋กœ ๋ณด์ƒ ์ •๊ทœํ™” → ๊ฐ ์ƒ˜ํ”Œ์˜ ์ƒ๋Œ€์  “์ด์ (Advantage)” ๊ณ„์‚ฐ.
    • on-policy ๋ฐฉ์‹: ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•˜๋ฉด์„œ ์ฆ‰์‹œ ๋ณด์ƒ → ๋ชจ๋ธ weight ์—…๋ฐ์ดํŠธ.
    • Flow matching sampling์ด ์›๋ž˜ deterministic์ด๋ผ์„œ, exploration(ํƒ์ƒ‰์„ฑ)์„ ์œ„ํ•ด ODE → SDE๋กœ reformulation + ๋…ธ์ด์ฆˆ σt ์ฃผ์ž….
  • ํšจ๊ณผ:
    • DPO์—์„œ ์ปค๋ฒ„ ๋ชป ํ•œ ์„ธ๋ฐ€ํ•œ ์ทจํ–ฅ ์กฐ์ • (์˜ˆ: ๊ธด ๋ฌธ๋‹จ ๋ Œ๋”๋ง, ๋ณต์žก ํŽธ์ง‘)
    • ์ž‘์€ ์˜์—ญ์˜ ํ€„๋ฆฌํ‹ฐ๋ฅผ ์ •๊ตํ•˜๊ฒŒ ๋‹ค๋“ฌ์Œ

DPO๋กœ ๊ด‘๋ฒ”์œ„ ์˜คํ”„๋ผ์ธ ์ •๋ ฌ์„ ๋จผ์ € ์ˆ˜ํ–‰ํ•˜๊ณ , GRPO๋กœ ๊ธด ๋ฌธ๋‹จ ๋ Œ๋”๋ง·๋ณต์žก ํŽธ์ง‘ ๋“ฑ ์„ธ๋ถ€ ์˜์—ญ์„ ๋ฏธ์„ธ ๋ณด์ •ํ•œ๋‹ค.

 

4.3 Multiโ€‘task training

 

  • ์‹ค์‚ฌ์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค๊ฐ€ T2I๋งŒ์œผ๋กœ ๋๋‚˜์ง€ ์•Š์Œ: ์‚ฌ์šฉ์ž ์š”๊ตฌ๋Š” T2I๋ฟ ์•„๋‹ˆ๋ผ, ๊ธฐ์กด ์ด๋ฏธ์ง€๋ฅผ ์ง€์‹œ๋Œ€๋กœ ๋ฐ”๊พธ๊ธฐ(TI2I), ์›๋ณธ์„ ๊ทธ๋Œ€๋กœ ์žฌ๊ตฌ์„ฑ(I2I), ์‹œ์ ์„ ๋Œ๋ ค๋ณด๊ธฐ(์‹ ๊ทœ ๋ทฐ ํ•ฉ์„ฑ), ์‹ฌ๋„/์—์ง€ ๋“ฑ ๊ณ ์ „ ๋น„์ „ ๊ณผ์ œ๊นŒ์ง€ ์ด์–ด์ง„๋‹ค. 
  • ์ผ๊ด€์„ฑ·๋ณด์กด์„ฑ ๋ฌธ์ œ: ์ˆœ์ˆ˜ T2I๋งŒ ํ•™์Šตํ•˜๋ฉด ํŽธ์ง‘ ์‹œ ์•„์ด๋ดํ‹ฐํ‹ฐ, ๋ฐฐ๊ฒฝ, ํƒ€์ดํฌ๊ทธ๋ž˜ํ”ผ๊ฐ€ ์‰ฝ๊ฒŒ ๊นจ์ง„๋‹ค. ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ํ”ฝ์…€ ๋ ˆ๋ฒจ ๋‹จ์„œ๊นŒ์ง€ ํ™œ์šฉํ•ด์•ผ ๋ณด์กด์„ฑ์ด ์˜ฌ๋ผ๊ฐ.
  • ๋ฐ์ดํ„ฐ·๋ชจ๋ธ ํšจ์œจ: ์—ฌ๋Ÿฌ ์ „์šฉ ๋ชจ๋ธ ๋Œ€์‹  ํ•˜๋‚˜์˜ ๋ฐฑ๋ณธ(MMDiT) ์•ˆ์—์„œ ํƒœ์Šคํฌ๋ฅผ ํ†ตํ•ฉํ•˜๋ฉด ๋ฐ์ดํ„ฐ·์ธํ”„๋ผ ํŒŒ์ดํ”„๋ผ์ธ, ์Šค์ผ€์ผ๋ง ์ „๋žต, ์ถ”๋ก  ๊ฒฝ๋กœ๋ฅผ ๊ณต์œ ํ•  ์ˆ˜ ์žˆ์–ด ํ•™์Šต·์„œ๋น™ ํšจ์œจ์ด ๋†’๋‹ค.

T2I ์™ธ์— TI2I(์ง€์‹œ ๊ธฐ๋ฐ˜ ํŽธ์ง‘), ์‹ ๊ทœ ๋ทฐ ํ•ฉ์„ฑ, ๊นŠ์ด ์ถ”์ • ๋“ฑ์„ ๋‹จ์ผ ๋ฐฑ๋ณธ์œผ๋กœ ์•„์šฐ๋ฅธ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ์กฐ๊ฑด ์‹ ํ˜ธ๋ฅผ ํ•จ๊ป˜ ํˆฌ์ž…ํ•œ๋‹ค.

 

 

4.3.1 ์ด์ค‘ ์ปจ๋””์…”๋‹

  • MLLM ์˜๋ฏธ ์ž„๋ฒ ๋”ฉ h: ํ…์ŠคํŠธ(๏ผ‹์„ ํƒ์  ์ž…๋ ฅ ์ด๋ฏธ์ง€)์— ๋Œ€ํ•œ ๊ณ ์ˆ˜์ค€ ์˜๋ฏธ/๋ฌธ๋งฅ์„ ์ œ๊ณต → ํ”„๋กฌํ”„ํŠธ ์ˆœ์‘, ์ง€์‹œ ํ•ด์„์ด ์ข‹์•„์ง.
  • VAE ํ”ฝ์…€ ์ž„๋ฒ ๋”ฉ z: ์ž…๋ ฅ ์ด๋ฏธ์ง€ ์ž์ฒด๋ฅผ VAE ์ธ์ฝ”๋”๋กœ ์ž ์žฌํ™”ํ•œ ์‹ ํ˜ธ → ์ €์ˆ˜์ค€ ๋””ํ…Œ์ผ·๊ตฌ์กฐ๋ฅผ ๋ณด์กด.
  • ๊ฒฐํ•ฉ ๋ฐฉ๋ฒ•: MMDiT์˜ ์ด๋ฏธ์ง€ ์ŠคํŠธ๋ฆผ์— target ์ด๋ฏธ์ง€์˜ ๋…ธ์ด์ฆˆ ์„ž์ธ latent์™€ ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ VAE latent๋ฅผ ์‹œํ€€์Šค ๋ฐฉํ–ฅ์œผ๋กœ ์ด์–ด ๋ถ™์—ฌ(concat) ํˆฌ์ž…ํ•œ๋‹ค.
  • MMDiT๋Š” ํ…์ŠคํŠธ ์ŠคํŠธ๋ฆผ๊ณผ ์ด๋ฏธ์ง€ ์ŠคํŠธ๋ฆผ(์ž…๋ ฅ ์ด๋ฏธ์ง€ latent + ํƒ€๊ฒŸ ์ด๋ฏธ์ง€/๋…ธ์ด์ฆˆ latent) ์œ„์—์„œ joint self-attention์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.
  • ํ•™์Šต์€ flow-matching์— ๋”ฐ๋ผ ํƒ€๊ฒŸ noised image latent ํ† ํฐ ์œ„์น˜์— ํ•œํ•ด ์†๋„์žฅ vθ(xt,t,h)์„ ์˜ˆ์ธกํ•˜์—ฌ ์ง„ํ–‰๋œ๋‹ค.

4.3.2 MSRoPE ํ™•์žฅ: ํ”„๋ ˆ์ž„ ์ถ• ๋„์ž…

TI2I·์‹ ๊ทœ ๋ทฐ ๋“ฑ “๋‹ค์ค‘ ์ด๋ฏธ์ง€๊ฐ€ ๋™์‹œ์— ์ž…๋ ฅ”๋˜๋Š” ์ƒํ™ฉ์„ ๊ตฌ๋ถ„ํ•˜๋ ค๊ณ , ๊ธฐ์กด (๋†’์ด, ๋„ˆ๋น„) ํฌ์ง€์…˜์ธ์ฝ”๋”ฉ์— ํ”„๋ ˆ์ž„ ์ถ•์„ ์ถ”๊ฐ€ํ•œ๋‹ค.

  • ์˜ˆ) frame=0์€ ์ž…๋ ฅ(๋ ˆํผ๋Ÿฐ์Šค), frame=1์€ ํƒ€๊นƒ(๋…ธ์ด์ฆˆ ์„ž์ธ latent).
  • ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋™์ผ ์œ„์น˜๋ผ๋„ “์–ด๋А ํ”„๋ ˆ์ž„์˜ ํ”ฝ์…€์ธ์ง€”๋ฅผ ๋ชจ๋ธ์ด ๋ช…ํ™•ํžˆ ๊ตฌ๋ถ„ํ•œ๋‹ค → ํ”„๋ ˆ์ž„ ๊ฐ„ ์ •ํ•ฉ๊ณผ ํŽธ์ง‘ ์•ˆ์ •์„ฑ ํ–ฅ์ƒ.

4.3.3 ์‹œ์Šคํ…œ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„

  • T2I: ์ƒ‰•์ˆ˜๋Ÿ‰•ํ…์ŠคํŠธ•ํ˜•์ƒ•ํฌ๊ธฐ•์žฌ์งˆ•๊ณต๊ฐ„ ๊ด€๊ณ„•๋ฐฐ๊ฒฝ ๋“ฑ์„ ๊ตฌ์ฒด์ ์œผ๋กœ ์„œ์ˆ ํ•˜๋„๋ก ์‹œ์Šคํ…œ ํ…œํ”Œ๋ฆฟ์„ ๊ตฌ์„ฑ
  • TI2I: ๋จผ์ € ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ํ•ต์‹ฌ ํŠน์ง•์„ ์š”์•ฝํ•˜๊ณ , ์ด์–ด์„œ ์‚ฌ์šฉ์ž ์ง€์‹œ๊ฐ€ ์–ด๋–ป๊ฒŒ ์ ์šฉ๋ ์ง€๋ฅผ ์„ค๋ช…ํ•˜๋„๋ก ์œ ๋„

4.3.4 ํ•™์Šต ๋ฐฉ๋ฒ•

  • T2I
    1. ํ…์ŠคํŠธ → Qwen2.5-VL → h
    2. ํƒ€๊นƒ ์ž ์žฌ x0=E(์ด๋ฏธ์ง€)์™€ ๋…ธ์ด์ฆˆ x1๋กœ ์ค‘๊ฐ„ xt ๊ตฌ์„ฑ
    3. MMDiT๊ฐ€ vθ(xt,t,h) ์˜ˆ์ธก → โˆฅvθ−(x0−x1)โˆฅ^2 loss
    4. ์ƒ˜ํ”Œ๋ง ํ›„ VAE ๋””์ฝ”๋”๋กœ ์ตœ์ข… ์ด๋ฏธ์ง€ ๋ณต์›
  • TI2I(ํŽธ์ง‘)
    1. ํ…์ŠคํŠธ๏ผ‹์ž…๋ ฅ ์ด๋ฏธ์ง€ → Qwen2.5-VL → h
    2. ์ด๋ฏธ์ง€ ์ŠคํŠธ๋ฆผ์— [์ž…๋ ฅ ์ด๋ฏธ์ง€ VAE ์ž ์žฌ z_in] ⊕ [ํƒ€๊นƒ์˜ ๋…ธ์ด์ฆˆ ์„ž์ธ ์ž ์žฌ x_t] ์—ฐ๊ฒฐ
    3. MSRoPE์— ํ”„๋ ˆ์ž„ ์ถ•์„ ์ถ”๊ฐ€ํ•ด ๋‘ ๊ทธ๋ฃน์„ ๊ตฌ๋ถ„
    4. ํƒ€๊ฒŸ ํ† ํฐ์—๋งŒ ์†๋„์žฅ MSE ์ ์šฉ(์ž…๋ ฅ z_in์€ ์กฐ๊ฑด ์‹ ํ˜ธ๋กœ๋งŒ ์‚ฌ์šฉ)
  • I2I ์žฌ๊ตฌ์„ฑ
    • TI2I์˜ ํŠน์ˆ˜ ์ผ€์ด์Šค(“๊ทธ๋Œ€๋กœ ์œ ์ง€” ์ง€์‹œ). ํƒ€๊นƒ=์ž…๋ ฅ์ด๋ฏ€๋กœ ๋ณต์› ์ •ํ•ฉ์„ ๊ฐ•ํ•˜๊ฒŒ ํ•™์Šต → ํŽธ์ง‘ ์‹œ ๋น„ํŽธ์ง‘ ์˜์—ญ ๋ณด์กด์„ฑ์ด ์˜ฌ๋ผ๊ฐ.
  • ์‹ ๊ทœ ๋ทฐ/๊นŠ์ด ๋“ฑ
    • ๋™์ผํ•œ ์ž…๋ ฅ ๊ตฌ์„ฑ์—์„œ ์ง€์‹œ ํ…์ŠคํŠธ๋กœ “์ขŒ๋กœ 90๋„ ํšŒ์ „”, “๊นŠ์ด ๋งต์œผ๋กœ ๋ณ€ํ™˜” ๊ฐ™์€ ๋ชฉํ‘œ๋ฅผ ๋ช…์‹œํ•˜๊ณ  ํƒ€๊ฒŸ ์ž ์žฌ์˜ ์†๋„์žฅ์„ ํ•™์Šต. 
  • ๊ธฐํƒ€ ํ•™์Šต ์ „๋žต
    • ํ˜ผํ•ฉ ๋น„์œจ: ์ดˆ๋ฐ˜์—” T2I ์ค‘์‹ฌ(์ผ๋ฐ˜ ํ‘œํ˜„ ํ•™์Šต) → ์ ์ฐจ TI2I/I2I ๋น„์ค‘์„ ์˜ฌ๋ฆผ(๋ณด์กด·์ •ํ•ฉ ๊ฐ•ํ™”).
    • ๋ฐฐ์น˜ ๊ตฌ์„ฑ: ํ•œ ๋ฐฐ์น˜ ์•ˆ์— T2I/TI2I/I2I๋ฅผ ์„ž์–ด ํ•™์Šต ์•ˆ์ •์„ฑ์„ ๋†’์ด๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค
    • ์ƒ˜ํ”Œ๋ง ๊ฐ€์ค‘์น˜: ํ…์ŠคํŠธ-๋ฆฌ์น˜ ํ•ฉ์„ฑ ๋น„์œจ์„ ๊ณผ๋„ํ•˜๊ฒŒ ์˜ฌ๋ฆฌ๋ฉด ์Šคํƒ€์ผ/์‹ฌ๋ฏธ์„ฑ ๋ถ„ํฌ๊ฐ€ ํ”๋“ค๋ฆด ์ˆ˜ ์žˆ์œผ๋‹ˆ, ์ฃผ๊ธฐ์  ๋ฆฌ๋ฐธ๋Ÿฐ์‹ฑ(์ž์—ฐ ์ด๋ฏธ์ง€ ์žฌ์ฃผ์ž…)์„ ๊ถŒ์žฅ.

 

5. Experiments

5.1 ์ธ๊ฐ„ ํ‰๊ฐ€ (AI Arena)

AI Arena๋Š” Elo ๋ ˆ์ดํŒ… ๊ธฐ๋ฐ˜์˜ ๊ณต๊ฐœ ๋ฒค์น˜๋งˆํฌ ํ”Œ๋žซํผ์œผ๋กœ, ๋™์ผ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•ด ๋ฌด์ž‘์œ„๋กœ ์„ ์ •๋œ ๋‘ ๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ ์ด๋ฏธ์ง€๋ฅผ ์ต๋ช…์œผ๋กœ ์ œ์‹œํ•˜๊ณ  pairwise voting์„ ์ง„ํ–‰ํ•œ๋‹ค. ์•ฝ 5์ฒœ ๊ฐœ ํ”„๋กฌํ”„ํŠธ์™€ 200๋ช…+ ํ‰๊ฐ€์ž๊ฐ€ ์ฐธ์—ฌํ–ˆ์œผ๋ฉฐ, ๊ฐ ๋ชจ๋ธ์€ ์ตœ์†Œ 1๋งŒ ํšŒ ์ด์ƒ ๋น„๊ต์ „์„ ์น˜๋Ÿฌ ํ†ต๊ณ„์  ์•ˆ์ •์„ฑ์„ ํ™•๋ณดํ–ˆ๋‹ค.

  • ๋น„๊ต ๋Œ€์ƒ: Imagen 4 Ultra Preview 0606, Seedream 3.0, GPT Image 1 [High], FLUX.1 Kontext [Pro], Ideogram 3.0.
  • ๊ฒฐ๊ณผ ํ•ต์‹ฌ: Qwen-Image๋Š” ์œ ์ผํ•œ ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๋กœ ์ข…ํ•ฉ 3์œ„. 1์œ„(Imagen 4 Ultra Preview 0606) ๋Œ€๋น„ ์•ฝ 30 Elo ๋‚ฎ์ง€๋งŒ, GPT Image 1 [High]/FLUX.1 Kontext [Pro] ๋Œ€๋น„ 30+ Elo ์šฐ์œ„๋ฅผ ๋ณด์ž„.

 

5.2 ์ •๋Ÿ‰ ํ‰๊ฐ€ (Quantitative Results)

Qwen-Image์˜ ๊ธฐ๋ณธ ์ƒ์„ฑ ๋Šฅ๋ ฅ๊ณผ ํ…์ŠคํŠธ ๋ Œ๋”๋ง·ํŽธ์ง‘ ๋Šฅ๋ ฅ์„ ๊ณต๊ฐœ ๋ฒค์น˜๋งˆํฌ๋กœ ์ธก์ •ํ–ˆ๋‹ค.

5.2.1 VAE ๋ณต์› ์„ฑ๋Šฅ

  • ๋ชจ๋“  ํ† ํฌ๋‚˜์ด์ €๋Š” 8×8 ์••์ถ•, latent C=16, ImageNet-1k 256×256์—์„œ PSNR/SSIM ํ‰๊ฐ€. ํ…์ŠคํŠธ๊ฐ€ ๋งŽ์€ ์‚ฌ๋‚ด ์ฝ”ํผ์Šค์—์„œ๋„ ์ถ”๊ฐ€ ๊ฒ€์ฆ.
  • Qwenโ€‘Imageโ€‘VAE๊ฐ€ ์ „ ์ง€ํ‘œ์—์„œ SOTA. ํŠนํžˆ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ ์‹œ Encoder 19M / Decoder 25M๋งŒ ํ™œ์„ฑํ™”ํ•˜์—ฌ ํ’ˆ์งˆ–ํšจ์œจ ๊ท ํ˜•์„ ๋‹ฌ์„ฑ.

 

5.2.2  Text-to-Image(T2I) ์„ฑ๋Šฅ

์ผ๋ฐ˜ ์ƒ์„ฑ๋ ฅ๊ณผ ํ…์ŠคํŠธ ๋ Œ๋”๋ง์„ ๋ถ„๋ฆฌ ํ‰๊ฐ€ํ–ˆ๋‹ค.

  • DPG (1K dense ํ”„๋กฌํ”„ํŠธ): ์ข…ํ•ฉ 1์œ„(Overall 88.32). ์†์„ฑ/๊ด€๊ณ„ ํ•ด์„๊ณผ ํ”„๋กฌํ”„ํŠธ ์ •ํ•ฉ์—์„œ ๋‘๋“œ๋Ÿฌ์ง.
  • GenEval (๊ตฌ์„ฑ์  ํ”„๋กฌํ”„ํŠธ): SFT ๊ธฐ์ค€ 0.87, RL ํ›„ 0.91๋กœ ๋ฆฌ๋”๋ณด๋“œ 0.9 ๋ŒํŒŒ ์œ ์ผ
  • OneIGโ€‘Bench (EN/ZH): ์˜์–ด/์ค‘๊ตญ์–ด ๋‘ ํŠธ๋ž™ ๋ชจ๋‘ ์ข…ํ•ฉ 1์œ„. ํŠนํžˆ Alignment·Text ์นดํ…Œ๊ณ ๋ฆฌ 1์œ„๋กœ ํ”„๋กฌํ”„ํŠธ ์ถ”์ข…·๋ฌธ์ž ๋ Œ๋”๋ง์ด ๊ฐ•์ .
  • TIIF Bench mini (์ง€์‹œ ๋”ฐ๋ฅด๊ธฐ): ์ข…ํ•ฉ 2์œ„, GPT Image 1์— ์ด์–ด ๊ทผ์†Œ ์—ด์„ธ.

ํ…์ŠคํŠธ ๋ Œ๋”๋ง ํŠนํ™”

  • CVTGโ€‘2K(์˜๋ฌธ): ํ‰๊ท  Word Accuracy 0.8288, NED 0.9116, CLIPScore 0.8017๋กœ ์ƒ์œ„๊ถŒ.
  • ChineseWord(์ค‘๋ฌธ ๋‹จ์ž ๋ Œ๋”๋ง): Overall 58.30%๋กœ ๋ชจ๋“  ๋‚œ์ด๋„(1~3๊ธ‰) ํ•ฉ์‚ฐ ์ตœ๊ณ .
  • LongTextโ€‘Bench(์žฅ๋ฌธ): ZH 0.946(1์œ„), EN 0.943(2์œ„). ์žฅ๋ฌธ·๋‹ค์˜์—ญ ํ…์ŠคํŠธ ๋ ˆ์ด์•„์›ƒ ์ถฉ์‹ค๋„๊ฐ€ ๋†’์Œ.

5.2.3 Image Editing (TI2I) ์„ฑ๋Šฅ

  • GEditโ€‘Bench (์‹ค์‚ฌ์šฉ ์ง€์‹œ 11์ข…): EN G_O 7.56, ZH G_O 7.52๋กœ ์–‘ ํŠธ๋ž™ ์ƒ์œ„๊ถŒ/1์œ„๊ถŒ. ๋‹ค๊ตญ์–ด ์ง€์‹œ ์ผ๋ฐ˜ํ™” ํ™•์ธ.
  • ImgEdit (9๊ฐœ ํŽธ์ง‘ ๊ณผ์ œ, 734 ์ผ€์ด์Šค): Overall 4.27๋กœ 1์œ„. ์ง€์‹œ ์ ํ•ฉ์„ฑ·ํŽธ์ง‘ ํ’ˆ์งˆ·์„ธ๋ถ€ ๋ณด์กด ๊ท ํ˜• ์šฐ์ˆ˜.
  • Novel View Synthesis (GSO): PSNR 15.11 / SSIM 0.884 / LPIPS 0.153๋กœ ํŠนํ™” ๋ชจ๋ธ์— ์ค€ํ•˜๋Š” SOTA๊ธ‰.
  • Depth Estimation (NYUv2/KITTI/ScanNet/DIODE/ETH3D): DepthPro ๊ต์‚ฌ ์‹ ํ˜ธ๋กœ SFT๋งŒ ์ ์šฉํ–ˆ์Œ์—๋„ ํ™•์žฅ ๋ชจ๋ธ๊ตฐ๊ณผ ๋Œ€๋“ฑ. 

T2I, TI2I ์—์„œ ๋ชจ๋‘ SOTA ๊ธ‰์˜ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ณ  ํŠนํžˆ ํ…์ŠคํŠธ ๋ Œ๋”๋ง์— ๊ฐ•ํ•˜๋‹ค๋Š” ๊ฑธ ๊ฐ•์กฐํ•˜๊ณ  ์žˆ์Œ.

 

5.3 ์ •์„ฑ ํ‰๊ฐ€ (Qualitative Results)

5.3.1 VAE ๋ณต์›

  • ํ…์ŠคํŠธ๊ฐ€ ๋นฝ๋นฝํ•œ PDF/ํฌ์Šคํ„ฐ์—์„œ ์ž‘์€ ์˜๋ฌธ ๋‹จ์–ด(์˜ˆ: “doubleโ€‘aspect”) ๊ฐ€๋…์„ฑ์„ ๋˜๋ ทํ•˜๊ฒŒ ๋ณต์›. ํƒ€ VAE ๋Œ€๋น„ ๋ฏธ์„ธ ํš/์ปค๋‹/์ž๊ฐ„ ์œ ์ง€๊ฐ€ ์šฐ์ˆ˜.

5.3.2 T2I

  • ์˜๋ฌธ ํ…์ŠคํŠธ: ์žฅ๋ฌธ ๋ฌธ๋‹จ·๋‹ค์ง€์  ํ‘œ์ง€/์Šฌ๋ผ์ด๋“œ์—์„œ ๋ˆ„๋ฝ/์˜ค์ž/์ค‘๋ณต ์—†์ด ์ •ํ™•ํ•œ ๋ Œ๋”๋ง. ๋‚œํ•ด ๋ ˆ์ด์•„์›ƒ๋„ ๋ฏธ์  ๊ท ํ˜• ํ™•๋ณด.
  • ์ค‘๋ฌธ ํ…์ŠคํŠธ: ๋Œ€๋ จ·์ƒ์  ๊ฐ„ํŒ·์œ ๋ฆฌํŒ ๋ฌธ๋‹จ ๋“ฑ์—์„œ ๋ณต์žก ์žํ˜•์„ ์ •ํ™•ํžˆ ์žฌํ˜„. ๊ณต๊ฐ„ ๋ฐฐ์น˜·์›๊ทผ์— ๋งž์ถ˜ ๊ธฐํ•˜ ์ •ํ•ฉ.
  • ๋‹ค๊ฐ์ฒด·ํ˜ผํ•ฉ ์–ธ์–ด: 12์ง€ ์ธํ˜• ๋ฐฐ์—ด, ๋‹น๊ตฌ๊ณต ์ด์ค‘์—ด ๋ฐฐ์น˜ ๋“ฑ ๊ฐœ์ˆ˜/์œ„์น˜/์Šคํƒ€์ผ ์ œ์•ฝ์„ ๋™์‹œ ๋งŒ์กฑ.
  • ๊ณต๊ฐ„ ๊ด€๊ณ„: ์ธ๋ฌผ ์ƒํ˜ธ์ž‘์šฉ·์†Œ๋„๊ตฌ ๊ฑฐ๋ฆฌ·์ ‘์ด‰ ๊ด€๊ณ„๋ฅผ ์ •ํ™•ํžˆ ๊ตฌํ˜„.

5.3.3 TI2I

  • ํ…์ŠคํŠธ/์žฌ์งˆ ์ˆ˜์ •: ์›๋ณธ ์Šคํƒ€์ผ ๋ณด์กด ์ƒํƒœ์—์„œ ํ…์ŠคํŠธ ์น˜ํ™˜·๋ฒ•๋ž‘(glaze) ์งˆ๊ฐ ๋“ฑ ์žฌ์งˆ ์ถฉ์‹ค๋„ ๋†’์Œ.
  • ๊ฐ์ฒด ์ถ”๊ฐ€/์ œ๊ฑฐ/๊ต์ฒด: ๋น„ํŽธ์ง‘ ์˜์—ญ์˜ ๋ฐฐ๊ฒฝ·๊ด‘์› ์ผ๊ด€์„ฑ์„ ์ž˜ ์œ ์ง€.
  • ํฌ์ฆˆ ์กฐ์ž‘: ๋จธ๋ฆฌ์นด๋ฝ/์˜๋ณต ๋””ํ…Œ์ผ ์œ ์ง€, ๋ฐฐ๊ฒฝ ๋ณ€ํ˜• ์ตœ์†Œํ™”.
  • ์ฒด์ธ๋“œ ํŽธ์ง‘: ์ถ”์ถœ→ํ™•๋Œ€, ๋ฐฐ์น˜→์คŒ์•„์›ƒ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๊ตฌ์กฐ์  ์ผ๊ด€์„ฑ(์˜ˆ: ์„ ๋ฏธ ๊ตฌ์กฐ) ์œ ์ง€.
  • ๋ทฐ ํšŒ์ „(±90°): ์ธ๋ฌผ/๋ฐฐ๊ฒฝ ๋™์‹œ ํšŒ์ „ ๋“ฑ ์ „์—ญ ์ผ๊ด€์„ฑ์—์„œ ๊ฐ•์„ธ.

Qwen-Image๋Š” ๋ณต์žกํ•œ ํ…์ŠคํŠธ ๋ Œ๋”๋ง๊ณผ ์ •๋ฐ€ ํŽธ์ง‘์„ ๋™์‹œ์— ๋Œ์–ด์˜ฌ๋ฆฐ ์˜คํ”ˆ์†Œ์Šค ์ด๋ฏธ์ง€ ์ƒ์„ฑ·ํŽธ์ง‘ ๋ชจ๋ธ์ด๋‹ค. ํ…Œํฌ๋‹ˆ์ปฌ ๋ฆฌํฌํŠธ๋Š” ๋ชจ๋ธ ๊ตฌ์กฐ, ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ์ปค๋ฆฌํ˜๋Ÿผ, pre/post-training ๋“ฑ ๋‹ค์–‘ํ•œ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ๋‹ค.

 

๋‹ค๋งŒ, ํ•™์Šต๊ณผ ๊ด€๋ จํ•œ ๊ตฌ์ฒด์ ์ธ ๋ ˆ์‹œํ”ผ—ํŠนํžˆ pre/post-training์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์ง„ํ–‰ํ•˜๋ฉด์„œ ์–ด๋–ป๊ฒŒ ์„ฑ๋Šฅ์„ ์œ ์ง€·ํ–ฅ์ƒ์‹œ์ผฐ๋Š”์ง€์— ๋Œ€ํ•œ ๋ถ€๋ถ„—๋Š” ๊ณต๊ฐœ๋˜์–ด ์žˆ์ง€ ์•Š์•„ ์•„์‰ฌ์›€์ด ๋‚จ๋Š”๋‹ค. ๊ฒฐ๊ตญ, ํ…Œํฌ๋‹ˆ์ปฌ ๋ฆฌํฌํŠธ๋ฅผ ์ฝ๋Š” ๊ฒƒ๋งŒ์œผ๋กœ ์ด ์ˆ˜์ค€์˜ ๋ชจ๋ธ์„ ์ง์ ‘ ์„ค๊ณ„ํ•˜๊ณ  ํ•™์Šต๊นŒ์ง€ ํ•ด๋‚ผ ์ˆ˜ ์žˆ๋Š” ๊ธฐ์—…์€ ๊ทนํžˆ ์ œํ•œ์ ์ผ ๊ฒƒ์ด๋ผ๋Š” ์ƒ๊ฐ์ด ๋“ ๋‹ค.

๋ฐ˜์‘ํ˜•

'๐Ÿ› Research > Imageโ€ขVideo Generation' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[Gen AI] T2I & TI2I ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ๋ฒค์น˜๋งˆํฌ ์ •๋ฆฌ | ์ด๋ฏธ์ง€ ์ƒ์„ฑ & ํŽธ์ง‘ ๋ฐ์ดํ„ฐ์…‹  (0) 2025.11.01
[Gen AI] BAGEL: Unified Multimodal Design - ์ดํ•ด์™€ ์ƒ์„ฑ์˜ ํ†ตํ•ฉ ๊ตฌ์กฐ  (0) 2025.10.31
[Gen AI] ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ํ‰๊ฐ€ ์ง€ํ‘œ ์ •๋ฆฌ | FID, IS, CLIP Score, LPIPS,...  (1) 2025.08.01
[Gen AI] Flow Matching & Rectified Flow ์ดํ•ดํ•˜๊ธฐ! | Diffusion ๋ณด๋‹ค ๋” ๋น ๋ฅธ ์ƒ์„ฑ ๋ฐฉ์‹  (2) 2025.07.31
[Gen AI] Diffusion Transformer (DiT) ์™„๋ฒฝ ์ดํ•ดํ•˜๊ธฐ!  (5) 2025.07.15
'๐Ÿ› Research/Image•Video Generation' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€
  • [Gen AI] T2I & TI2I ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ๋ฒค์น˜๋งˆํฌ ์ •๋ฆฌ | ์ด๋ฏธ์ง€ ์ƒ์„ฑ & ํŽธ์ง‘ ๋ฐ์ดํ„ฐ์…‹
  • [Gen AI] BAGEL: Unified Multimodal Design - ์ดํ•ด์™€ ์ƒ์„ฑ์˜ ํ†ตํ•ฉ ๊ตฌ์กฐ
  • [Gen AI] ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ํ‰๊ฐ€ ์ง€ํ‘œ ์ •๋ฆฌ | FID, IS, CLIP Score, LPIPS,...
  • [Gen AI] Flow Matching & Rectified Flow ์ดํ•ดํ•˜๊ธฐ! | Diffusion ๋ณด๋‹ค ๋” ๋น ๋ฅธ ์ƒ์„ฑ ๋ฐฉ์‹
๋ญ…์ฆค
๋ญ…์ฆค
AI ๊ธฐ์ˆ  ๋ธ”๋กœ๊ทธ
    ๋ฐ˜์‘ํ˜•
  • ๋ญ…์ฆค
    moovzi’s Doodle
    ๋ญ…์ฆค
  • ์ „์ฒด
    ์˜ค๋Š˜
    ์–ด์ œ
  • ๊ณต์ง€์‚ฌํ•ญ

    • โœจ About Me
    • ๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ (213)
      • ๐Ÿ“– Fundamentals (34)
        • Computer Vision (9)
        • 3D vision & Graphics (6)
        • AI & ML (16)
        • NLP (2)
        • etc. (1)
      • ๐Ÿ› Research (75)
        • Deep Learning (7)
        • Perception (19)
        • OCR (7)
        • Multi-modal (5)
        • Image•Video Generation (18)
        • 3D Vision (4)
        • Material • Texture Recognit.. (8)
        • Large-scale Model (7)
        • etc. (0)
      • ๐Ÿ› ๏ธ Engineering (8)
        • Distributed Training & Infe.. (5)
        • AI & ML ์ธ์‚ฌ์ดํŠธ (3)
      • ๐Ÿ’ป Programming (92)
        • Python (18)
        • Computer Vision (12)
        • LLM (4)
        • AI & ML (18)
        • Database (3)
        • Distributed Computing (6)
        • Apache Airflow (6)
        • Docker & Kubernetes (14)
        • ์ฝ”๋”ฉ ํ…Œ์ŠคํŠธ (4)
        • C++ (1)
        • etc. (6)
      • ๐Ÿ’ฌ ETC (4)
        • ์ฑ… ๋ฆฌ๋ทฐ (4)
  • ๋งํฌ

    • ๋ฆฌํ‹€๋ฆฌ ํ”„๋กœํ•„ (๋ฉ˜ํ† ๋ง, ๋ฉด์ ‘์ฑ…,...)
    • ใ€Ž๋‚˜๋Š” AI ์—”์ง€๋‹ˆ์–ด์ž…๋‹ˆ๋‹คใ€
    • Instagram
    • Brunch
    • Github
  • ์ธ๊ธฐ ๊ธ€

  • ์ตœ๊ทผ ๋Œ“๊ธ€

  • ์ตœ๊ทผ ๊ธ€

  • hELLOยท Designed By์ •์ƒ์šฐ.v4.10.3
๋ญ…์ฆค
[Gen AI] Qwen-Image ํ…Œํฌ๋‹ˆ์ปฌ ๋ฆฌํฌํŠธ ๋ถ„์„ | T2I, TI2I | ์ด๋ฏธ์ง€ ์ƒ์„ฑ ํŽธ์ง‘ ๋ชจ๋ธ
์ƒ๋‹จ์œผ๋กœ

ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”