๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ› Research/Generative AI

Stable Diffusion: ์ด๋ฏธ์ง€ ์ƒ์„ฑ AI ์ดํ•ดํ•˜๊ธฐ

by ๋ญ…์ฆค 2024. 11. 4.
๋ฐ˜์‘ํ˜•

 
AI๋ฅผ ํ™œ์šฉํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๊ธฐ์ˆ ์€ ๋‹จ์ˆœํ•œ ํ”ฝ์…€ ๋‹จ์œ„์˜ ๋ณ€ํ˜•์„ ๋„˜์–ด, ๊ณ ์œ ํ•œ ์˜ˆ์ˆ ์  ์ฐฝ์˜์„ฑ์„ ๋‹ด์•„๋‚ด๋Š” ๋‹จ๊ณ„์— ์ด๋ฅด๋ €๋‹ค. AI๋Š” ์ด์ œ ํ…์ŠคํŠธ์™€ ๊ฐ™์€ ๊ฐ„๋‹จํ•œ ์กฐ๊ฑด์—์„œ๋ถ€ํ„ฐ ๋ณต์žกํ•œ ์ด๋ฏธ์ง€ ๋””ํ…Œ์ผ๊นŒ์ง€, ์‚ฌ์šฉ์ž ์š”๊ตฌ์— ๋งž์ถฐ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ๋ฆ„์˜ ์„ ๋‘์— ์žˆ๋Š” ๊ธฐ์ˆ  ์ค‘ ํ•˜๋‚˜๊ฐ€ Stable Diffusion์ด๋‹ค. ์ด ๋ชจ๋ธ์€ ๊ธฐ์กด์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ๋“ค์ด ๊ฒช๋˜ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์กฐ๊ฑด์—์„œ๋„ ํšจ์œจ์ ์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค. Stable Diffusion์˜ ๊ตฌ์กฐ์™€ ํ•™์Šต ๋ฐฉ์‹์„ ์ดํ•ดํ•˜๋ฉด ์ด๋ฏธ์ง€ ์ƒ์„ฑ AI๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ฐœ์ „ํ•ด์™”๊ณ , ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ๋” ์ฐฝ์˜์ ์ธ ๊ฒฐ๊ณผ๋ฌผ์„ ๋งŒ๋“ค์–ด๋‚ด๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ๋‹ค.
 

Diffusion Model ?

  • Diffusion model์€ ๋ฐ์ดํ„ฐ์— ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋‹จ๊ณ„์ ์œผ๋กœ ์ˆœ์ˆ˜ํ•œ ๋…ธ์ด์ฆˆ ์ƒํƒœ๋กœ ๋งŒ๋“œ๋Š” ๊ณผ์ •์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•จ
  • ์ดํ›„ ๋ชจ๋ธ์€ ์ด ๊ณผ์ •์„ ์—ญ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜์—ฌ ๋ฐ์ดํ„ฐ์—์„œ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜๋ฉด์„œ ์ƒˆ๋กœ์šด ์ƒ˜ํ”Œ์„ ์ƒ์„ฑ
  • ํ•™์Šต ๊ณผ์ •
    • ๋ชจ๋ธ์€ ๋…ธ์ด์ฆˆ๊ฐ€ ์ถ”๊ฐ€๋œ ๋ฐ์ดํ„ฐ์—์„œ ์›๋ž˜ ๋ฐ์ดํ„ฐ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šต
    • ์ด ๊ณผ์ •์—๋Š” ์ˆœ๋ฐฉํ–ฅ ํ”„๋กœ์„ธ์Šค(๋…ธ์ด์ฆˆ ์ถ”๊ฐ€)์™€ ์—ญ๋ฐฉํ–ฅ ํ”„๋กœ์„ธ์Šค(๋…ธ์ด์ฆˆ ์ œ๊ฑฐ)๊ฐ€ ํฌํ•จ๋จ
    • ํ•™์Šต ๋ชฉํ‘œ๋Š” ์˜ˆ์ธก๋œ ๊นจ๋—ํ•œ ๋ฐ์ดํ„ฐ์™€ ์‹ค์ œ ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ
  • Diffusion model์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์•„ํ‚คํ…์ฒ˜๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ Denoising Autoencoder ๋˜๋Š” GAN๊ณผ ์œ ์‚ฌํ•˜๋ฉฐ, ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ํ”„๋กœ์„ธ์Šค๋ฅผ ๋ชจ๋ธ๋งํ•˜๊ธฐ ์œ„ํ•ด neural network๋ฅผ ์‚ฌ์šฉ
  • ์ƒ˜ํ”Œ๋ง ์‹œ ๋ชจ๋ธ์€ ๋…ธ์ด์ฆˆ ๋ฒกํ„ฐ์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ํ•™์Šต๋œ ์—ญ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๋‹จ๊ณ„๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ ์šฉํ•˜์—ฌ ์ผ๊ด€๋œ ์ƒ˜ํ”Œ์„ ์ƒ์„ฑ
  • ์ „ํ†ต์ ์ธ ์ƒ์„ฑ ๋ชจ๋ธ(GAN ๋“ฑ)๊ณผ ๋น„๊ตํ•  ๋•Œ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คŒ. ํ•™์Šต ์ค‘ ์•ˆ์ •์„ฑ์ด ๋†’๊ณ  ๋ชจ๋“œ ๋ถ•๊ดด(Mode Collapse)์— ๋œ ์ทจ์•ฝํ•จ

Stable Diffusion ๊ตฌ์กฐ์™€ ํŠน์ง•

Stable Diffusion์€ Latent Diffusion Model(LDM)์— ๊ธฐ๋ฐ˜ํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ๋กœ, ํŠนํžˆ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์— ์ตœ์ ํ™”๋œ ๊ตฌ์กฐ๋ฅผ ๊ฐ–์ถ”๊ณ  ์žˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€์˜ ์ž ์žฌ ๊ณต๊ฐ„(latent space)์—์„œ ํ•™์Šตํ•จ์œผ๋กœ์จ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ณ , ๋ณด๋‹ค ์ •๋ฐ€ํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ํ•œ๋‹ค.
 

1. Latent Diffusion Model (LDM)

 
Stable Diffusion์˜ ํ•ต์‹ฌ์€ Latent Diffusion Model์ด๋‹ค. ์ผ๋ฐ˜์ ์ธ Diffusion Model์€ ์ด๋ฏธ์ง€ ์ž์ฒด์—์„œ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ณ  ์ œ๊ฑฐํ•˜๋Š” ๊ณผ์ •์„ ํ†ตํ•ด ํ•™์Šตํ•˜์ง€๋งŒ, Stable Diffusion์€ latent space์—์„œ ์ด๋Ÿฌํ•œ ๊ณผ์ •์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. latent space์€ ์˜ค๋ฆฌ์ง€๋„ ์ด๋ฏธ์ง€ ๋Œ€์‹  VAE(Variational Autoencoder)๋ฅผ ํ†ตํ•ด ์–ป์€ ์ €์ฐจ์›์˜ ํ‘œํ˜„์œผ๋กœ, ๋ณต์žกํ•œ ์ด๋ฏธ์ง€์˜ ์ฃผ์š” ํŠน์ง•์„ ์••์ถ•ํ•˜์—ฌ ํ‘œํ˜„ํ•œ ๊ณต๊ฐ„์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค. Stable Diffusion์€ ์ด๋Ÿฌํ•œ latent space์—์„œ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ณ  ์ œ๊ฑฐํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ํฌ๊ฒŒ ์ค„์ด๋ฉด์„œ๋„ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.

latent space์—์„œ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ณ  ์ œ๊ฑฐํ•˜๋Š” ๋ฐฉ์‹์ด ์ข‹์€ ์ด์œ ๋Š”, ์ด๋ฏธ์ง€์˜ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์—์„œ ์ง์ ‘ ์ž‘์—…ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋ฉ”๋ชจ๋ฆฌ์™€ ์—ฐ์‚ฐ ํšจ์œจ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ž์ฒด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ ค๋ฉด ๋งŽ์€ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํ•„์š”ํ•˜๊ณ  ์—ฐ์‚ฐ๋Ÿ‰๋„ ์ฆ๊ฐ€ํ•˜์ง€๋งŒ, latent space์—์„œ๋Š” ์ด๋ฏธ์ง€์˜ ์ฃผ์š” ์ •๋ณด๋งŒ ์ถ”์ถœ๋œ ์ €์ฐจ์› ํ‘œํ˜„์„ ๋‹ค๋ฃจ๊ธฐ ๋•Œ๋ฌธ์— ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ์ค„์–ด๋“ ๋‹ค. ์ด ๋•๋ถ„์— ๊ฐ™์€ ์ž์›์œผ๋กœ๋„ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์–ด ๋” ์ ์€ ๋ฆฌ์†Œ์Šค๋กœ ๋†’์€ ํ’ˆ์งˆ์˜ ๊ฒฐ๊ณผ๋ฌผ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

 

2. U-Net

 
Stable Diffusion์€ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ๋ฅผ ์œ„ํ•œ ํ•ต์‹ฌ ๋ชจ๋ธ๋กœ U-Net ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. U-Net์€ Encoder-Decoder ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•ด ์ด๋ฏธ์ง€์˜ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๋ณด์กดํ•˜๋ฉด์„œ ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๋ฐ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค. U-Net์˜ Encoder๋Š” ์ž…๋ ฅ ์ด๋ฏธ์ง€์—์„œ ์ค‘์š”ํ•œ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ , Decoder๋Š” ์ด๋ฅผ ํ†ตํ•ด ์›๋ž˜ ์ด๋ฏธ์ง€์™€ ์œ ์‚ฌํ•œ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. Stable Diffusion์—์„œ๋Š” ์—ฌ๊ธฐ์— ํ…์ŠคํŠธ ์กฐ๊ฑด์ด ์ถ”๊ฐ€๋˜์–ด, ํŠน์ • ํ…์ŠคํŠธ ์กฐ๊ฑด์— ๋งž๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก U-Net์ด ํŠœ๋‹๋œ๋‹ค.
 

3. ํ…์ŠคํŠธ ์กฐ๊ฑด๋ถ€ ์ƒ์„ฑ

Stable Diffusion์€ ํ…์ŠคํŠธ ์กฐ๊ฑด๋ถ€ ๋ชจ๋ธ๋กœ, ํŠน์ • ๋ฌธ๊ตฌ๋‚˜ ์„ค๋ช…์— ๋งž์ถฐ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด OpenAI์˜ CLIP(Contrastive Language-Image Pre-training) ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€ ๊ฐ„์˜ ์—ฐ๊ด€์„ฑ์„ ํ•™์Šตํ•œ๋‹ค. CLIP ๋ชจ๋ธ์€ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•ด U-Net ๋ชจ๋ธ์˜ ์ž…๋ ฅ์œผ๋กœ ์ œ๊ณตํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ํ…์ŠคํŠธ์˜ ์˜๋ฏธ์— ๋งž๋Š” ์ด๋ฏธ์ง€๊ฐ€ ์ƒ์„ฑ๋˜๋„๋ก ์กฐ๊ฑด์„ ๋ถ€์—ฌํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, "ํ‘ธ๋ฅธ ๋ฐ”๋‹ค ์œ„์˜ ๋…ธ์„"์ด๋ผ๋Š” ํ…์ŠคํŠธ ์กฐ๊ฑด์„ ์ž…๋ ฅํ•˜๋ฉด Stable Diffusion์€ ์ด์— ๋งž๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•ด๋‚ธ๋‹ค.
 

4. ๋…ธ์ด์ฆˆ ์Šค์ผ€์ค„๋ง๊ณผ ํ•™์Šต ๊ณผ์ •

 
Stable Diffusion์˜ ํ•™์Šต ๊ณผ์ •์€ ๋…ธ์ด์ฆˆ๋ฅผ ์ ์ง„์ ์œผ๋กœ ์ œ๊ฑฐํ•ด๊ฐ€๋ฉฐ ์›๋ณธ ์ด๋ฏธ์ง€์— ๊ฐ€๊นŒ์šด ์ด๋ฏธ์ง€๋ฅผ ๋งŒ๋“ค์–ด๊ฐ€๋Š” ๋ฐฉ์‹์œผ๋กœ ์ง„ํ–‰๋œ๋‹ค. ์ดˆ๊ธฐ์—๋Š” ๋žœ๋คํ•œ ๋…ธ์ด์ฆˆ๊ฐ€ ํฌํ•จ๋œ ์ด๋ฏธ์ง€์—์„œ ์‹œ์ž‘ํ•ด, ๋งค ๋‹จ๊ณ„๋งˆ๋‹ค ์กฐ๊ธˆ์”ฉ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ ์ตœ์ข…์ ์œผ๋กœ ํ…์ŠคํŠธ ์กฐ๊ฑด์— ๋ถ€ํ•ฉํ•˜๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด beta schedule์„ ์‚ฌ์šฉํ•˜์—ฌ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ์˜ ๋น„์œจ์„ ์กฐ์ •ํ•˜๋ฉฐ, ์ด ๊ณผ์ •์—์„œ ๋‹ค์–‘ํ•œ ๋…ธ์ด์ฆˆ ์ˆ˜์ค€์„ ๊ฒฝํ—˜ํ•œ ๋ชจ๋ธ์ด ํ•™์Šตํ•˜๊ฒŒ ๋œ๋‹ค.
 
Beta schedule์€ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ฑฐ๋‚˜ ์ œ๊ฑฐํ•˜๋Š” ๊ฐ•๋„๋ฅผ ๋‹จ๊ณ„์ ์œผ๋กœ ์กฐ์ •ํ•˜๋Š” ๋…ธ์ด์ฆˆ ์ œ์–ด ์Šค์ผ€์ค„์ด๋‹ค. Stable Diffusion์—์„œ๋Š” ๊ฐ ํ•™์Šต ๋‹จ๊ณ„๋งˆ๋‹ค ์ด๋ฏธ์ง€๋ฅผ ์กฐ๊ธˆ์”ฉ ์›๋ณธ์— ๊ฐ€๊นŒ์šด ํ˜•ํƒœ๋กœ ๋ณต์›ํ•˜๊ธฐ ์œ„ํ•ด ๋…ธ์ด์ฆˆ๋ฅผ ์ ์ง„์ ์œผ๋กœ ์ค„์—ฌ๊ฐ€๋Š”๋ฐ, beta schedule์€ ์ด ๊ณผ์ •์—์„œ ๋…ธ์ด์ฆˆ์˜ ๊ฐ•๋„๋ฅผ ์กฐ์ ˆํ•˜๋Š” ์—ญํ• ์„ ํ•œ๋‹ค.
 
์ดˆ๊ธฐ์—๋Š” ๋น„๊ต์  ํฐ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ณ  ์ œ๊ฑฐํ•˜์—ฌ ๋Œ€๋žต์ ์ธ ์ด๋ฏธ์ง€ ํ˜•ํƒœ๋ฅผ ์žก๊ณ , ์ดํ›„ ๋‹จ๊ณ„๋กœ ๊ฐˆ์ˆ˜๋ก ๋…ธ์ด์ฆˆ ๋น„์œจ์„ ์ค„์—ฌ์„œ ์„ธ๋ถ€ ๋””ํ…Œ์ผ์„ ๋ณต์›ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. beta schedule์ด ์ ์šฉ๋˜๋ฉด ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ๋…ธ์ด์ฆˆ ๋ ˆ๋ฒจ์„ ๊ฒฝํ—˜ํ•˜๋ฉฐ ์ ์ฐจ ์„ธ๋ฐ€ํ•œ ํ‘œํ˜„์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜๋ฏ€๋กœ, ์ตœ์ข…์ ์œผ๋กœ ๊ณ ํ’ˆ์งˆ์˜ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

 

Stable Diffusion์˜ ์žฅ์ 

Stable Diffusion์˜ ์žฅ์ ์€ ํŠนํžˆ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ๊ณผ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋Šฅ๋ ฅ์—์„œ ๋‘๋“œ๋Ÿฌ์ง„๋‹ค. ๊ธฐ์กด ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ๋“ค์€ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ๋•Œ ๋งŽ์€ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํ•„์š”๋กœ ํ–ˆ์œผ๋‚˜, Stable Diffusion์€ ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ์ž‘์—…ํ•˜์—ฌ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์ด๋ฉด์„œ๋„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ๋•๋ถ„์— Stable Diffusion์€ ๊ทธ๋ž˜ํ”ฝ ์นด๋“œ์™€ ๊ฐ™์€ ๋ฒ”์šฉ ํ•˜๋“œ์›จ์–ด์—์„œ๋„ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์œ ๋ฆฌํ•˜๋‹ค.

 

๋˜ํ•œ, Stable Diffusion์€ ๋‹ค์–‘ํ•œ ํ…์ŠคํŠธ ์กฐ๊ฑด์„ ์ž์œ ๋กญ๊ฒŒ ์ ์šฉํ•  ์ˆ˜ ์žˆ์–ด, ์•„ํ‹ฐ์ŠคํŠธ๋‚˜ ๋””์ž์ด๋„ˆ๋“ค์ด ์›ํ•˜๋Š” ์Šคํƒ€์ผ์ด๋‚˜ ํŠน์ • ์ฃผ์ œ์— ๋งž์ถ˜ ์ด๋ฏธ์ง€๋ฅผ ์†์‰ฝ๊ฒŒ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•๋Š”๋‹ค. ์ด๋กœ ์ธํ•ด ์ƒ์—…์ ์ธ ์•„ํŠธ ์ƒ์„ฑ, ๊ด‘๊ณ , ์›นํˆฐ, ๊ฒŒ์ž„ ๋””์ž์ธ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์˜ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ํ™œ์šฉ๋œ๋‹ค.

 

Stable Diffusion์€ Stability AI๊ฐ€ 2022๋…„์— ์ฒ˜์Œ ๊ณต๊ฐœํ•œ ์ดํ›„๋กœ SD1.x, SD2.x, SDXL ๋“ฑ ์—ฌ๋Ÿฌ ๋ฒ„์ „์ด ์ถœ์‹œ๋˜๋ฉฐ ์ง€์†์ ์œผ๋กœ ๋ฐœ์ „ํ•ด์™”๋‹ค. 2024๋…„ ํ˜„์žฌ์—๋„ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ƒ์„ฑ๊ณผ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ ๋ฉด์—์„œ ์ค‘์š”ํ•œ ์žฅ์ ์œผ๋กœ ํ‰๊ฐ€๋˜๋ฉฐ, ๋ฒ”์šฉ ํ•˜๋“œ์›จ์–ด์—์„œ๋„ ํšจ์œจ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋Š” ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ๋กœ ์ž๋ฆฌ ์žก๊ณ  ์žˆ๋‹ค.

 


Stable Diffusion ๋ฒ„์ „๋ณ„ ์„ค๋ช…

Stable Diffusion์€ Stability AI๊ฐ€ 2022๋…„์— ์ฒ˜์Œ ๋ฐœํ‘œํ•œ ์ดํ›„, ์—ฌ๋Ÿฌ ๋ฒ„์ „์ด ์ถœ์‹œ๋˜๋ฉฐ ์ง€์†์ ์œผ๋กœ ๋ฐœ์ „ํ•ด์™”๋‹ค. ๊ฐ ๋ฒ„์ „์€ ์„ฑ๋Šฅ๊ณผ ๊ธฐ๋Šฅ ๋ฉด์—์„œ ์ค‘์š”ํ•œ ํ–ฅ์ƒ์„ ์ด๋ฃจ์—ˆ์œผ๋ฉฐ, ํ˜„์žฌ๋Š” ์ตœ์‹  ๋ฒ„์ „์ธ SDXL๊นŒ์ง€ ๋„๋‹ฌํ•ด ์žˆ๋‹ค. ๊ฐ ๋ฒ„์ „์˜ ์ฃผ์š” ํŠน์ง•์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

1. Stable Diffusion 1.x 

  • ๊ณต๊ฐœ ์‹œ๊ธฐ: 2022๋…„ 8์›”์— Stable Diffusion 1.4๊ฐ€ ๊ณต๊ฐœ๋จ.
  • ์ฃผ์š” ํŠน์ง•
    • ์ดˆ๊ธฐ ๋ฒ„์ „์ธ 1.4๋Š” ์˜คํ”ˆ์†Œ์Šค๋กœ ์ œ๊ณต๋˜์—ˆ์œผ๋ฉฐ, ๋ˆ„๊ตฌ๋‚˜ ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜๊ณ , ํŒŒ์ธํŠœ๋‹ํ•˜๊ฑฐ๋‚˜ ๋งž์ถคํ˜• ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ๋Š” ์ž์œ ๋ฅผ ์ œ๊ณตํ•จ.
    • Variational Autoencoder (VAE) ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•ด ์ด๋ฏธ์ง€ ์ž์ฒด๊ฐ€ ์•„๋‹Œ latent space์—์„œ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ ๋ฐ ์ œ๊ฑฐํ•˜๋ฉฐ ์ž‘์—…ํ•ด, ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์ ์œผ๋กœ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ์‹์„ ๋„์ž….
    • 2022๋…„ 12์›”, Stable Diffusion 1.5๊ฐ€ ์ถœ์‹œ๋˜๋ฉฐ ๋ชจ๋ธ ์„ฑ๋Šฅ๊ณผ ์ด๋ฏธ์ง€ ํ’ˆ์งˆ์ด ๊ฐœ์„ ๋จ.
    • ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜: ์•ฝ 9์–ต๊ฐœ
  • ์œ ์˜ ์‚ฌํ•ญ
    • 1.x ์‹œ๋ฆฌ์ฆˆ๋Š” ์ฒ˜์Œ์œผ๋กœ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์˜ ๊ธฐ์ดˆ๋ฅผ ํ™•๋ฆฝํ–ˆ์ง€๋งŒ, ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€ ๋งคํ•‘ ์ •ํ™•๋„๊ฐ€ ๋‹ค์†Œ ์ œํ•œ์ ์ด๋ฉฐ, ํŠน์ • ํ…์ŠคํŠธ ์กฐ๊ฑด์—์„œ ์›ํ•˜๋Š” ์ด๋ฏธ์ง€ ์ƒ์„ฑ์ด ์–ด๋ ค์šด ๊ฒฝ์šฐ๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์Œ.

 

2. Stable Diffusion 2.x 

  • ๊ณต๊ฐœ ์‹œ๊ธฐ: Stable Diffusion 2.0์€ 2022๋…„ 11์›” ๋ง, 2.1์€ ๊ฐ™์€ ํ•ด 12์›”์— ๊ณต๊ฐœ๋จ.
  • ์ฃผ์š” ํŠน์ง•
    • ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ๋ฐ ํ•™์Šต ๊ณผ์ •์ด ์—…๊ทธ๋ ˆ์ด๋“œ๋˜์–ด 512x512 ๋ฐ 768x768 ํ•ด์ƒ๋„์—์„œ์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์„ ๊ธฐ๋ณธ์œผ๋กœ ์ง€์›ํ•˜๋ฉฐ, ์ด๋ฏธ์ง€์˜ ํ’ˆ์งˆ๊ณผ ๋””ํ…Œ์ผ์ด ๊ฐœ์„ ๋จ.
    • ์ƒˆ๋กœ์šด ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋กœ OpenCLIP์„ ๋„์ž…ํ•ด ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋งคํ•‘ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•จ. ์ด๋กœ ์ธํ•ด ํ…์ŠคํŠธ ์กฐ๊ฑด์— ๋งž๋Š” ๋ณด๋‹ค ์ •ํ™•ํ•œ ์ด๋ฏธ์ง€ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•ด์ง.
    • 2.x ๋ฒ„์ „์—์„œ๋Š” ๋…ธ์ด์ฆˆ ์ฃผ์ž… ๋ฐฉ์‹์ด ๋”์šฑ ์ •๊ตํ•ด์ ธ ๋‹ค์–‘ํ•œ ์Šคํƒ€์ผ ๋ฐ ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์„ ์ง€์›ํ•จ.
      • Noise Injection Process
        • ๊ฐ ๋‹จ๊ณ„์—์„œ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹์ด ๊ฐœ์„ 
        • ์ดˆ๊ธฐ ๋‹จ๊ณ„์—์„œ๋Š” ๋” ๋†’์€ ๋…ธ์ด์ฆˆ๋ฅผ ์ฃผ์ž…ํ•˜์—ฌ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€์˜ ์ „๋ฐ˜์ ์ธ ๊ตฌ์กฐ๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๊ณ ,
        • ํ›„๋ฐ˜ ๋‹จ๊ณ„์—์„œ๋Š” ๋…ธ์ด์ฆˆ๋ฅผ ์ค„์—ฌ๊ฐ€๋ฉฐ ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ๋” ์ •ํ™•ํ•˜๊ฒŒ ์ƒ์„ฑ
        • ์ด ๊ณผ์ •์€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋…ธ์ด์ฆˆ๋ฅผ ์ ์ง„์ ์œผ๋กœ ์ค„์—ฌ๊ฐ€๋ฉฐ ์ตœ์ข… ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.
      • Beta Schedule
        • Beta schedule์€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋…ธ์ด์ฆˆ ์ˆ˜์ค€์ด ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š”์ง€๋ฅผ ์ •์˜ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ, ์ด๋Š” ๋…ธ์ด์ฆˆ ์ฃผ์ž…์˜ ์†๋„์™€ ์–‘์„ ์กฐ์ ˆํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ์ˆ˜ํ–‰
        • ์ด ์Šค์ผ€์ค„์„ ํ†ตํ•ด ๊ฐ ์Šคํ…์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๋…ธ์ด์ฆˆ์˜ ์–‘์„ ๋™์ ์œผ๋กœ ์กฐ์ •ํ•˜์—ฌ ๋ชจ๋ธ์ด ๋” ๋‹ค์–‘ํ•œ ๋…ธ์ด์ฆˆ ์ˆ˜์ค€์„ ๊ฒฝํ—˜ํ•˜๊ฒŒ ํ•˜๊ณ , ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋” ๋†’์€ ํ’ˆ์งˆ์˜ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•จ
      • Adaptive Noise Scaling
        • adaptive noise levels์„ ์ง€์›ํ•˜์—ฌ, ๊ฐ ์Šคํ…์—์„œ ๋…ธ์ด์ฆˆ์˜ ์–‘์„ ์œ ์—ฐํ•˜๊ฒŒ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ์Œ
        • ์ด๋Š” ์‚ฌ์šฉ์ž๊ฐ€ ํŠน์ • ์ƒ์„ฑ ๊ณผ์ •์— ๋งž์ถฐ ๋…ธ์ด์ฆˆ๋ฅผ ์„ธ๋ฐ€ํ•˜๊ฒŒ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ์Šคํƒ€์ผ๊ณผ ํ’ˆ์งˆ์˜ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ๋„์›€์„ ์คŒ
    • ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜: ์•ฝ 9์–ต ๊ฐœ
  • ์œ ์˜ ์‚ฌํ•ญ
    • OpenCLIP ๋„์ž…์œผ๋กœ ํ–ฅ์ƒ๋œ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋งคํ•‘ ์„ฑ๋Šฅ ๋•๋ถ„์—, ํ…์ŠคํŠธ์˜ ์„ธ๋ถ€ ์กฐ๊ฑด์— ๋”ฐ๋ฅธ ์ด๋ฏธ์ง€์˜ ์ •ํ™•์„ฑ์ด ๊ฐœ์„ ๋˜์—ˆ์œผ๋‚˜, ๋ฉ”๋ชจ๋ฆฌ ์š”๊ตฌ๋Ÿ‰์ด ์ฆ๊ฐ€ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ฐœ๋ฐœ ํ™˜๊ฒฝ์— ๋”ฐ๋ฅธ ์กฐ์ •์ด ํ•„์š”ํ•จ.

 

3. Stable Diffusion XL (SDXL) 

 

  • ๊ณต๊ฐœ ์‹œ๊ธฐ: 2023๋…„ ์ค‘๋ฐ˜์— SDXL ๋ชจ๋ธ์ด ๋ฐœํ‘œ๋˜๋ฉฐ, ์ดํ›„ 2024๋…„ ์ดˆ๊นŒ์ง€ ์„ฑ๋Šฅ ๊ฐœ์„  ์—…๋ฐ์ดํŠธ๊ฐ€ ์ง€์†๋จ.
  • ์ฃผ์š” ํŠน์ง•
    • ๊ธฐ์กด ๋ฒ„์ „ ๋Œ€๋น„ ์•„์ฃผ ํฐ ๋ชจ๋ธ ์šฉ๋Ÿ‰์„ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, 1024x1024 ์ด์ƒ์˜ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ.
    • 3๋ฐฐ ๋” ํฐ U-Net ๋ชจ๋ธ ์‚ฌ์šฉ (์ฃผ๋กœ attention block์˜ ์ฆ๊ฐ€)
    • ๋‹ค์–‘ํ•œ ์ข…ํšก๋น„๋กœ ํ•™์Šต๋˜์–ด ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์™€ ๋น„์œจ์— ๋งž๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ
    • Conditioning schemes
      • ์ด๋ฏธ์ง€ ์ƒ์„ฑ์„ ์œ„ํ•œ ์กฐ๊ฑด๋ถ€ ์ •๋ณด์˜ ํ™œ์šฉ์„ ๊ทน๋Œ€ํ™”ํ•˜์—ฌ ๋ชจ๋ธ์˜ ์œ ์—ฐ์„ฑ์„ ๋†’์ด๊ณ  ๋‹ค์–‘ํ•œ ์Šคํƒ€์ผ๊ณผ ํŠน์„ฑ์„ ๊ฐ€์ง„ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•จ
      • Conditioning Techniques: ๊ธฐ์กด Stable Diffusion ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉ๋˜๋˜ ๋‹จ์ผํ•œ conditioning ๋ฐฉ๋ฒ•์—์„œ ๋ฒ—์–ด๋‚˜, ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ƒˆ๋กœ์šด ๊ธฐ๋ฒ•์„ ํ†ตํ•ฉํ•˜์—ฌ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ๋”์šฑ ํšจ๊ณผ์ ์œผ๋กœ ์—ฐ๊ฒฐํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋จ. ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋“ค์€ ์ƒ์„ฑํ•  ์ด๋ฏธ์ง€์˜ ํŠน์„ฑ์„ ๋ณด๋‹ค ๋ช…ํ™•ํžˆ ์ •์˜ํ•˜๊ณ , ๋‹ค์–‘ํ•œ ์š”๊ตฌ์‚ฌํ•ญ์— ๋งž์ถ˜ ์ถœ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ•จ.
      • Text-Image Alignment: ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€ ๊ฐ„์˜ ์ •๋ ฌ์„ ๊ฐœ์„ ํ•˜์—ฌ, ์ž…๋ ฅ๋œ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์˜ ์˜๋ฏธ๋ฅผ ๋” ์ž˜ ๋ฐ˜์˜ํ•œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•จ. ์ด๋Š” ๋ชจ๋ธ์ด ๋” ๋ณต์žกํ•œ ํ…์ŠคํŠธ ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌํ•˜๊ณ , ์„ธ๋ถ€ ์‚ฌํ•ญ์ด ์ž˜ ๋ฐ˜์˜๋œ ์ด๋ฏธ์ง€๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๊ฒŒ ๊ฐœ์„ .
      • Adaptive Conditioning: ์ƒˆ๋กœ์šด conditioning ๋ฐฉ๋ฒ•์€ ๋ชจ๋ธ์ด ์ž…๋ ฅ๋œ ์กฐ๊ฑด์— ๋”ฐ๋ผ ๋” ์ ์ ˆํ•˜๊ฒŒ ์กฐ์ •๋˜๋„๋ก ๊ฐœ์„ . ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ์šฉ์ž ์š”๊ตฌ์— ๋”ฐ๋ผ ํŠน์ • ์Šคํƒ€์ผ์ด๋‚˜ ์ฃผ์ œ๋ฅผ ๊ฐ•์กฐํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์‚ฌ์šฉ์ž ๋งž์ถคํ˜• ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ๋งค์šฐ ์œ ์šฉ
      • ๊ฒฐ๊ณผ์ ์œผ๋กœ, ์ด๋Ÿฌํ•œ ์ƒˆ๋กœ์šด conditioning schemes๋Š” SDXL์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ•œ์ธต ๋” ๋ฐœ์ „์‹œ์ผœ, ์‚ฌ์šฉ์ž์—๊ฒŒ ์›ํ•˜๋Š” ์ด๋ฏธ์ง€๋ฅผ ๋ณด๋‹ค ์ •ํ™•ํ•˜๊ฒŒ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
    • Refinement model ์ ์šฉ
      • SDXL์—์„œ ์ƒ์„ฑ๋œ latent representations์„ ์ •๊ตํ•˜๊ฒŒ ๋‹ค๋“ฌ๊ธฐ ์œ„ํ•ด noising-denoising process๋ฅผ ํ™œ์šฉ. ์ด ๋ชจ๋ธ์€ ์ดˆ๊ธฐ ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€๋ฅผ ๋”์šฑ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ธฐ๋Šฅ์„ ์ˆ˜ํ–‰
      • ๊ธฐ์กด์˜ latent representation์— ๋…ธ์ด์ฆˆ๋ฅผ ์ฃผ์ž…ํ•œ ํ›„, ์ด๋ฅผ ์ œ๊ฑฐํ•˜๋Š” denoising ๊ณผ์ •์„ ํ†ตํ•ด ์ด๋ฏธ์ง€๋ฅผ ๊ฐœ์„ . ์ด ๊ณผ์ •์—์„œ ๋ชจ๋ธ์€ ๋” ์„ฌ์„ธํ•œ ์„ธ๋ถ€์‚ฌํ•ญ๊ณผ ๊ตฌ์กฐ๋ฅผ ๋ณต์›ํ•  ์ˆ˜ ์žˆ์–ด ์ตœ์ข… ์ƒ์„ฑ๋ฌผ์˜ ํ’ˆ์งˆ์ด ํ–ฅ์ƒ๋จ
      • Refinement model์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ•™์Šตํ•œ ํŒจํ„ด๊ณผ ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ, ์ดˆ๊ธฐ ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ํŒจํ„ด์„ ์ธ์‹ํ•จ
      • ํŠน์ • ์ƒํ™ฉ์ด๋‚˜ ์š”๊ตฌ์‚ฌํ•ญ์— ๋งž์ถฐ ์ด๋ฏธ์ง€๋ฅผ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋Š” ์œ ์—ฐ์„ฑ์„ ์ œ๊ณตํ•จ. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ์šฉ์ž๊ฐ€ ์›ํ•˜๋Š” ํŠน์ • ์Šคํƒ€์ผ์ด๋‚˜ ์„ธ๋ถ€์‚ฌํ•ญ์„ ๊ฐ•์กฐํ•  ์ˆ˜ ์žˆ์–ด, ๋งž์ถคํ˜• ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์šฉ์ดํ•ฉ๋‹ˆ๋‹ค.
      • ์ด์ „ ๋‹จ๊ณ„์—์„œ ์ด๋ฏธ ๋†’์€ ํ’ˆ์งˆ์˜ latent representation์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ํŠน์„ฑ์„ ํ•™์Šตํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๊ธฐ์กด์— ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ถ”๊ฐ€์ ์ธ ๊ฐ๋… ์—†์ด๋„ ํ’ˆ์งˆ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ฒŒ ๋จ
      • Refinement model์€ ์ „์ฒด ํ•™์Šต ๊ณผ์ •์—์„œ latent diffusion model๊ณผ ํ•จ๊ป˜ ํ•™์Šต๋˜๋ฉฐ, ์ด๋ฏธ์ง€ ์ƒ์„ฑ ์‹œ์—๋„ ์ž๋™์œผ๋กœ ์ž‘๋™ํ•˜์—ฌ ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€๋ฅผ ์ •๊ตํ•˜๊ฒŒ ์ˆ˜์ •. ์ด๋ฅผ ํ†ตํ•ด ์ตœ์ข… ์‚ฌ์šฉ์ž์—๊ฒŒ ๋†’์€ ํ’ˆ์งˆ์˜ ์ด๋ฏธ์ง€๋ฅผ ์ œ๊ณตํ•จ.
  • ํ…์ŠคํŠธ์˜ ์˜๋ฏธ๋ฅผ ๋” ๊นŠ๊ฒŒ ์ดํ•ดํ•˜๊ณ  ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ๋กœ, ์ด๋ฏธ์ง€์˜ ๋””ํ…Œ์ผ๊ณผ ์„ธ๋ฐ€ํ•œ ํ‘œํ˜„๋ ฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋จ.
  • SDXL์€ ํŠนํžˆ ์„ธ๋ถ€ ์„ค์ • ์˜ต์…˜์„ ๋‹ค์ˆ˜ ์ถ”๊ฐ€ํ•ด, ์•„ํ‹ฐ์ŠคํŠธ ๋ฐ ๋””์ž์ด๋„ˆ๊ฐ€ ๋ณด๋‹ค ์„ธ๋ฐ€ํ•œ ์ปจํŠธ๋กค์„ ํ†ตํ•ด ์›ํ•˜๋Š” ์ด๋ฏธ์ง€ ์Šคํƒ€์ผ์„ ์–ป์„ ์ˆ˜ ์žˆ๋„๋ก ์ง€์›.
  • ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜: ์•ฝ 20์–ต ๊ฐœ ์ด์ƒ
๋ฐ˜์‘ํ˜•