AI๋ฅผ ํ์ฉํ ์ด๋ฏธ์ง ์์ฑ ๊ธฐ์ ์ ๋จ์ํ ํฝ์
๋จ์์ ๋ณํ์ ๋์ด, ๊ณ ์ ํ ์์ ์ ์ฐฝ์์ฑ์ ๋ด์๋ด๋ ๋จ๊ณ์ ์ด๋ฅด๋ ๋ค. AI๋ ์ด์ ํ
์คํธ์ ๊ฐ์ ๊ฐ๋จํ ์กฐ๊ฑด์์๋ถํฐ ๋ณต์กํ ์ด๋ฏธ์ง ๋ํ
์ผ๊น์ง, ์ฌ์ฉ์ ์๊ตฌ์ ๋ง์ถฐ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๊ฒ ๋์๋ค. ์ด๋ฌํ ํ๋ฆ์ ์ ๋์ ์๋ ๊ธฐ์ ์ค ํ๋๊ฐ Stable Diffusion์ด๋ค. ์ด ๋ชจ๋ธ์ ๊ธฐ์กด์ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ๋ค์ด ๊ฒช๋ ํ๊ณ๋ฅผ ํด๊ฒฐํ๋ฉฐ, ๋ค์ํ ์กฐ๊ฑด์์๋ ํจ์จ์ ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋๋ก ์ค๊ณ๋์๋ค. Stable Diffusion์ ๊ตฌ์กฐ์ ํ์ต ๋ฐฉ์์ ์ดํดํ๋ฉด ์ด๋ฏธ์ง ์์ฑ AI๊ฐ ์ด๋ป๊ฒ ๋ฐ์ ํด์๊ณ , ์ด๋ค ๋ฐฉ์์ผ๋ก ๋ ์ฐฝ์์ ์ธ ๊ฒฐ๊ณผ๋ฌผ์ ๋ง๋ค์ด๋ด๋์ง ์ ์ ์๋ค.
Diffusion Model ?
- Diffusion model์ ๋ฐ์ดํฐ์ ์ ์ง์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ ๋จ๊ณ์ ์ผ๋ก ์์ํ ๋ ธ์ด์ฆ ์ํ๋ก ๋ง๋๋ ๊ณผ์ ์ ๊ธฐ๋ฐ์ผ๋ก ํจ
- ์ดํ ๋ชจ๋ธ์ ์ด ๊ณผ์ ์ ์ญ์ผ๋ก ์ํํ์ฌ ๋ฐ์ดํฐ์์ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ฉด์ ์๋ก์ด ์ํ์ ์์ฑ
- ํ์ต ๊ณผ์
- ๋ชจ๋ธ์ ๋ ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋ ๋ฐ์ดํฐ์์ ์๋ ๋ฐ์ดํฐ๋ฅผ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ํ์ต
- ์ด ๊ณผ์ ์๋ ์๋ฐฉํฅ ํ๋ก์ธ์ค(๋ ธ์ด์ฆ ์ถ๊ฐ)์ ์ญ๋ฐฉํฅ ํ๋ก์ธ์ค(๋ ธ์ด์ฆ ์ ๊ฑฐ)๊ฐ ํฌํจ๋จ
- ํ์ต ๋ชฉํ๋ ์์ธก๋ ๊นจ๋ํ ๋ฐ์ดํฐ์ ์ค์ ๋ฐ์ดํฐ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋ ๊ฒ
- Diffusion model์์ ์ฌ์ฉ๋๋ ์ํคํ ์ฒ๋ ์ผ๋ฐ์ ์ผ๋ก Denoising Autoencoder ๋๋ GAN๊ณผ ์ ์ฌํ๋ฉฐ, ๋ ธ์ด์ฆ ์ ๊ฑฐ ํ๋ก์ธ์ค๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด neural network๋ฅผ ์ฌ์ฉ
- ์ํ๋ง ์ ๋ชจ๋ธ์ ๋ ธ์ด์ฆ ๋ฒกํฐ์์ ์์ํ์ฌ ํ์ต๋ ์ญ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๋จ๊ณ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ ์ฉํ์ฌ ์ผ๊ด๋ ์ํ์ ์์ฑ
- ์ ํต์ ์ธ ์์ฑ ๋ชจ๋ธ(GAN ๋ฑ)๊ณผ ๋น๊ตํ ๋ ๊ณ ํด์๋ ์ด๋ฏธ์ง ์์ฑ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค. ํ์ต ์ค ์์ ์ฑ์ด ๋๊ณ ๋ชจ๋ ๋ถ๊ดด(Mode Collapse)์ ๋ ์ทจ์ฝํจ
Stable Diffusion ๊ตฌ์กฐ์ ํน์ง
Stable Diffusion์ Latent Diffusion Model(LDM)์ ๊ธฐ๋ฐํ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ๋ก, ํนํ ๊ณ ํด์๋ ์ด๋ฏธ์ง ์์ฑ์ ์ต์ ํ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ถ๊ณ ์๋ค. ์ด ๋ชจ๋ธ์ ์ด๋ฏธ์ง์ ์ ์ฌ ๊ณต๊ฐ(latent space)์์ ํ์ตํจ์ผ๋ก์จ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ ๋์ด๊ณ , ๋ณด๋ค ์ ๋ฐํ ์ด๋ฏธ์ง ์์ฑ์ด ๊ฐ๋ฅํ๋๋ก ํ๋ค.
1. Latent Diffusion Model (LDM)
Stable Diffusion์ ํต์ฌ์ Latent Diffusion Model์ด๋ค. ์ผ๋ฐ์ ์ธ Diffusion Model์ ์ด๋ฏธ์ง ์์ฒด์์ ๋
ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๊ณ ์ ๊ฑฐํ๋ ๊ณผ์ ์ ํตํด ํ์ตํ์ง๋ง, Stable Diffusion์ latent space์์ ์ด๋ฌํ ๊ณผ์ ์ ์ํํ๋ค. latent space์ ์ค๋ฆฌ์ง๋ ์ด๋ฏธ์ง ๋์ VAE(Variational Autoencoder)๋ฅผ ํตํด ์ป์ ์ ์ฐจ์์ ํํ์ผ๋ก, ๋ณต์กํ ์ด๋ฏธ์ง์ ์ฃผ์ ํน์ง์ ์์ถํ์ฌ ํํํ ๊ณต๊ฐ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค. Stable Diffusion์ ์ด๋ฌํ latent space์์ ๋
ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๊ณ ์ ๊ฑฐํ๋ ๋ฐฉ์์ผ๋ก ํ์ต์ ์งํํ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ํฌ๊ฒ ์ค์ด๋ฉด์๋ ๊ณ ํด์๋ ์ด๋ฏธ์ง ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
latent space์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๊ณ ์ ๊ฑฐํ๋ ๋ฐฉ์์ด ์ข์ ์ด์ ๋, ์ด๋ฏธ์ง์ ๊ณ ์ฐจ์ ๊ณต๊ฐ์์ ์ง์ ์์ ํ๋ ๊ฒ๋ณด๋ค ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ํจ์จ์ด ํฌ๊ฒ ํฅ์๋๊ธฐ ๋๋ฌธ์ด๋ค. ์ผ๋ฐ์ ์ผ๋ก ๊ณ ํด์๋ ์ด๋ฏธ์ง ์์ฒด๋ฅผ ์ฒ๋ฆฌํ๋ ค๋ฉด ๋ง์ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์ํ๊ณ ์ฐ์ฐ๋๋ ์ฆ๊ฐํ์ง๋ง, latent space์์๋ ์ด๋ฏธ์ง์ ์ฃผ์ ์ ๋ณด๋ง ์ถ์ถ๋ ์ ์ฐจ์ ํํ์ ๋ค๋ฃจ๊ธฐ ๋๋ฌธ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ์ค์ด๋ ๋ค. ์ด ๋๋ถ์ ๊ฐ์ ์์์ผ๋ก๋ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์์ด ๋ ์ ์ ๋ฆฌ์์ค๋ก ๋์ ํ์ง์ ๊ฒฐ๊ณผ๋ฌผ์ ์์ฑํ ์ ์๊ฒ ๋๋ค.
2. U-Net
Stable Diffusion์ ๋
ธ์ด์ฆ ์ ๊ฑฐ๋ฅผ ์ํ ํต์ฌ ๋ชจ๋ธ๋ก U-Net ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ค. U-Net์ Encoder-Decoder ๊ตฌ์กฐ๋ฅผ ํ์ฉํด ์ด๋ฏธ์ง์ ์ค์ํ ์ ๋ณด๋ฅผ ๋ณด์กดํ๋ฉด์ ์ ์ง์ ์ผ๋ก ๋
ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ ๋ฐ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. U-Net์ Encoder๋ ์
๋ ฅ ์ด๋ฏธ์ง์์ ์ค์ํ ํน์ง์ ์ถ์ถํ๊ณ , Decoder๋ ์ด๋ฅผ ํตํด ์๋ ์ด๋ฏธ์ง์ ์ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๋ค. Stable Diffusion์์๋ ์ฌ๊ธฐ์ ํ
์คํธ ์กฐ๊ฑด์ด ์ถ๊ฐ๋์ด, ํน์ ํ
์คํธ ์กฐ๊ฑด์ ๋ง๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋๋ก U-Net์ด ํ๋๋๋ค.
3. ํ ์คํธ ์กฐ๊ฑด๋ถ ์์ฑ
Stable Diffusion์ ํ
์คํธ ์กฐ๊ฑด๋ถ ๋ชจ๋ธ๋ก, ํน์ ๋ฌธ๊ตฌ๋ ์ค๋ช
์ ๋ง์ถฐ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ค. ์ด๋ฅผ ์ํด OpenAI์ CLIP(Contrastive Language-Image Pre-training) ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ํ
์คํธ์ ์ด๋ฏธ์ง ๊ฐ์ ์ฐ๊ด์ฑ์ ํ์ตํ๋ค. CLIP ๋ชจ๋ธ์ ํ
์คํธ ์๋ฒ ๋ฉ์ ์์ฑํด U-Net ๋ชจ๋ธ์ ์
๋ ฅ์ผ๋ก ์ ๊ณตํ๋ฉฐ, ์ด๋ฅผ ํตํด ํ
์คํธ์ ์๋ฏธ์ ๋ง๋ ์ด๋ฏธ์ง๊ฐ ์์ฑ๋๋๋ก ์กฐ๊ฑด์ ๋ถ์ฌํ๋ค. ์๋ฅผ ๋ค์ด, "ํธ๋ฅธ ๋ฐ๋ค ์์ ๋
ธ์"์ด๋ผ๋ ํ
์คํธ ์กฐ๊ฑด์ ์
๋ ฅํ๋ฉด Stable Diffusion์ ์ด์ ๋ง๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํด๋ธ๋ค.
4. ๋ ธ์ด์ฆ ์ค์ผ์ค๋ง๊ณผ ํ์ต ๊ณผ์
Stable Diffusion์ ํ์ต ๊ณผ์ ์ ๋
ธ์ด์ฆ๋ฅผ ์ ์ง์ ์ผ๋ก ์ ๊ฑฐํด๊ฐ๋ฉฐ ์๋ณธ ์ด๋ฏธ์ง์ ๊ฐ๊น์ด ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๊ฐ๋ ๋ฐฉ์์ผ๋ก ์งํ๋๋ค. ์ด๊ธฐ์๋ ๋๋คํ ๋
ธ์ด์ฆ๊ฐ ํฌํจ๋ ์ด๋ฏธ์ง์์ ์์ํด, ๋งค ๋จ๊ณ๋ง๋ค ์กฐ๊ธ์ฉ ๋
ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ์ฌ ์ต์ข
์ ์ผ๋ก ํ
์คํธ ์กฐ๊ฑด์ ๋ถํฉํ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค. ์ด๋ฅผ ์ํด beta schedule์ ์ฌ์ฉํ์ฌ ๋
ธ์ด์ฆ ์ ๊ฑฐ์ ๋น์จ์ ์กฐ์ ํ๋ฉฐ, ์ด ๊ณผ์ ์์ ๋ค์ํ ๋
ธ์ด์ฆ ์์ค์ ๊ฒฝํํ ๋ชจ๋ธ์ด ํ์ตํ๊ฒ ๋๋ค.
Beta schedule์ ๋
ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๊ฑฐ๋ ์ ๊ฑฐํ๋ ๊ฐ๋๋ฅผ ๋จ๊ณ์ ์ผ๋ก ์กฐ์ ํ๋ ๋
ธ์ด์ฆ ์ ์ด ์ค์ผ์ค์ด๋ค. Stable Diffusion์์๋ ๊ฐ ํ์ต ๋จ๊ณ๋ง๋ค ์ด๋ฏธ์ง๋ฅผ ์กฐ๊ธ์ฉ ์๋ณธ์ ๊ฐ๊น์ด ํํ๋ก ๋ณต์ํ๊ธฐ ์ํด ๋
ธ์ด์ฆ๋ฅผ ์ ์ง์ ์ผ๋ก ์ค์ฌ๊ฐ๋๋ฐ, beta schedule์ ์ด ๊ณผ์ ์์ ๋
ธ์ด์ฆ์ ๊ฐ๋๋ฅผ ์กฐ์ ํ๋ ์ญํ ์ ํ๋ค.
์ด๊ธฐ์๋ ๋น๊ต์ ํฐ ๋
ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๊ณ ์ ๊ฑฐํ์ฌ ๋๋ต์ ์ธ ์ด๋ฏธ์ง ํํ๋ฅผ ์ก๊ณ , ์ดํ ๋จ๊ณ๋ก ๊ฐ์๋ก ๋
ธ์ด์ฆ ๋น์จ์ ์ค์ฌ์ ์ธ๋ถ ๋ํ
์ผ์ ๋ณต์ํ๋ ๋ฐฉ์์ด๋ค. beta schedule์ด ์ ์ฉ๋๋ฉด ๋ชจ๋ธ์ ๋ค์ํ ๋
ธ์ด์ฆ ๋ ๋ฒจ์ ๊ฒฝํํ๋ฉฐ ์ ์ฐจ ์ธ๋ฐํ ํํ์ ํ์ตํ ์ ์๊ฒ ๋๋ฏ๋ก, ์ต์ข
์ ์ผ๋ก ๊ณ ํ์ง์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๊ฒ ๋๋ค.
Stable Diffusion์ ์ฅ์
๋ํ, Stable Diffusion์ ๋ค์ํ ํ ์คํธ ์กฐ๊ฑด์ ์์ ๋กญ๊ฒ ์ ์ฉํ ์ ์์ด, ์ํฐ์คํธ๋ ๋์์ด๋๋ค์ด ์ํ๋ ์คํ์ผ์ด๋ ํน์ ์ฃผ์ ์ ๋ง์ถ ์ด๋ฏธ์ง๋ฅผ ์์ฝ๊ฒ ์์ฑํ ์ ์๋๋ก ๋๋๋ค. ์ด๋ก ์ธํด ์์ ์ ์ธ ์ํธ ์์ฑ, ๊ด๊ณ , ์นํฐ, ๊ฒ์ ๋์์ธ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ์ด๋ฏธ์ง ์์ฑ์ ํจ์จ์ฑ์ ๋์ด๋ ๋ฐ ํ์ฉ๋๋ค.
Stable Diffusion์ Stability AI๊ฐ 2022๋ ์ ์ฒ์ ๊ณต๊ฐํ ์ดํ๋ก SD1.x, SD2.x, SDXL ๋ฑ ์ฌ๋ฌ ๋ฒ์ ์ด ์ถ์๋๋ฉฐ ์ง์์ ์ผ๋ก ๋ฐ์ ํด์๋ค. 2024๋ ํ์ฌ์๋ ๊ณ ํด์๋ ์ด๋ฏธ์ง ์์ฑ๊ณผ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ ๋ฉด์์ ์ค์ํ ์ฅ์ ์ผ๋ก ํ๊ฐ๋๋ฉฐ, ๋ฒ์ฉ ํ๋์จ์ด์์๋ ํจ์จ์ ์ผ๋ก ์๋ํ๋ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ๋ก ์๋ฆฌ ์ก๊ณ ์๋ค.
Stable Diffusion ๋ฒ์ ๋ณ ์ค๋ช
Stable Diffusion์ Stability AI๊ฐ 2022๋ ์ ์ฒ์ ๋ฐํํ ์ดํ, ์ฌ๋ฌ ๋ฒ์ ์ด ์ถ์๋๋ฉฐ ์ง์์ ์ผ๋ก ๋ฐ์ ํด์๋ค. ๊ฐ ๋ฒ์ ์ ์ฑ๋ฅ๊ณผ ๊ธฐ๋ฅ ๋ฉด์์ ์ค์ํ ํฅ์์ ์ด๋ฃจ์์ผ๋ฉฐ, ํ์ฌ๋ ์ต์ ๋ฒ์ ์ธ SDXL๊น์ง ๋๋ฌํด ์๋ค. ๊ฐ ๋ฒ์ ์ ์ฃผ์ ํน์ง์ ๋ค์๊ณผ ๊ฐ๋ค.
1. Stable Diffusion 1.x
- ๊ณต๊ฐ ์๊ธฐ: 2022๋ 8์์ Stable Diffusion 1.4๊ฐ ๊ณต๊ฐ๋จ.
- ์ฃผ์ ํน์ง
- ์ด๊ธฐ ๋ฒ์ ์ธ 1.4๋ ์คํ์์ค๋ก ์ ๊ณต๋์์ผ๋ฉฐ, ๋๊ตฌ๋ ๋ชจ๋ธ์ ํ์ฉํ๊ณ , ํ์ธํ๋ํ๊ฑฐ๋ ๋ง์ถคํ ๋ชจ๋ธ์ ๊ฐ๋ฐํ ์ ์๋ ์์ ๋ฅผ ์ ๊ณตํจ.
- Variational Autoencoder (VAE) ๊ตฌ์กฐ๋ฅผ ํ์ฉํด ์ด๋ฏธ์ง ์์ฒด๊ฐ ์๋ latent space์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐ ๋ฐ ์ ๊ฑฐํ๋ฉฐ ์์ ํด, ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ผ๋ก ์์ฑํ ์ ์๋ ๋ฐฉ์์ ๋์ .
- 2022๋ 12์, Stable Diffusion 1.5๊ฐ ์ถ์๋๋ฉฐ ๋ชจ๋ธ ์ฑ๋ฅ๊ณผ ์ด๋ฏธ์ง ํ์ง์ด ๊ฐ์ ๋จ.
- ํ๋ผ๋ฏธํฐ ์: ์ฝ 9์ต๊ฐ
- ์ ์ ์ฌํญ
- 1.x ์๋ฆฌ์ฆ๋ ์ฒ์์ผ๋ก ๊ณ ํด์๋ ์ด๋ฏธ์ง ์์ฑ์ ๊ธฐ์ด๋ฅผ ํ๋ฆฝํ์ง๋ง, ํ ์คํธ์ ์ด๋ฏธ์ง ๋งคํ ์ ํ๋๊ฐ ๋ค์ ์ ํ์ ์ด๋ฉฐ, ํน์ ํ ์คํธ ์กฐ๊ฑด์์ ์ํ๋ ์ด๋ฏธ์ง ์์ฑ์ด ์ด๋ ค์ด ๊ฒฝ์ฐ๊ฐ ์์ ์ ์์.
2. Stable Diffusion 2.x
- ๊ณต๊ฐ ์๊ธฐ: Stable Diffusion 2.0์ 2022๋ 11์ ๋ง, 2.1์ ๊ฐ์ ํด 12์์ ๊ณต๊ฐ๋จ.
- ์ฃผ์ ํน์ง
- ๋ชจ๋ธ ์ํคํ ์ฒ ๋ฐ ํ์ต ๊ณผ์ ์ด ์ ๊ทธ๋ ์ด๋๋์ด 512x512 ๋ฐ 768x768 ํด์๋์์์ ์ด๋ฏธ์ง ์์ฑ์ ๊ธฐ๋ณธ์ผ๋ก ์ง์ํ๋ฉฐ, ์ด๋ฏธ์ง์ ํ์ง๊ณผ ๋ํ ์ผ์ด ๊ฐ์ ๋จ.
- ์๋ก์ด ํ ์คํธ ์ธ์ฝ๋๋ก OpenCLIP์ ๋์ ํด ํ ์คํธ-์ด๋ฏธ์ง ๋งคํ ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํจ. ์ด๋ก ์ธํด ํ ์คํธ ์กฐ๊ฑด์ ๋ง๋ ๋ณด๋ค ์ ํํ ์ด๋ฏธ์ง ํํ์ด ๊ฐ๋ฅํด์ง.
- 2.x ๋ฒ์ ์์๋ ๋
ธ์ด์ฆ ์ฃผ์
๋ฐฉ์์ด ๋์ฑ ์ ๊ตํด์ ธ ๋ค์ํ ์คํ์ผ ๋ฐ ๊ณ ํ์ง ์ด๋ฏธ์ง ์์ฑ์ ์ง์ํจ.
- Noise Injection Process
- ๊ฐ ๋จ๊ณ์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ ๋ฐฉ์์ด ๊ฐ์
- ์ด๊ธฐ ๋จ๊ณ์์๋ ๋ ๋์ ๋ ธ์ด์ฆ๋ฅผ ์ฃผ์ ํ์ฌ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง์ ์ ๋ฐ์ ์ธ ๊ตฌ์กฐ๋ฅผ ํ์ตํ ์ ์๋๋ก ํ๊ณ ,
- ํ๋ฐ ๋จ๊ณ์์๋ ๋ ธ์ด์ฆ๋ฅผ ์ค์ฌ๊ฐ๋ฉฐ ์ธ๋ถ ์ฌํญ์ ๋ ์ ํํ๊ฒ ์์ฑ
- ์ด ๊ณผ์ ์ ์๊ฐ์ ๋ฐ๋ผ ๋ ธ์ด์ฆ๋ฅผ ์ ์ง์ ์ผ๋ก ์ค์ฌ๊ฐ๋ฉฐ ์ต์ข ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ด๋ค.
- Beta Schedule
- Beta schedule์ ์๊ฐ์ ๋ฐ๋ผ ๋ ธ์ด์ฆ ์์ค์ด ์ด๋ป๊ฒ ๋ณํํ๋์ง๋ฅผ ์ ์ํ๋ ํ๋ผ๋ฏธํฐ๋ก, ์ด๋ ๋ ธ์ด์ฆ ์ฃผ์ ์ ์๋์ ์์ ์กฐ์ ํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ์ํ
- ์ด ์ค์ผ์ค์ ํตํด ๊ฐ ์คํ ์์ ์ฌ์ฉ๋๋ ๋ ธ์ด์ฆ์ ์์ ๋์ ์ผ๋ก ์กฐ์ ํ์ฌ ๋ชจ๋ธ์ด ๋ ๋ค์ํ ๋ ธ์ด์ฆ ์์ค์ ๊ฒฝํํ๊ฒ ํ๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ๋์ ํ์ง์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๊ฒ ํจ
- Adaptive Noise Scaling
- adaptive noise levels์ ์ง์ํ์ฌ, ๊ฐ ์คํ ์์ ๋ ธ์ด์ฆ์ ์์ ์ ์ฐํ๊ฒ ์กฐ์ ํ ์ ์์
- ์ด๋ ์ฌ์ฉ์๊ฐ ํน์ ์์ฑ ๊ณผ์ ์ ๋ง์ถฐ ๋ ธ์ด์ฆ๋ฅผ ์ธ๋ฐํ๊ฒ ์กฐ์ ํ ์ ์๊ฒ ํ์ฌ, ๋ค์ํ ์คํ์ผ๊ณผ ํ์ง์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ฐ ๋์์ ์ค
- Noise Injection Process
- ํ๋ผ๋ฏธํฐ ์: ์ฝ 9์ต ๊ฐ
- ์ ์ ์ฌํญ
- OpenCLIP ๋์ ์ผ๋ก ํฅ์๋ ํ ์คํธ-์ด๋ฏธ์ง ๋งคํ ์ฑ๋ฅ ๋๋ถ์, ํ ์คํธ์ ์ธ๋ถ ์กฐ๊ฑด์ ๋ฐ๋ฅธ ์ด๋ฏธ์ง์ ์ ํ์ฑ์ด ๊ฐ์ ๋์์ผ๋, ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ๋์ด ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์ ๊ฐ๋ฐ ํ๊ฒฝ์ ๋ฐ๋ฅธ ์กฐ์ ์ด ํ์ํจ.
3. Stable Diffusion XL (SDXL)
- ๊ณต๊ฐ ์๊ธฐ: 2023๋ ์ค๋ฐ์ SDXL ๋ชจ๋ธ์ด ๋ฐํ๋๋ฉฐ, ์ดํ 2024๋ ์ด๊น์ง ์ฑ๋ฅ ๊ฐ์ ์ ๋ฐ์ดํธ๊ฐ ์ง์๋จ.
- ์ฃผ์ ํน์ง
- ๊ธฐ์กด ๋ฒ์ ๋๋น ์์ฃผ ํฐ ๋ชจ๋ธ ์ฉ๋์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, 1024x1024 ์ด์์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์์.
- 3๋ฐฐ ๋ ํฐ U-Net ๋ชจ๋ธ ์ฌ์ฉ (์ฃผ๋ก attention block์ ์ฆ๊ฐ)
- ๋ค์ํ ์ข ํก๋น๋ก ํ์ต๋์ด ๋ค์ํ ํฌ๊ธฐ์ ๋น์จ์ ๋ง๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์์
- Conditioning schemes
- ์ด๋ฏธ์ง ์์ฑ์ ์ํ ์กฐ๊ฑด๋ถ ์ ๋ณด์ ํ์ฉ์ ๊ทน๋ํํ์ฌ ๋ชจ๋ธ์ ์ ์ฐ์ฑ์ ๋์ด๊ณ ๋ค์ํ ์คํ์ผ๊ณผ ํน์ฑ์ ๊ฐ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๊ฒ ํจ
- Conditioning Techniques: ๊ธฐ์กด Stable Diffusion ๋ชจ๋ธ์์ ์ฌ์ฉ๋๋ ๋จ์ผํ conditioning ๋ฐฉ๋ฒ์์ ๋ฒ์ด๋, ์ฌ๋ฌ ๊ฐ์ง ์๋ก์ด ๊ธฐ๋ฒ์ ํตํฉํ์ฌ ํ ์คํธ ํ๋กฌํํธ์ ์ด๋ฏธ์ง๋ฅผ ๋์ฑ ํจ๊ณผ์ ์ผ๋ก ์ฐ๊ฒฐํ ์ ์๋๋ก ์ค๊ณ๋จ. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์์ฑํ ์ด๋ฏธ์ง์ ํน์ฑ์ ๋ณด๋ค ๋ช ํํ ์ ์ํ๊ณ , ๋ค์ํ ์๊ตฌ์ฌํญ์ ๋ง์ถ ์ถ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๋ ๋ฐ ๊ธฐ์ฌํจ.
- Text-Image Alignment: ํ ์คํธ์ ์ด๋ฏธ์ง ๊ฐ์ ์ ๋ ฌ์ ๊ฐ์ ํ์ฌ, ์ ๋ ฅ๋ ํ ์คํธ ํ๋กฌํํธ์ ์๋ฏธ๋ฅผ ๋ ์ ๋ฐ์ํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๊ฒ ํจ. ์ด๋ ๋ชจ๋ธ์ด ๋ ๋ณต์กํ ํ ์คํธ ์ ๋ ฅ์ ์ฒ๋ฆฌํ๊ณ , ์ธ๋ถ ์ฌํญ์ด ์ ๋ฐ์๋ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค ์ ์๊ฒ ๊ฐ์ .
- Adaptive Conditioning: ์๋ก์ด conditioning ๋ฐฉ๋ฒ์ ๋ชจ๋ธ์ด ์ ๋ ฅ๋ ์กฐ๊ฑด์ ๋ฐ๋ผ ๋ ์ ์ ํ๊ฒ ์กฐ์ ๋๋๋ก ๊ฐ์ . ์๋ฅผ ๋ค์ด, ์ฌ์ฉ์ ์๊ตฌ์ ๋ฐ๋ผ ํน์ ์คํ์ผ์ด๋ ์ฃผ์ ๋ฅผ ๊ฐ์กฐํ ์ ์์ผ๋ฉฐ, ์ด๋ ์ฌ์ฉ์ ๋ง์ถคํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ฐ ๋งค์ฐ ์ ์ฉ
- ๊ฒฐ๊ณผ์ ์ผ๋ก, ์ด๋ฌํ ์๋ก์ด conditioning schemes๋ SDXL์ ์ด๋ฏธ์ง ์์ฑ ๋ฅ๋ ฅ์ ํ์ธต ๋ ๋ฐ์ ์์ผ, ์ฌ์ฉ์์๊ฒ ์ํ๋ ์ด๋ฏธ์ง๋ฅผ ๋ณด๋ค ์ ํํ๊ฒ ์์ฑํ ์ ์๋ ๋ฅ๋ ฅ์ ์ ๊ณตํฉ๋๋ค.
- Refinement model ์ ์ฉ
- SDXL์์ ์์ฑ๋ latent representations์ ์ ๊ตํ๊ฒ ๋ค๋ฌ๊ธฐ ์ํด noising-denoising process๋ฅผ ํ์ฉ. ์ด ๋ชจ๋ธ์ ์ด๊ธฐ ์์ฑ๋ ์ด๋ฏธ์ง๋ฅผ ๋์ฑ ํฅ์์ํค๋ ๊ธฐ๋ฅ์ ์ํ
- ๊ธฐ์กด์ latent representation์ ๋ ธ์ด์ฆ๋ฅผ ์ฃผ์ ํ ํ, ์ด๋ฅผ ์ ๊ฑฐํ๋ denoising ๊ณผ์ ์ ํตํด ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ . ์ด ๊ณผ์ ์์ ๋ชจ๋ธ์ ๋ ์ฌ์ธํ ์ธ๋ถ์ฌํญ๊ณผ ๊ตฌ์กฐ๋ฅผ ๋ณต์ํ ์ ์์ด ์ต์ข ์์ฑ๋ฌผ์ ํ์ง์ด ํฅ์๋จ
- Refinement model์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ํ์ตํ ํจํด๊ณผ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ์ฌ, ์ด๊ธฐ ์์ฑ๋ ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ํจํด์ ์ธ์ํจ
- ํน์ ์ํฉ์ด๋ ์๊ตฌ์ฌํญ์ ๋ง์ถฐ ์ด๋ฏธ์ง๋ฅผ ์กฐ์ ํ ์ ์๋ ์ ์ฐ์ฑ์ ์ ๊ณตํจ. ์๋ฅผ ๋ค์ด, ์ฌ์ฉ์๊ฐ ์ํ๋ ํน์ ์คํ์ผ์ด๋ ์ธ๋ถ์ฌํญ์ ๊ฐ์กฐํ ์ ์์ด, ๋ง์ถคํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ฐ ์ฉ์ดํฉ๋๋ค.
- ์ด์ ๋จ๊ณ์์ ์ด๋ฏธ ๋์ ํ์ง์ latent representation์ ์์ฑํ๋ ๋ฐ ํ์ํ ํน์ฑ์ ํ์ตํ๊ธฐ ๋๋ฌธ์, ๊ธฐ์กด์ ์์ฑ๋ ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ถ๊ฐ์ ์ธ ๊ฐ๋ ์์ด๋ ํ์ง์ ๊ฐ์ ํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ฒ ๋จ
- Refinement model์ ์ ์ฒด ํ์ต ๊ณผ์ ์์ latent diffusion model๊ณผ ํจ๊ป ํ์ต๋๋ฉฐ, ์ด๋ฏธ์ง ์์ฑ ์์๋ ์๋์ผ๋ก ์๋ํ์ฌ ์์ฑ๋ ์ด๋ฏธ์ง๋ฅผ ์ ๊ตํ๊ฒ ์์ . ์ด๋ฅผ ํตํด ์ต์ข ์ฌ์ฉ์์๊ฒ ๋์ ํ์ง์ ์ด๋ฏธ์ง๋ฅผ ์ ๊ณตํจ.
- ํ ์คํธ์ ์๋ฏธ๋ฅผ ๋ ๊น๊ฒ ์ดํดํ๊ณ ๋ฐ์ํ ์ ์๋ ๋ชจ๋ธ๋ก, ์ด๋ฏธ์ง์ ๋ํ ์ผ๊ณผ ์ธ๋ฐํ ํํ๋ ฅ์ด ํฌ๊ฒ ํฅ์๋จ.
- SDXL์ ํนํ ์ธ๋ถ ์ค์ ์ต์ ์ ๋ค์ ์ถ๊ฐํด, ์ํฐ์คํธ ๋ฐ ๋์์ด๋๊ฐ ๋ณด๋ค ์ธ๋ฐํ ์ปจํธ๋กค์ ํตํด ์ํ๋ ์ด๋ฏธ์ง ์คํ์ผ์ ์ป์ ์ ์๋๋ก ์ง์.
- ํ๋ผ๋ฏธํฐ ์: ์ฝ 20์ต ๊ฐ ์ด์