์์ฑ ๋ชจ๋ธ์์ Diffusion ๋ชจ๋ธ์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ํต์ฌ ๊ธฐ์ ๋ก ์ฃผ๋ชฉ๋ฐ๊ณ ์๋๋ฐ, ์ด ๋ชจ๋ธ์ ๋ ธ์ด์ฆ๋ฅผ ์ ์ ์ ๊ฑฐํด๊ฐ๋ฉฐ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค๋ ๊ฐ๋ ์ผ๋ก, Stable Diffusion, DALL·E 2 ๋ฑ ๋ค์ํ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ด ๋๊ณ ์๋ค.
์ด ๊ธ์์๋ Diffusion Model์ ๊ฐ๋ ๋ถํฐ ๊ฐ์ฅ ๊ธฐ๋ณธ์ด ๋๋ DDPM(Denoising Diffusion Probabilistic Model)์ ํ์ต ๋ฐ ์์ฑ ๊ณผ์ ์ ์ด์ ์ ๋ง์ถ์ด ์ค๋ช ํ๋ค. ์์๋ณด๋ค๋ ๊ฐ๋ ์ ์ค๋ช ์ ์ง์คํ๋ค.
1. Diffusion Model์ด๋?
๋ํจ์ ๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ์ ์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํด ์์ ํ ๋ฌด์์ํ ์ํ๋ก ๋ง๋ ๋ค, ๊ทธ ๋ฐ๋ ๊ณผ์ ์ ํตํด ๋ ธ์ด์ฆ์์ ์๋ณธ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ๋ ๋ฐฉ์์ด๋ค. ์ด ๊ณผ์ ์ ๋ ๋จ๊ณ๋ก ๋๋ ์ ์๋ค. ๋จผ์ forward process์์๋ ์๋ณธ ์ด๋ฏธ์ง์ ์กฐ๊ธ์ฉ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํด ์ ์ฐจ ์์์ํค๊ณ , ๋ง์ง๋ง์๋ ์์ํ ๋ ธ์ด์ฆ ์ํ๋ก ๋ง๋ ๋ค. ์ดํ reverse process์์๋ ๊ทธ ๋ ธ์ด์ฆ์์ ์ถ๋ฐํด ์ด๋ฏธ์ง๋ฅผ ํ ๋จ๊ณ์ฉ ๋ณต์ํด ๋๊ฐ๋ค.
์๋ฅผ ๋ค์ด ๊ณ ์์ด ์ฌ์ง์ด ์๋ค๋ฉด, forward ๊ณผ์ ์์๋ ์ฌ์ง์ด ์ ์ ๋ฟ์๊ฒ ๋ณํ๋ค๊ฐ ๊ฒฐ๊ตญ ํ์ ๋ ธ์ด์ฆ๋ง ๋จ๊ฒ ๋๋ค. ํ์ต์ด ๋๋ ๋ชจ๋ธ์ ์ด ํ์ ๋ ธ์ด์ฆ์์ ์์ํด, ๋ค์ ๊ณ ์์ด ์ฌ์ง์ ๋ง๋ค์ด๋ผ ์ ์๊ฒ ๋๋ค.
2. DDPM (Denoising Diffusion Probabilistic Models)
DDPM์ 2020๋ Ho et al.์ ๋ ผ๋ฌธ “Denoising Diffusion Probabilistic Models”์์ ์ฒ์ ์ ์๋์์ผ๋ฉฐ, ๋ํจ์ ๋ชจ๋ธ์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ํํ์ด๋ค. ์ด๋ฏธ์ง์ ๋ ธ์ด์ฆ๋ฅผ ์ ์ ๋ํด๊ฐ๋ฉฐ ๋ง๊ฐ๋จ๋ฆฌ๋ ๊ณผ์ ๊ณผ ๊ทธ ๋ฐ๋๋ก ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ฉด์ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ๋ ๊ณผ์ ์ ํ์ตํ๋ ๋ชจ๋ธ๋ก ์ด๋ฌํ ๊ณผ์ ์ ํตํด, ๋ฌด์์ ๋ ธ์ด์ฆ์์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๊ฒ ๋๋ ๊ฒ์ด DDPM์ ํต์ฌ์ด๋ค.
โ Forward Process
DDPM์์ ๋จผ์ ์ํ๋๋ ๊ฒ์ ์๋ณธ ์ด๋ฏธ์ง์ ์ ์ง์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ ๊ณผ์ ์ด๋ค. ์ด๊ฑด ํ์ต์ ์ํ ์ค๋น ๊ณผ์ ์ด๋ฉฐ, ๋ชจ๋ธ์ด ์ง์ ์ด ๊ณผ์ ์ ํ์ตํ์ง๋ ์๋๋ค. ๋จ์ง ์ ํด์ง ๋ฐฉ์์ ๋ฐ๋ผ ์๋ณธ์ ๋ ธ์ด์ฆ๋ก ๋ฐ๊พธ์ด๊ฐ๋ ์์ ์ด๋ค. ์๋ฅผ ๋ค์ด ๊ณ ์์ด ์ฌ์ง์ด ์๋ค๊ณ ํ์. ์ด ์ฌ์ง์ ์์ฃผ ์ฝ๊ฐ์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ฉด, ์ฌ์ ํ ๊ณ ์์ด์ ๋ชจ์ต์ด ๋ณด์ด์ง๋ง ์ด์ง ํ๋ฆฟํ ์ด๋ฏธ์ง๊ฐ ๋๋ค. ์ด๋ ๊ฒ 1,000๋ฒ ์ ๋ ๋ฐ๋ณตํด์ ๊ณ์ ๋ ธ์ด์ฆ๋ฅผ ๋ํ๋ฉด, ๊ฒฐ๊ตญ ์์ ํ ๋๋คํ ๋ ธ์ด์ฆ ์ด๋ฏธ์ง๊ฐ ๋๋ค. ์ด ๊ณผ์ ์ ํตํด ์ฐ๋ฆฌ๋ ์๋ณธ ์ด๋ฏธ์ง xโ์์ ์์ํด, ๋ ธ์ด์ฆ๊ฐ ์ ์ ๋ํด์ง ์ฌ๋ฌ ์ค๊ฐ ์ํ xโ๋ฅผ ๋ง๋ค ์ ์๋ค.
๊ทธ๋ฐ๋ฐ ์ค์ ํ์ต์์๋ ๋งค๋ฒ ์ด๋ ๊ฒ 1๋จ๊ณ์ฉ ๊ฑฐ์ณ์ xโ, xโ, ..., xโ๋ฅผ ๋ง๋๋ ๊ฒ ์๋๋ผ, xโ๊ณผ ๋๋คํ๊ฒ ์ํ๋งํ ๋ ธ์ด์ฆ ε, ๊ทธ๋ฆฌ๊ณ ๋ฌด์์๋ก ์ ํํ timestep t๋ฅผ ์ด์ฉํด ํ ๋ฒ์ xโ๋ฅผ ๋ง๋ค์ด๋ธ๋ค. ์ด ๋ฐฉ์ ๋๋ถ์ ๋ชจ๋ ์๊ฐ ์คํ ์ ์๋ฎฌ๋ ์ด์ ํ ํ์ ์์ด ํ์ต์ ํ์ํ ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์์ฑํ ์ ์๋ค.
์ค์ ํ์ต์์๋ ์ด๋ฏธ์ง ๋ฐฐ์น(batch)๋ฅผ ํ ๋ฒ์ ์ฌ๋ฌ ๊ฐ ๋ถ๋ฌ์จ ๋ค, ๊ฐ ์ด๋ฏธ์ง๋ง๋ค ๋ค๋ฅธ timestep t๋ฅผ ๋๋คํ๊ฒ ๋ฝ๊ณ , ์ด์ ํด๋นํ๋ ๋ ธ์ด์ฆ ε๋ ๊ฐ๊ฐ ์ํ๋งํด ์ฌ์ฉํ๋ค. ๊ทธ ๊ฒฐ๊ณผ ํ๋์ ๋ฐฐ์น ์์ ์๋ ๊ฐ ์ด๋ฏธ์ง๋ค์ ์๋ก ๋ค๋ฅธ ์ ๋์ ๋ ธ์ด์ฆ๊ฐ ์์ธ ์ํ๊ฐ ๋๋ค. ์ด๋ ๊ฒ ๋ง๋ค์ด์ง xโ๋ค๊ณผ ๊ฐ๊ฐ์ t๋ฅผ ๋ชจ๋ธ์ ์ ๋ ฅ์ผ๋ก ์ฃผ๊ณ , ๋ชจ๋ธ์ด ์์ธกํ ๋ ธ์ด์ฆ๊ฐ ์ค์ ๋ ธ์ด์ฆ ε๊ณผ ์ผ๋ง๋ ๊ฐ๊น์ด์ง๋ฅผ ๋น๊ตํด ํ์ตํ๋ค.
โ Reverse Process
์ด์ ์ง์ง ๋ชจ๋ธ์ด ํ์ตํด์ผ ํ๋ ๋ถ๋ถ์ ์ญ๋ฐฉํฅ ๊ณผ์ (reverse process)์ด๋ค. ์ฆ, ๋ ธ์ด์ฆ๊ฐ ์์ธ ์ด๋ฏธ์ง xโ์์ ์๋์ ์ด๋ฏธ์ง(๋๋ ๊ทธ์ ๊ฐ๊น์ด ์ด๋ฏธ์ง)๋ฅผ ์ด๋ป๊ฒ ๋ณต์ํ๋๋๊ฐ ํต์ฌ์ด๋ค.
ํ์ง๋ง DDPM์ ์ด๋ฏธ์ง ์์ฒด๋ฅผ ์ง์ ๋ณต์ํ๋ ค ํ์ง๋ ์๋๋ค. ๋์ ํจ์ฌ ๋จ์ํ ๋ฐฉ์์ผ๋ก ์ ๊ทผํ๋ค. ๋ฐ๋ก xโ์ ์์ฌ ์๋ ๋ ธ์ด์ฆ ε์ ์ ํํ ์์ธกํ๋ ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ ์ค์ํ ์ ์, ๋ชจ๋ธ์ด ์์ธกํ๋ ค๋ ๋ ธ์ด์ฆ๋ "๋ฐ๋ก ์ด์ ๋จ๊ณ์ธ xโโโ๊ณผ์ ์ฐจ์ด"๊ฐ ์๋๋ผ, xโ์์ t๋ฒ์งธ ์์ ๊น์ง ๋์ ๋์ด ์ถ๊ฐ๋ ์ ์ฒด ๋ ธ์ด์ฆ ε์ด๋ค.
๋ค์ ๋งํด, ๋ชจ๋ธ์ ๋ ธ์ด์ฆ๊ฐ ์์ธ ์ด๋ฏธ์ง xโ์ ํด๋น ์์ t๋ฅผ ์ ๋ ฅ๋ฐ๊ณ , ์ด ์ด๋ฏธ์ง์ ์์ฌ ์๋ ๋ ธ์ด์ฆ๊ฐ ๋ฌด์์ด์๋์ง๋ฅผ ์ถ์ ํ๋ค. ์ฐ๋ฆฌ๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค ๋ ์ฌ์ฉํ ์ค์ ๋ ธ์ด์ฆ ε์ ์๊ณ ์์ผ๋ฏ๋ก, ๋ชจ๋ธ์ด ์์ธกํ ๋ ธ์ด์ฆ์ ์ ๋ต ๋ ธ์ด์ฆ์ ์ฐจ์ด๋ฅผ ๋น๊ตํด์ ํ์ตํ ์ ์๋ค. ์ด ์์ธก ์ค์ฐจ๋ ํ๊ท ์ ๊ณฑ ์ค์ฐจ(MSE)๋ก ๊ณ์ฐ๋๋ฉฐ, ๊ทธ ๊ฐ์ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ๋ค.
ํ์ต์ ์ด๋ฐ ๊ณผ์ ์ ์์ฒ ๋ฒ ๋ฐ๋ณตํ๋ฉด์ ์ด๋ค์ง๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ์ ๋ค์ํ ์๊ฐ ์คํ ์ ๋ ธ์ด์ฆ๊ฐ ์์ธ ์ด๋ฏธ์ง์ ๋ํด ๋ ธ์ด์ฆ๋ฅผ ์ ํํ๊ฒ ์ ๊ฑฐํ ์ ์๋ ๋ฅ๋ ฅ์ ์ป๊ฒ ๋๋ค. ๋ฌด์์ ๋ ธ์ด์ฆ ์ํ์์๋ ์ ์ฐจ ์๋ฏธ ์๋ ์ด๋ฏธ์ง๋ก ๋ฐ๊ฟ๋๊ฐ ์ ์๊ฒ ๋๋ ๊ฒ์ด๋ค.
โ Inference
ํ์ต์ด ๋๋ ํ, DDPM์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๊ฒ ๋๋ค. ์์ฑ ๊ณผ์ ์์๋ ์์ ํ ๋ฌด์์ํ ๋ ธ์ด์ฆ ์ํ์ธ xโ(T ์์ ์ pure noise)์์ ์์ํ๋ค. ๊ทธ๋ฆฌ๊ณ ํ์ต๋ ๋ชจ๋ธ์ ์ด์ฉํด ๋ ธ์ด์ฆ๋ฅผ ํ ๋จ๊ณ์ฉ ์ ๊ฑฐํด ๋๊ฐ๋ฉฐ xโโโ, xโโโ, ..., xโ ์์ผ๋ก ์ด๋ํ๋ค. ๊ฐ ์คํ ์์๋ ๋ชจ๋ธ์ด ์์ธกํ ๋ ธ์ด์ฆ ε์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ์ํ๋ฅผ ๊ณ์ฐํ๊ณ , ์ด๋ฅผ ๋ฐ๋ณตํด์ ๊ฒฐ๊ตญ ์๋ณธ ์ด๋ฏธ์ง์ฒ๋ผ ๋ณด์ด๋ xโ์ ๋๋ฌํ๊ฒ ๋๋ค.
์ฆ, ํ์ต ๋จ๊ณ์์๋ xโ์์ xโ๊น์ง ํ ๋ฒ์ ์์ธ ๋์ ๋ ธ์ด์ฆ ε์ ์์ธกํ๋๋ก ํ์ตํ์ง๋ง, ์์ฑ(Inference) ๋จ๊ณ์์๋ ์ด ์์ธก๋ ๋ ธ์ด์ฆ๋ฅผ ํ์ฉํด ๋งค ์คํ ๋ง๋ค xโ์์ xโโโ์ผ๋ก ์ด๋ํ๋ ๊ณผ์ ์ ์์ฐจ์ ์ผ๋ก ์ํํ๋ค. ์ด๊ฒ ๊ฐ๋ฅํ ์ด์ ๋, ํ์ต๋ ๋ชจ๋ธ์ด ์์ธกํ ε์ ํ์ฉํด ์์์ ์ผ๋ก xโ๋ฅผ ๊ทผ์ฌํ ์ ์๊ณ , ๊ทธ ๊ทผ์ฌ๋ xโ์ ํ์ฌ ์ํ xโ๋ฅผ ์ด์ฉํด ๋ค์ ์ํ์ธ xโโโ์ ๊ณ์ฐํ๋ ๊ณต์์ด ์ด๋ฏธ ์ ์๋์ด ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ฆ, ๋ชจ๋ธ์ด ์์ธกํ๋ ๊ฐ์ ํญ์ ์ ์ฒด ๋ ธ์ด์ฆ์ง๋ง, ๊ทธ ์์ธก์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ์ํ๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ์์ ์ ํด์ง ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ํ๋๋ค.
์ด ๊ณผ์ ์ ์ดํฐ๋ฌํฐ๋ธํ๊ฒ ์๋ฐฑ ๋๋ ์์ฒ ๋จ๊ณ(T=1000 ๋ฑ) ๋์ ๋ฐ๋ณต๋๋ค. ๊ฐ ๋จ๊ณ๋ง๋ค ํ์ฌ ์ํ์ ๋ํด ๋ ธ์ด์ฆ๋ฅผ ์์ธกํ๊ณ ์ ๊ฑฐํ๋ ์์ผ๋ก ์ ์ง์ ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋ธ๋ค.
๐ก๊ทธ๋ผ ์ ํ์ต ๋์ฒ๋ผ ํ ๋ฒ์ ์ ์ฒด ๋ ธ์ด์ฆ๋ฅผ ์์ธกํด์ ํ ๋ฒ์ xโ์ ๋ง๋ค์ง ์๊ณ , ํ ๋จ๊ณ์ฉ ์ญ์ผ๋ก ๋๋๋ ค์ผ ํ ๊น?
์ด ์ง๋ฌธ์ ๋ํด ๋ ผ๋ฌธ์์๋ ์ด ๊ณผ์ ์ Progressive Lossy Decompression์ผ๋ก ์ค๋ช ํ๋ค. ์ด๋ ์คํ ๋ฆฌ๊ทธ๋ ์๋ธ ๋์ฝ๋ฉ์ ์ผ๋ฐํ๋ ํํ๋ก ๋ณผ ์ ์์ผ๋ฉฐ, ํ ๋ฒ์ ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ฒ๋ณด๋ค ๋ ์์ ์ ์ธ ์์ฑ์ด ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์๋ค. ๋ ผ๋ฌธ 4.3์ ์ ์คํ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, ๊ฐ ๋จ๊ณ๋ง๋ค ์ด๋ฏธ์ง ํ์ง(RMSE ๊ธฐ์ค)์ด ์ ์ง์ ์ผ๋ก ํฅ์๋๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ์์ ๋ ธ์ด์ฆ ์์ธก ์ค๋ฅ๊ฐ ํ ๋ฒ์ ์ ์ฒด xโ๋ฅผ ๋ง๋ค ๊ฒฝ์ฐ ์ด๋ฏธ์ง ์ ๋ฐ์ ํผ์ง๋ ์ค๋ฅ๋ก ์ด์ด์ง ์ ์๋ ๋ฐ๋ฉด, ์ฌ๋ฌ ์คํ ์ ๊ฑธ์ณ ์ ์ง์ ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ๋ฉด ๊ฐ ๋จ๊ณ์์์ ์ค๋ฅ๋ฅผ ๋ณด์ ํ ์ ์๋ค.
๊ฒฐ๊ตญ DDPM์ ๋๋ฆฌ์ง๋ง ๊ณ ํ์ง์ ์ด๋ฏธ์ง ์์ฑ์ ์ํด ์ด๋ฐ ์ ์ง์ ์ด๊ณ ๋ฐ๋ณต์ ์ธ ๋ณต์ ๋ฐฉ์์ ํํ ๊ฒ์ด๋ค.
ํ์ต ์์๋ ๋ชจ๋ธ์ด ‘์ด ์ด๋ฏธ์ง์ ์์ธ ์ ์ฒด ๋ ธ์ด์ฆ๋ ์ด๊ฑฐ์ผ’๋ผ๊ณ ์์ธกํ๋๋ก ํ์ต์ํค๊ณ ,
์ธํผ๋ฐ์ค ์์๋ ‘์ด ์ด๋ฏธ์ง์ ์์ธ ์ ์ฒด ๋ ธ์ด์ฆ๋ ์ด๊ฑด๋ฐ, ์ด๊ฑธ ๊ธฐ์ค์ผ๋ก ํ ์คํ ๋งํผ์ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํด๋ณผ๊ฒ’๋ผ๊ณ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค.
โ Model Architecture
DDPM์์ ์ฌ์ฉํ๋ ๋ชจ๋ธ์ ๊ธฐ๋ณธ์ ์ผ๋ก U-Net ๊ธฐ๋ฐ์ CNN์ด๋ค. ์ด๋ encoder-decoder ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์ ๋ ฅ ์ด๋ฏธ์ง์ ์ ๋ณด๋ฅผ ์ ์ง์ ์ผ๋ก ์ถ์ถํ๋ค๊ฐ ๋ค์ ๋ณต์ํ๋ ๋ฐฉ์์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. U-Net์ skip connection์ ํตํด ์ค๊ฐ feature๋ฅผ ์ ์งํจ์ผ๋ก์จ, ์ด๋ฏธ์ง ์ธ๋ถ ์ ๋ณด๋ฅผ ๋ณด์กดํ๋ฉฐ ๋ณต์์ด ๊ฐ๋ฅํ๊ฒ ํด์ค๋ค.
์ฌ๊ธฐ์ ์๊ฐ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํ ๋ณ๋์ ๊ตฌ์ฑ ์์๊ฐ ์๋ค. timestep t๋ ์์น๊ฐ์ผ๋ก ์ ๋ ฅ๋๊ธฐ ๋๋ฌธ์, ๋จผ์ sin/cos ๊ธฐ๋ฐ์ positional embedding์ผ๋ก ๋ณํ๋๊ณ , MLP๋ฅผ ๊ฑฐ์ณ ๊ณ ์ฐจ์ ๋ฒกํฐ๋ก ํ์ฅ๋๋ค. ์ด ์๋ฒ ๋ฉ์ ๋คํธ์ํฌ์ ๊ฐ ๋ ์ด์ด์ ์ฃผ์ ๋๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก residual block ๋ด๋ถ์์ scale & shift ํํ๋ก normalization ๋ค์ ์ ์ฉ๋๊ฑฐ๋, feature map์ ์ง์ ๋ํด์ง๋ ๋ฐฉ์์ผ๋ก ์๋ํ๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ํ์ฌ ์์ ์ด ์ด๋ ๋จ๊ณ(timestep)์ธ์ง๋ฅผ ๊ณ ๋ คํ๋ฉด์ ๋ ธ์ด์ฆ ์ ๊ฑฐ๋ฅผ ์ํํ ์ ์๋ค.
๋ํ U-Net ๊ตฌ์กฐ์๋ ์ค๊ฐ ํด์๋์์ self-attention ๋ชจ๋์ด ์ฝ์ ๋๊ธฐ๋ ํ๋ฉฐ, ์ด๋ ์ ์ญ์ ์ธ ์ด๋ฏธ์ง ์์ญ ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ์ด ํ์ตํ ์ ์๋๋ก ๋์์ค๋ค. ์ด๋ฌํ ๊ตฌ์กฐ ๋๋ถ์ DDPM์ ๊ฐ ์๊ฐ ์คํ ์์์ ์ ๋ ฅ ๋ ธ์ด์ฆ๋ฅผ ์ ์ดํดํ๊ณ , ์ ์ง์ ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํด ๋๊ฐ๋ ๋ฐ ํจ๊ณผ์ ์ธ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ถ๋ค. Stable Diffusion, Imagen, DALL·E 3 ๋ฑ ์ต๊ทผ ๋ํจ์ ๋ชจ๋ธ๋ค๋ ์ด ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ๋ณํ๊ณผ ์กฐ๊ฑด๋ถ ์์(Cross-Attention, Text Encoder ๋ฑ)๋ฅผ ๋ํด ๋ฐ์ ํ๊ณ ์๋ค.
3. ํ์ฅ๊ณผ ์์ฉ: DDPM ์ดํ์ ๋ฐ์ ๋ฐฉํฅ
DDPM์ ๋ํจ์ ๋ชจ๋ธ์ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋ฅผ ์ ์ํ ์ดํ, ๋ค์ํ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ํ๊ณ ์๋ค. ๊ฐ์ฅ ๋จผ์ ์ฃผ๋ชฉ๋ฐ์ ๊ฐ์ ์ ์ ์ํ๋ง ์๋๋ค. DDPM์ ์ต๋ 1,000๋ฒ์ ์คํ ์ ๊ฑฐ์ณ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ๋๋ฌธ์ ๋๋ฆด ์๋ฐ์ ์์๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ฌ๋ฌ ๊ฐ์ํ ๊ธฐ๋ฒ๋ค์ด ์ ์๋์๋ค. ๋ํ์ ์ผ๋ก DDIM(Denoising Diffusion Implicit Models)์ ๋ง๋ฅด์ฝํ ์ฒด์ธ์ ๋น๊ฒฐ์ ์ (deterministic) ๋ฐฉ์์ผ๋ก ๋ฐ๊พธ์ด ํจ์ฌ ์ ์ ์คํ ์์๋ ๊ณ ํ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋๋ก ํ๋ค. ์ดํ PNDM, FastDPM, ๊ทธ๋ฆฌ๊ณ ์ต๊ทผ์๋ Consistency Model ๋ฑ ์์ญ ์คํ ๋ด์ธ๋ก๋ ์์ ์ ์ธ ์ํ๋ง์ด ๊ฐ๋ฅํ ๋ชจ๋ธ๋ค์ด ๋ฑ์ฅํ๊ณ ์๋ค.
๋ ํ๋์ ์ค์ํ ๋ฐ์ ๋ฐฉํฅ์ ์กฐ๊ฑด๋ถ ์์ฑ(Conditional Generation)์ด๋ค. ํ ์คํธ๋ฅผ ์กฐ๊ฑด์ผ๋ก ์ด๋ฏธ์ง ์์ฑ์ด ๊ฐ๋ฅํ ํ ์คํธ-ํฌ-์ด๋ฏธ์ง(text-to-image) ๋ชจ๋ธ์ด ๋ํ์ ์ด๋ฉฐ, Classifier-Free Guidance ๊ธฐ๋ฒ์ด ํ์ค์ฒ๋ผ ์ฌ์ฉ๋๋ค. Stable Diffusion, DALL·E 2, Imagen, Kandinsky ๋ฑ์ ๋ชจ๋ธ์ ์ด๋ฌํ ๊ธฐ์ ์ ํ์ฉํด ํ ์คํธ๋ฅผ ์ดํดํ๊ณ ๊ทธ์ ๋ง๋ ์ด๋ฏธ์ง๋ฅผ ๋งค์ฐ ์ ๊ตํ๊ฒ ์์ฑํ๋ค. ์ต๊ทผ์๋ ์ด ์กฐ๊ฑด๋ถ ์์ฑ์ ๋์ด, ์คํ์ผ ์ ์ด๋ ์ธ๋ถํ๋ ์กฐ์๊น์ง ๊ฐ๋ฅํ ์ปจํธ๋กค ๊ฐ๋ฅํ ์์ฑ(controlled generation)์ผ๋ก ํ์ฅ๋๊ณ ์๋ค.
์์ฉ ๋ถ์ผ๋ ๋จ์ํ ์ด๋ฏธ์ง ์์ฑ์์ ํฌ๊ฒ ํ์ฅ๋์๋ค. ์ด๋ฏธ์ง ํธ์ง(inpainting, outpainting), ํด์๋ ๋ณต์(super-resolution), ์คํ์ผ ๋ณํ(style transfer), ๊ตฌ์กฐ ๊ธฐ๋ฐ ์์ฑ(layout-to-image) ๋ฑ ๋ค์ํ ์ด๋ฏธ์ง ์กฐ์์ ๋ํจ์ ๋ชจ๋ธ์ด ์ ์ฉ๋๊ณ ์๋ค. ๋ํ 2024๋ ๋ถํฐ๋ ์ฌ์ ํ์ต๋ 2D diffusion ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก 3D ๋ชจ๋ธ์ ์์ฑํ๋ ค๋ ์๋๋ค์ด ๋ณธ๊ฒฉํ๋์๋ค. DreamFusion, Score Jacobian Chaining(SJC), Zero-1-to-3 ๋ฑ์ ์ฐ๊ตฌ๋ ํ ์คํธ ๋๋ ๋จ์ผ ์ด๋ฏธ์ง๋ก๋ถํฐ 3D ๋ณผ๋ฅจ(์: ๋ฐ๋ ํ๋)์ ์์ฑํ๊ณ , ์ฌ๊ธฐ์ Marching Cubes ๊ฐ์ ๊ธฐ๋ฒ์ ์ ์ฉํด 3D mesh๋ฅผ ์ถ์ถํ๋ ๋ฐฉ์์ผ๋ก ๋ฐ์ ํ๊ณ ์๋ค.
2025๋ ๋ค์ด์๋ ์ด๋ฏธ์ง ์ค์ฌ์์ ๋ฉํฐ๋ชจ๋ฌ ์์ฑ(multimodal generation)์ผ๋ก ํ์ฅ์ด ๋น ๋ฅด๊ฒ ์งํ๋๊ณ ์๋ค. ์ต๊ทผ์๋ ์ค๋์ค-๋น๋์ค ๋ํจ์ ๋ชจ๋ธ์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์์ผ๋ฉฐ, 'Dimitra'๋ 'DiffListener'์ฒ๋ผ ์์ฑ์์ ์์ฐ์ค๋ฌ์ด ์ผ๊ตด ์์ง์์ ์์ฑํ๊ฑฐ๋, ๋ํ ๋งฅ๋ฝ์ ๋ฐ๋ฅธ ๋ฆฌ์ก์ ์์ฑ๊น์ง ์ํํ ์ ์๋ ์ฐ๊ตฌ๋ค์ด ํ๋ฐํ๋ค. ํ ์คํธ, ์ด๋ฏธ์ง, ์์ฑ, ์์ ๋ฐ์ดํฐ๋ฅผ ํตํฉํด ๋ค์ค ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ์ฒ๋ฆฌํ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ํจ์ ๋ชจ๋ธ๋ ์ ์ ์ฆ๊ฐํ๊ณ ์๋ค.