[Gen AI] Diffusion Model๊ณผ DDPM ๊ฐœ๋… ์„ค๋ช…
ยท
๐Ÿ› Research/Generative AI
์ƒ์„ฑ ๋ชจ๋ธ์—์„œ Diffusion ๋ชจ๋ธ์€ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ํ•ต์‹ฌ ๊ธฐ์ˆ ๋กœ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ๋Š”๋ฐ, ์ด ๋ชจ๋ธ์€ ๋…ธ์ด์ฆˆ๋ฅผ ์ ์  ์ œ๊ฑฐํ•ด๊ฐ€๋ฉฐ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•œ๋‹ค๋Š” ๊ฐœ๋…์œผ๋กœ, Stable Diffusion, DALL·E 2 ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์˜ ๊ธฐ๋ฐ˜์ด ๋˜๊ณ  ์žˆ๋‹ค. ์ด ๊ธ€์—์„œ๋Š” Diffusion Model์˜ ๊ฐœ๋…๋ถ€ํ„ฐ ๊ฐ€์žฅ ๊ธฐ๋ณธ์ด ๋˜๋Š” DDPM(Denoising Diffusion Probabilistic Model)์˜ ํ•™์Šต ๋ฐ ์ƒ์„ฑ ๊ณผ์ •์— ์ดˆ์ ์„ ๋งž์ถ”์–ด ์„ค๋ช…ํ•œ๋‹ค. ์ˆ˜์‹๋ณด๋‹ค๋Š” ๊ฐœ๋…์  ์„ค๋ช…์— ์ง‘์ค‘ํ–ˆ๋‹ค.1. Diffusion Model์ด๋ž€?๋””ํ“จ์ „ ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ์— ์ ์  ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•ด ์™„์ „ํžˆ ๋ฌด์ž‘์œ„ํ•œ ์ƒํƒœ๋กœ ๋งŒ๋“  ๋’ค, ๊ทธ ๋ฐ˜๋Œ€ ๊ณผ์ •์„ ํ†ตํ•ด ๋…ธ์ด์ฆˆ์—์„œ ์›๋ณธ ์ด๋ฏธ์ง€๋ฅผ ๋ณต์›ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ์ด ๊ณผ์ •์„ ๋‘ ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค. ..
[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION
ยท
๐Ÿ› Research/Generative AI
1. ์—ฐ๊ตฌ ์ฃผ์ œ์™€ ์ฃผ์š” ๊ธฐ์—ฌDreamFusion์€ 2D text-to-image diffusion model์„ ํ™œ์šฉํ•ด 3D ๊ฐ์ฒด๋ฅผ ์ƒ์„ฑํ•˜๋Š” text-to-3D ํ•ฉ์„ฑ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. โœ… ์ฃผ์š” ๊ธฐ์—ฌ3D ๋ฐ์ดํ„ฐ๋‚˜ 3D ํ•™์Šต์ด ์ „ํ˜€ ์—†์ด, 2D diffusion model๋งŒ์œผ๋กœ 3D ์žฅ๋ฉด์„ ์ƒ์„ฑํ•˜๋Š” end-to-end pipeline์„ ๊ตฌ์ถ•Score Distillation Sampling (SDS)์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ์ตœ์ ํ™” ๊ธฐ๋ฐ˜ ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•์„ ๊ณ ์•ˆํ•˜์—ฌ, pretrained ์ด๋ฏธ์ง€ diffusion model์„ 3D ํ•™์Šต์˜ loss๋กœ ํ™œ์šฉNeRF๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ 3D ๋ณผ๋ฅจ์„ ํŒŒ๋ผ๋ฏธํ„ฐํ™”ํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ๊ฐ๋„์—์„œ ์ผ๊ด€๋œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ 2. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๊ด€๋ จ ์—ฐ๊ตฌ ๋™ํ–ฅโœ… Text-to-Image Synthesis์ตœ๊ทผ..
[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] Zero-1-to-3: Zero-shot One Image to 3D Object | Single-view object reconstruction
ยท
๐Ÿ› Research/Generative AI
1. ์—ฐ๊ตฌ ์ฃผ์ œ์™€ ์ฃผ์š” ๊ธฐ์—ฌ Zero-1-to-3๋Š” ๋‹จ ํ•˜๋‚˜์˜ RGB ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ์ƒˆ๋กœ์šด ์นด๋ฉ”๋ผ ์‹œ์ ์—์„œ์˜ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ๋‚˜์•„๊ฐ€ 3D ๋ณต์›๊นŒ์ง€ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” zero-shot ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค. ๊ธฐ์กด์—๋Š” ๋ฉ€ํ‹ฐ ๋ทฐ ๋˜๋Š” 3D ์ •๋ณด๊ฐ€ ํ•„์š”ํ–ˆ๋˜ ๋ฌธ์ œ๋ฅผ, Stable Diffusion๊ณผ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ์ œ์•ฝ ์—†์ด ํ•™์Šตํ•˜์ง€ ์•Š์€ ๋ฐ์ดํ„ฐ์—์„œ๋„ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ™•๋ณดํ•œ๋‹ค๋Š” ์ ์ด ์ฃผ์š” ์ฐจ๋ณ„์ ์ด๋‹ค. โœ… ์ฃผ์š” ๊ธฐ์—ฌStable Diffusion์„ ํ™œ์šฉํ•˜์—ฌ camera viewpoint control์ด ๊ฐ€๋Šฅํ•œ ์กฐ๊ฑด๋ถ€ image-to-image ๋ณ€ํ™˜ ํ•™์ŠตZero-shot 3D reconstruction์„ ์œ„ํ•œ viewpoint-conditioned diffusion ๋ชจ๋ธ ์ œ์•ˆObjaverse ๊ธฐ๋ฐ˜ ํ•™์Šต ํ›„์—..
[Gen AI] Stable Diffusion: ์ด๋ฏธ์ง€ ์ƒ์„ฑ AI ์ดํ•ดํ•˜๊ธฐ
ยท
๐Ÿ› Research/Generative AI
AI๋ฅผ ํ™œ์šฉํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๊ธฐ์ˆ ์€ ๋‹จ์ˆœํ•œ ํ”ฝ์…€ ๋‹จ์œ„์˜ ๋ณ€ํ˜•์„ ๋„˜์–ด, ๊ณ ์œ ํ•œ ์˜ˆ์ˆ ์  ์ฐฝ์˜์„ฑ์„ ๋‹ด์•„๋‚ด๋Š” ๋‹จ๊ณ„์— ์ด๋ฅด๋ €๋‹ค. AI๋Š” ์ด์ œ ํ…์ŠคํŠธ์™€ ๊ฐ™์€ ๊ฐ„๋‹จํ•œ ์กฐ๊ฑด์—์„œ๋ถ€ํ„ฐ ๋ณต์žกํ•œ ์ด๋ฏธ์ง€ ๋””ํ…Œ์ผ๊นŒ์ง€, ์‚ฌ์šฉ์ž ์š”๊ตฌ์— ๋งž์ถฐ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ๋ฆ„์˜ ์„ ๋‘์— ์žˆ๋Š” ๊ธฐ์ˆ  ์ค‘ ํ•˜๋‚˜๊ฐ€ Stable Diffusion์ด๋‹ค. ์ด ๋ชจ๋ธ์€ ๊ธฐ์กด์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ๋“ค์ด ๊ฒช๋˜ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์กฐ๊ฑด์—์„œ๋„ ํšจ์œจ์ ์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค. Stable Diffusion์˜ ๊ตฌ์กฐ์™€ ํ•™์Šต ๋ฐฉ์‹์„ ์ดํ•ดํ•˜๋ฉด ์ด๋ฏธ์ง€ ์ƒ์„ฑ AI๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ฐœ์ „ํ•ด์™”๊ณ , ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ๋” ์ฐฝ์˜์ ์ธ ๊ฒฐ๊ณผ๋ฌผ์„ ๋งŒ๋“ค์–ด๋‚ด๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ๋‹ค. Diffusion Model ?Diffusion model์€ ๋ฐ์ดํ„ฐ์— ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ..
VAE (Variational Autoencoder) ์„ค๋ช… | VAE Pytorch ์ฝ”๋“œ ์˜ˆ์‹œ
ยท
๐Ÿ› Research/Generative AI
VAE (Variational Autoencoder)   VAE(Variational Autoencoder)๋Š” ์ƒ์„ฑ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜๋กœ, ์ฃผ๋กœ ์ฐจ์› ์ถ•์†Œ ๋ฐ ์ƒ์„ฑ ์ž‘์—…์— ์‚ฌ์šฉ๋˜๋Š” ์‹ ๊ฒฝ๋ง ์•„ํ‚คํ…์ฒ˜์ด๋‹ค. VAE๋Š” ๋ฐ์ดํ„ฐ์˜ ์ž ์žฌ ๋ณ€์ˆ˜๋ฅผ ํ•™์Šตํ•˜๊ณ  ์ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š”๋ฐ, ํŠนํžˆ ์ด๋ฏธ์ง€ ๋ฐ ์Œ์„ฑ ์ƒ์„ฑ๊ณผ ๊ฐ™์€ ์‘์šฉ ๋ถ„์•ผ์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ VAE๋Š” ํฌ๊ฒŒ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋ผ๋Š” ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค. Autoencoder(์˜คํ† ์ธ์ฝ”๋”)์™€ ํ—ท๊ฐˆ๋ฆด ์ˆ˜ ์žˆ๋Š”๋ฐ, ์˜คํ† ์ธ์ฝ”๋”๋Š” ์ธํ’‹์„ ๋˜‘๊ฐ™์ด ๋ณต์›ํ•  ์ˆ˜ ์žˆ๋Š” latent variable z๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ๋ชฉ์ , ์ฆ‰ ์ธ์ฝ”๋”๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์ฃผ ๋ชฉ์ ์ด๊ณ ,VAE์˜ ๊ฒฝ์šฐ ์ธํ’‹ x๋ฅผ ์ž˜ ํ‘œํ˜„ํ•˜๋Š” latent vector๋ฅผ ์ถ”์ถœํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์ธํ’‹..
[๊ธฐ์ˆ  ์†Œ๊ฐœ] Text-to-Image Generation | ์ด๋ฏธ์ง€ ์ƒ์„ฑ AI | DALL-E | GPT | dVAE
ยท
๐Ÿ› Research/Generative AI
Text to Image Generation Text to Image generation์€ ํ…์ŠคํŠธ ์ •๋ณด๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„์„œ ํ•ด๋‹น ํ…์ŠคํŠธ์— ํ•ด๋‹นํ•˜๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ธฐ์ˆ ์ด๋‹ค. ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ์ˆ ์˜ ๋ฐœ์ „์œผ๋กœ ์ธํ•ด 2010๋…„๋Œ€ ์ค‘๋ฐ˜๋ถ€ํ„ฐ ๊ฐœ๋ฐœ๋˜๊ธฐ ์‹œ์ž‘ํ•ด 2022๋…„์—๋Š” OpenAI์˜ DALL-E 2 , Google Brain์˜ Imagen , StabilityAI์˜ Stable Diffusion ๊ณผ ๊ฐ™์€ ์ตœ์ฒจ๋‹จ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ๋ฌผ์ด ์‹ค์ œ ์‚ฌ์ง„๊ณผ ์‚ฌ๋žŒ์ด ๊ทธ๋ฆฐ ์˜ˆ์ˆ ํ’ˆ์˜ ํ’ˆ์งˆ์— ์ ‘๊ทผํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ๋‹ค. Text to Image generation์—์„œ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์ด๋Ÿฌํ•œ GAN(Generative Adversarial Networks) ๋ชจ๋ธ์„ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ์Œ์œผ๋กœ ์ด๋ฃจ๋Š” ๋ฐ์ดํ„ฐ์…‹์„ ํ•™์Šต์‹œ์ผœ์„œ ๊ตฌํ˜„ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, "..