[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION

2025. 3. 23. 20:47ยท๐Ÿ› Research/Generative AI
๋ฐ˜์‘ํ˜•

1. ์—ฐ๊ตฌ ์ฃผ์ œ์™€ ์ฃผ์š” ๊ธฐ์—ฌ

DreamFusion์€ 2D text-to-image diffusion model์„ ํ™œ์šฉํ•ด 3D ๊ฐ์ฒด๋ฅผ ์ƒ์„ฑํ•˜๋Š” text-to-3D ํ•ฉ์„ฑ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. 

โœ… ์ฃผ์š” ๊ธฐ์—ฌ

  • 3D ๋ฐ์ดํ„ฐ๋‚˜ 3D ํ•™์Šต์ด ์ „ํ˜€ ์—†์ด, 2D diffusion model๋งŒ์œผ๋กœ 3D ์žฅ๋ฉด์„ ์ƒ์„ฑํ•˜๋Š” end-to-end pipeline์„ ๊ตฌ์ถ•
  • Score Distillation Sampling (SDS)์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ์ตœ์ ํ™” ๊ธฐ๋ฐ˜ ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•์„ ๊ณ ์•ˆํ•˜์—ฌ, pretrained ์ด๋ฏธ์ง€ diffusion model์„ 3D ํ•™์Šต์˜ loss๋กœ ํ™œ์šฉ
  • NeRF๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ 3D ๋ณผ๋ฅจ์„ ํŒŒ๋ผ๋ฏธํ„ฐํ™”ํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ๊ฐ๋„์—์„œ ์ผ๊ด€๋œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ

 

2. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๊ด€๋ จ ์—ฐ๊ตฌ ๋™ํ–ฅ

โœ… Text-to-Image Synthesis

์ตœ๊ทผ DALL-E, Imagen, GLIDE ๋“ฑ์˜ ๋ชจ๋ธ๋“ค์ด ๋Œ€๊ทœ๋ชจ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ํŽ˜์–ด๋กœ ํ•™์Šต๋˜์–ด ๊ณ ํ’ˆ์งˆ์˜ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ํ•ฉ์„ฑ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ๋‹ค. ํŠนํžˆ diffusion model์€ ์•ˆ์ •์ ์ด๊ณ  scalableํ•œ ํ•™์Šต ๋ฐฉ์‹ ๋•๋ถ„์— text-to-image ๋ถ„์•ผ์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ๋‹ค.

โœ… Text-to-3D์˜ ํ•„์š”์„ฑ

๊ฒŒ์ž„, ์˜ํ™”, VR ๋“ฑ ๋งŽ์€ ๋””์ง€ํ„ธ ์ฝ˜ํ…์ธ ๋Š” 3D ์ž์‚ฐ์„ ํ•„์š”๋กœ ํ•˜์ง€๋งŒ, ์ง์ ‘ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ ์‹œ๊ฐ„์ด ๋งŽ์ด ์†Œ์š”๋œ๋‹ค. ์ด์— ๋”ฐ๋ผ ํ…์ŠคํŠธ ์ž…๋ ฅ๋งŒ์œผ๋กœ 3D ๊ฐ์ฒด๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ž๋™ํ™” ๊ธฐ์ˆ ์ด ํ•„์š”ํ•˜๋‹ค.

โœ… ๊ธฐ์กด 3D ์ƒ์„ฑ ๋ฐฉ์‹์˜ ํ•œ๊ณ„

  • ๋Œ€๋ถ€๋ถ„์˜ 3D ์ƒ์„ฑ ๊ธฐ๋ฒ•์€ voxel, point cloud, mesh ๋“ฑ ๋ช…์‹œ์  3D ํ‘œํ˜„์„ ํ•„์š”๋กœ ํ•จ.
  • CLIP ๊ธฐ๋ฐ˜์˜ Dream Fields ๋“ฑ์€ 2D ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ joint embedding์„ ํ™œ์šฉํ–ˆ์œผ๋‚˜, ์‚ฌ์‹ค๊ฐ ์žˆ๋Š” geometry๊ฐ€ ๋ถ€์กฑํ•จ.
  • ๊ธฐ์กด GAN ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ•์€ ์ œํ•œ๋œ ํด๋ž˜์Šค์—์„œ๋งŒ ํšจ๊ณผ์ ์ž„.

 

3. ์ฃผ์š” ์ œ์•ˆ

 

 

โœ… ํ•ต์‹ฌ ์•„์ด๋””์–ด

 

DreamFusion์˜ ํ•ต์‹ฌ์€, ๊ธฐ์กด์˜ 2D ์ด๋ฏธ์ง€ ์ƒ์„ฑ์šฉ diffusion model์„ 3D ๋ชจ๋ธ ํ•™์Šต์— "loss function"์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ฆ‰, diffusion model์ด ์˜ˆ์ธกํ•œ ๋…ธ์ด์ฆˆ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ NeRF์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๊ตฌ์กฐ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ์ด๋ฏธ์ง€ ์ƒ์„ฑ์ด ์•„๋‹Œ, NeRF๊ฐ€ ํ…์ŠคํŠธ์— ๋ถ€ํ•ฉํ•˜๋Š” 3D ๊ตฌ์กฐ๋ฅผ ์ƒ์„ฑํ•˜๊ฒŒ ํ•œ๋‹ค.

 

๋””ํ“จ์ „ ๋ชจ๋ธ๊ณผ NeRF๋Š” ์™„์ „ํžˆ ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ๋ชจ๋ธ์ธ๋ฐ, ์–ด๋–ป๊ฒŒ ํ•œ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ํ•™์Šตํ• ๊นŒ? ๋ผ๋Š” ์˜๋ฌธ์ด ๋“ ๋‹ค.

๊ฐ„๋‹จํ•˜๊ฒŒ๋Š” ๋””ํ“จ์ „ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€ ํ’ˆ์งˆ์„ ํŒ๋‹จํ•ด์ฃผ๋Š” ํ‰๊ฐ€์ž, NeRF๋Š” ๊ทธ ํŒ๋‹จ์„ ๋”ฐ๋ผ ์กฐ์ •๋˜๋Š” ์ƒ์„ฑ์ž์˜ ๋А๋‚Œ์œผ๋กœ ๋ณด๋ฉด ๋œ๋‹ค.

 

- ๋””ํ“จ์ „ ๋ชจ๋ธ: "์ด ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ๊ฐ€ ์„œ๋กœ ์–ด์šธ๋ฆฌ๋ ค๋ฉด ์ด๋ ‡๊ฒŒ ๋ฐ”๊ฟ”์•ผ๋จ!"

- NeRF: "ใ…‡ใ…‹ ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฐ”๊ฟ”๋ณผ๊ฒŒ~"

 

 

โœ… Score Distillation Sampling (SDS)

 

SDS๋Š” DreamFusion์ด ์ œ์•ˆํ•œ ์ƒˆ๋กœ์šด ์ตœ์ ํ™” ๊ธฐ๋ฐ˜ ์ƒ˜ํ”Œ๋ง ๋ฐฉ์‹์ด๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ diffusion model์€ ํ”ฝ์…€ ๊ณต๊ฐ„์—์„œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜์ง€๋งŒ, ์ด ์—ฐ๊ตฌ์—์„œ๋Š” NeRF ํŒŒ๋ผ๋ฏธํ„ฐ ๊ณต๊ฐ„์—์„œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๊ณ ์ž ํ•˜๋ฉฐ ์ด๋ฅผ ์œ„ํ•ด ๋‹ค์Œ ๊ณผ์ •์„ ๊ฑฐ์นœ๋‹ค.

  1. ํ…์ŠคํŠธ์™€ ๋žœ๋ค ์นด๋ฉ”๋ผ ๋ทฐ๋กœ๋ถ€ํ„ฐ NeRF๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€๋ฅผ ๋ Œ๋”๋ง
  2. ์ด ์ด๋ฏธ์ง€๋ฅผ diffusion model์— ์ž…๋ ฅํ•˜๊ณ , ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๋…ธ์ด์ฆˆ์™€ ์‹ค์ œ ๋…ธ์ด์ฆˆ์˜ ์ฐจ์ด๋ฅผ ๊ณ„์‚ฐํ•จ
  3. ์ด ์ฐจ์ด๋ฅผ ํ†ตํ•ด gradient๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ  NeRF ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•จ

๊ธฐ์กด์˜ diffusion training loss๋Š” U-Net ๋‚ด๋ถ€๊นŒ์ง€ ์—ญ์ „ํŒŒ๋˜์–ด์•ผ ํ•˜๋ฏ€๋กœ ๋น„ํšจ์œจ์ ์ด๊ณ  ๋ถˆ์•ˆ์ •ํ•˜๋‹ค. DreamFusion์€ U-Net์˜ Jacobian์„ ์ƒ๋žตํ•˜๊ณ , ๋Œ€์‹  ๋””ํ“จ์ „ ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๋…ธ์ด์ฆˆ๋งŒ์„ ํ™œ์šฉํ•ด ํšจ๊ณผ์ ์ธ gradient๋ฅผ ๊ตฌ์„ฑํ•œ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ๋Š” ํ™•๋ฅ  ๋ฐ€๋„ ์‚ฌ์ด์˜ KL divergence๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ํ˜•ํƒœ๋กœ, ์ด ๊ณผ์ •์„ ํ†ตํ•ด ํŒŒ๋ผ๋ฏธํ„ฐ ๊ณต๊ฐ„์—์„œ ์ƒ˜ํ”Œ๋ง์ด ๊ฐ€๋Šฅํ•ด์ง„๋‹ค. SDS๋Š” ์ตœ์ ํ™”๋งŒ์œผ๋กœ ๊ณ ํ’ˆ์งˆ ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ„๋‹จํ•˜๋ฉด์„œ ๊ฐ•๋ ฅํ•œ ๋ฐฉ๋ฒ•์ด๋‹ค.

 

SDS๋Š” Diffusion Model์ด ์˜ˆ์ธกํ•œ ๋…ธ์ด์ฆˆ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•ด NeRF๋ฅผ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“œ๋Š” Loss Function์ด๋ผ ๋ณด๋ฉด ๋œ๋‹ค.

 

โ‰๏ธ SDS๊ฐ€ ์—†์—ˆ๋‹ค๋ฉด?

  • ๋””ํ“จ์ „ ๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ๋ฅผ NeRF ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ์— ์–ด๋–ป๊ฒŒ ์จ์•ผํ• ์ง€ ์•Œ ์ˆ˜ ์—†์Œ
  • ๋””ํ“จ์ „ loss๋ฅผ ๊ทธ๋ƒฅ ์“ฐ๋ ค๋ฉด, ๋””ํ“จ์ „ ๋ชจ๋ธ ์ „์ฒด(U-Net)๋ฅผ ์—ญ์ „ํŒŒํ•ด์•ผ ํ•จ

 

โœ… NeRF๋ฅผ ํ™œ์šฉํ•œ 3D ํ‘œํ˜„

DreamFusion์€ ์žฅ๋ฉด์„ NeRF ๊ตฌ์กฐ๋กœ ํ‘œํ˜„ํ•˜๋ฉฐ, ์ด NeRF๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ตฌ์„ฑ์œผ๋กœ ์„ค๊ณ„๋œ๋‹ค.

  • MLP๋ฅผ ํ†ตํ•ด ์œ„์น˜(3D ์ขŒํ‘œ)์— ๋Œ€ํ•ด volumetric density(๋ฐ€๋„)์™€ albedo(ํ‘œ๋ฉด ์ƒ‰์ƒ)๋ฅผ ์ถœ๋ ฅํ•จ
  • ๊ฐ ํ”ฝ์…€์— ๋Œ€ํ•ด ray๋ฅผ ์˜๊ณ , ray ์œ„์˜ ์ƒ˜ํ”Œ๋ง ์ง€์ ๋“ค์— ๋Œ€ํ•ด MLP ์ถœ๋ ฅ์„ alpha blending ๋ฐฉ์‹์œผ๋กœ ํ†ตํ•ฉํ•˜์—ฌ ์ตœ์ข… ์ด๋ฏธ์ง€๋ฅผ ๋ Œ๋”๋งํ•จ
  • normal vector๋Š” ๋ฐ€๋„์˜ gradient๋ฅผ ํ†ตํ•ด ๊ณ„์‚ฐ๋˜๋ฉฐ, ์ด normal๊ณผ ์กฐ๋ช…์„ ์‚ฌ์šฉํ•˜์—ฌ diffuse shading์„ ์ ์šฉํ•จ

์กฐ๋ช…์„ ๋‹ค์–‘ํ•˜๊ฒŒ ๋ฐ”๊พธ๊ฑฐ๋‚˜ ์นด๋ฉ”๋ผ ๊ฐ๋„๋ฅผ ๋ณ€๊ฒฝํ•ด๋„ ๋™์ผํ•œ 3D ๊ตฌ์กฐ๋ฅผ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋ทฐ์—์„œ์˜ ์ผ๊ด€๋œ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•ด์ง.

 

์ถ”๊ฐ€์ ์œผ๋กœ ...

  • ๋ฐฐ๊ฒฝ์€ ๋ณ„๋„์˜ MLP๋กœ ์ฒ˜๋ฆฌ
  • ์ผ์ • ํ™•๋ฅ ๋กœ albedo๋ฅผ ํฐ์ƒ‰์œผ๋กœ ๋Œ€์ฒดํ•œ "textureless shading"์„ ํ†ตํ•ด geometry ํ’ˆ์งˆ์„ ์œ ์ง€ํ•จ (ํ…์Šค์ฒ˜์—๋งŒ ์˜์กดํ•œ ์–•์€ ๊ตฌ์กฐ ๋ฐฉ์ง€)
  • ๋ฐ€๋„์— ๋Œ€ํ•œ regularization (๋ถˆํ•„์š”ํ•œ ๋ฐ€๋„ ๋ถ„ํฌ ์–ต์ œ)์™€ orientation loss (normal์ด ์นด๋ฉ”๋ผ๋ฅผ ํ–ฅํ•˜๋„๋ก ์œ ๋„)๋ฅผ ํ†ตํ•ด ์•ˆ์ •์„ฑ ํ–ฅ์ƒ

 

โœ… DreamFusion ํ•™์Šต ๋ฃจํ”„ ์š”์•ฝ

DreamFusion์˜ ์ตœ์ข… ํ•™์Šต ๋ฃจํ”„๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  1. ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ ๊ณ ์ • (์˜ˆ: "a frog wearing a sweater")
  2. ๋žœ๋คํ•œ ์นด๋ฉ”๋ผ ์œ„์น˜์™€ ์กฐ๋ช…์„ ์ƒ˜ํ”Œ๋ง (๋‹ค์–‘ํ•œ ์‹œ์ ์„ ํ†ตํ•ด 3D ๊ตฌ์กฐ์˜ ์ผ๊ด€์„ฑ์„ ํ•™์Šต)
  3. ํ•ด๋‹น ์นด๋ฉ”๋ผ๋กœ NeRF๋ฅผ ๋ Œ๋”๋ง (์ปฌ๋Ÿฌ ๋ Œ๋”๋ง, albedo(์žฌ์งˆ ์ƒ‰์ƒ), textureless shading ์ค‘ ํ•˜๋‚˜๋กœ ์ด๋ฏธ์ง€ ์ƒ์„ฑ)
  4. ๋…ธ์ด์ฆˆ ์ƒ˜ํ”Œ๋ง, ๋…ธ์ด์ฆˆ ๋”ํ•˜๊ธฐ
  5. diffusion model (U-Net)์œผ๋กœ๋ถ€ํ„ฐ ๋…ธ์ด์ฆˆ ์˜ˆ์ธก๊ฐ’ ์ƒ์„ฑ
  6. ๋…ธ์ด์ฆˆ ์˜ˆ์ธก๊ฐ’ <-> ์‹ค์ œ ๋…ธ์ด์ฆˆ๊ฐ’์œผ๋กœ SDS loss ๊ณ„์‚ฐ
  7. ํ•ด๋‹น loss์˜ gradient๋กœ NeRF ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธ

์ด ๊ณผ์ •์„ ๊ณ„์† ๋ฐ˜๋ณตํ•˜๋ฉด, ํŠน์ • ํ…์ŠคํŠธ์— ๋ถ€ํ•ฉํ•˜๋Š” 3D NeRF ๋ชจ๋ธ์ด ํ•™์Šต๋œ๋‹ค.

 

์ •๋ฆฌํ•ด๋ณด๋ฉด, DreamFusion์€ NeRF๊ฐ€ ์ƒ์„ฑํ•œ ์ด๋ฏธ์ง€์—์„œ Diffusion model๋กœ ์˜ˆ์ธกํ•œ ๋…ธ์ด์ฆˆ์™€ ์‹ค์ œ ๋…ธ์ด์ฆˆ์˜ ์ฐจ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ NeRF ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•จ์œผ๋กœ์จ ํ…์ŠคํŠธ ์กฐ๊ฑด์— ๋งž๋Š” 3D ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด๋‹ค!

 

4. ์‹คํ—˜

DreamFusion์˜ ์‹คํ—˜์€ ๋‹ค์Œ ๋‘ ๊ฐ€์ง€ ์งˆ๋ฌธ์— ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค.

  1. ์ •๋ง๋กœ 2D diffusion model๋งŒ์œผ๋กœ ์˜๋ฏธ ์žˆ๋Š” 3D geometry๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?
  2. ๊ธฐ์กด์˜ CLIP ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋“ค๋ณด๋‹ค ์–ด๋–ค ์ ์—์„œ ๊ฐœ์„ ๋˜์—ˆ๋Š”๊ฐ€?

์‹คํ—˜์„ ํ†ตํ•ด ์ €์ž๋“ค์€ ๋‹จ์ˆœํžˆ ์‹œ๊ฐ์ ์œผ๋กœ ๋ณด๊ธฐ ์ข‹์€ 3D ๋ชจ๋ธ์ด ์•„๋‹ˆ๋ผ, ๋‹ค์–‘ํ•œ ๊ฐ๋„์—์„œ๋„ ๊ตฌ์กฐ์ ์œผ๋กœ ํƒ€๋‹นํ•œ geometry๋ฅผ ๊ฐ–๋Š” 3D ํ‘œํ˜„์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•œ๋‹ค.

  • ๊ธฐ์กด์˜ Dream Fields๋‚˜ CLIP-Mesh๋Š” ๋Œ€๋ถ€๋ถ„ ํ…์Šค์ฒ˜์— ์˜์กดํ•˜์—ฌ ํ…์ŠคํŠธ ์กฐ๊ฑด์„ ๋งŒ์กฑ์‹œํ‚ค๋ฉฐ, geometry ํ’ˆ์งˆ์ด ๋–จ์–ด์ง€๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜์Œ. (์˜ˆ: ํ‰ํ‰ํ•œ ๋ฉด์— ์ด๋ฏธ์ง€๊ฐ€ ๊ทธ๋ ค์ง„ ํ˜•ํƒœ)
  • ๋ฐ˜๋ฉด, DreamFusion์€ textureless render ๊ธฐ์ค€์—์„œ๋„ ๋†’์€ ์ผ๊ด€์„ฑ๊ณผ ์ •ํ™•๋„๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ, geometry ์ž์ฒด๊ฐ€ ํ…์ŠคํŠธ ์˜๋ฏธ๋ฅผ ๋ฐ˜์˜ํ•จ. ์˜ˆ: ๊ฐ•์•„์ง€๊ฐ€ ์ž…์ฒด์ ์œผ๋กœ ํ‘œํ˜„๋จ.

์ฆ‰, DreamFusion์€ ํ…์ŠคํŠธ์— ๋ถ€ํ•ฉํ•˜๋Š” ์ง„์งœ 3D ๊ตฌ์กฐ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ด๋ผ๋Š” ๊ฒƒ์„ ์‹คํ—˜์ ์œผ๋กœ ์ฆ๋ช…ํ•œ๋‹ค.

 

๋˜ํ•œ, ์—ฌ๋Ÿฌ ๊ตฌ์„ฑ์š”์†Œ๊ฐ€ ์ตœ์ข… ์„ฑ๋Šฅ์— ์–ด๋–ค ์˜ํ–ฅ์„ ์ฃผ๋Š”์ง€ ๋ถ„์„ํ•จ์œผ๋กœ์จ, DreamFusion์ด ์™œ ์ž˜ ์ž‘๋™ํ•˜๋Š”์ง€๋ฅผ ํ•ด์„ํ–ˆ๋‹ค.

  • View-dependent text๋ฅผ ์ถ”๊ฐ€ํ•ด์•ผ ๋‹ค์–‘ํ•œ ๊ฐ๋„์—์„œ ์˜๋ฏธ ์žˆ๋Š” ๊ตฌ์กฐ๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ. (์˜ˆ: "side view" ์กฐ๊ฑด์„ ๋ฐ˜์˜ํ•˜์ง€ ์•Š์œผ๋ฉด ์–ผ๊ตด์ด ์—ฌ๋Ÿฌ ๊ฐœ์ธ ๊ฒฐ๊ณผ ๋ฐœ์ƒ)
  • Textureless rendering์€ geometry ํ•™์Šต์— ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•จ. ์ƒ‰์— ์˜์กดํ•˜์ง€ ์•Š๊ณ  ์ˆœ์ˆ˜ํ•œ ๊ตฌ์กฐ๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•จ.
  • ์กฐ๋ช… ๋‹ค์–‘ํ™”๋Š” ํ‘œ๋ฉด์˜ ๊ตด๊ณก์„ ๋ช…ํ™•ํžˆ ๋“œ๋Ÿฌ๋‚ด๋ฉฐ, geometry ํ•™์Šต์— ๊ธฐ์—ฌํ•จ.

 

5. ๊ฒฐ๋ก 

โœ… ์žฅ์ 

  • 3D ๋ฐ์ดํ„ฐ ์—†์ด๋„ ๊ณ ํ’ˆ์งˆ Text-to-3D ์ƒ์„ฑ ๊ฐ€๋Šฅ
  • ํ•˜๋‚˜์˜ pretrained diffusion model๋กœ ๋‹ค์–‘ํ•œ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€์‘ ๊ฐ€๋Šฅ
  • geometry์™€ ์ƒ‰์ƒ ๋ชจ๋‘์—์„œ ๋†’์€ ์ผ๊ด€์„ฑ๊ณผ ์‚ฌ์‹ค๊ฐ์„ ๋ณด์—ฌ์คŒ

โœ… ํ•œ๊ณ„

  • SDS๋Š” oversmoothing ๋ฌธ์ œ๋ฅผ ์ผ์œผํ‚ฌ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์‹œ๋“œ์—์„œ ์ƒ์„ฑ๋œ ๊ฒฐ๊ณผ์˜ ๋‹ค์–‘์„ฑ์ด ๋‚ฎ์Œ
  • ์‚ฌ์šฉ๋œ Imagen ๋ชจ๋ธ์€ 64x64 ํ•ด์ƒ๋„๋กœ, ์„ธ๋ฐ€ํ•œ ๋””ํ…Œ์ผ ๋ถ€์กฑ
  • ์ตœ์ ํ™”๋Š” ๋‹ค์†Œ ๋А๋ฆฌ๋ฉฐ, 15,000 step์— ์•ฝ 1.5์‹œ๊ฐ„ ์†Œ์š”๋จ (TPU ๊ธฐ์ค€)

 

๊ฐœ์ธ์ ์œผ๋กœ ์š”์ฆ˜์€ ์ด๋ฏธ ์ž˜ ๋งŒ๋“ค์–ด์ง„ ๋ชจ๋ธ์„ ์ฐฝ์˜์ ์œผ๋กœ ์žฌํ™œ์šฉํ•˜๊ฑฐ๋‚˜ ์ƒˆ๋กœ์šด ๋ฐฉ์‹์œผ๋กœ ์ ‘๋ชฉํ•ด ํšจ์œจ์„ ๊ทน๋Œ€ํ™”ํ•˜๋ ค๋Š” ์‹œ๋„๊ฐ€ ๋งŽ์•„์ง„ ๊ฒƒ ๊ฐ™๋‹ค. Vision-Language Model(VLM) ๋ถ„์•ผ๋„ ๋Œ€ํ‘œ์ ์ธ ์˜ˆ์ด๊ณ , DreamFusion์ฒ˜๋Ÿผ ๊ธฐ์กด 2D diffusion model์„ loss function์œผ๋กœ ์ „์šฉํ•ด ์ „ํ˜€ ๋‹ค๋ฅธ 3D ์ƒ์„ฑ์— ํ™œ์šฉํ•œ ์‚ฌ๋ก€๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋‹ค. ์ด๋Ÿฐ ์—ฐ๊ตฌ ํ๋ฆ„์€ ๊ผญ ๋‚ด๊ฐ€ ์†ํ•œ ์„ธ๋ถ€ ๋ถ„์•ผ๊ฐ€ ์•„๋‹ˆ๋”๋ผ๋„, ์ธ์ ‘ ์˜์—ญ์—์„œ ์•„์ด๋””์–ด๋ฅผ ๊ฐ€์ ธ์™€ ์œตํ•ฉํ–ˆ์„ ๋•Œ ๋” ํฐ ์‹œ๋„ˆ์ง€๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์—์„œ ๋งค์šฐ ์ธ์‚ฌ์ดํŠธํ’€ํ•˜๊ฒŒ ๋А๊ปด์ง„๋‹ค.

๋ฐ˜์‘ํ˜•

'๐Ÿ› Research > Generative AI' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[Gen AI] Diffusion Model๊ณผ DDPM ๊ฐœ๋… ์„ค๋ช…  (0) 2025.03.31
[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] Zero-1-to-3: Zero-shot One Image to 3D Object | Single-view object reconstruction  (0) 2025.03.22
[Gen AI] Stable Diffusion: ์ด๋ฏธ์ง€ ์ƒ์„ฑ AI ์ดํ•ดํ•˜๊ธฐ  (0) 2024.11.04
VAE (Variational Autoencoder) ์„ค๋ช… | VAE Pytorch ์ฝ”๋“œ ์˜ˆ์‹œ  (0) 2024.01.06
[๊ธฐ์ˆ  ์†Œ๊ฐœ] Text-to-Image Generation | ์ด๋ฏธ์ง€ ์ƒ์„ฑ AI | DALL-E | GPT | dVAE  (0) 2023.04.06
'๐Ÿ› Research/Generative AI' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€
  • [Gen AI] Diffusion Model๊ณผ DDPM ๊ฐœ๋… ์„ค๋ช…
  • [๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] Zero-1-to-3: Zero-shot One Image to 3D Object | Single-view object reconstruction
  • [Gen AI] Stable Diffusion: ์ด๋ฏธ์ง€ ์ƒ์„ฑ AI ์ดํ•ดํ•˜๊ธฐ
  • VAE (Variational Autoencoder) ์„ค๋ช… | VAE Pytorch ์ฝ”๋“œ ์˜ˆ์‹œ
๋ญ…์ฆค
๋ญ…์ฆค
AI ๊ธฐ์ˆ  ๋ธ”๋กœ๊ทธ
    ๋ฐ˜์‘ํ˜•
  • ๋ญ…์ฆค
    CV DOODLE
    ๋ญ…์ฆค
  • ์ „์ฒด
    ์˜ค๋Š˜
    ์–ด์ œ
  • ๊ณต์ง€์‚ฌํ•ญ

    • โœจ About Me
    • ๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ (200)
      • ๐Ÿ“– Fundamentals (33)
        • Computer Vision (9)
        • 3D vision & Graphics (6)
        • AI & ML (15)
        • NLP (2)
        • etc. (1)
      • ๐Ÿ› Research (65)
        • Deep Learning (7)
        • Image Classification (2)
        • Detection & Segmentation (17)
        • OCR (7)
        • Multi-modal (4)
        • Generative AI (6)
        • 3D Vision (3)
        • Material & Texture Recognit.. (8)
        • NLP & LLM (11)
        • etc. (0)
      • ๐ŸŒŸ AI & ML Tech (7)
        • AI & ML ์ธ์‚ฌ์ดํŠธ (7)
      • ๐Ÿ’ป Programming (86)
        • Python (18)
        • Computer Vision (12)
        • LLM (4)
        • AI & ML (18)
        • Database (3)
        • Apache Airflow (6)
        • Docker & Kubernetes (14)
        • ์ฝ”๋”ฉ ํ…Œ์ŠคํŠธ (4)
        • C++ (1)
        • etc. (6)
      • ๐Ÿ’ฌ ETC (3)
        • ์ฑ… ๋ฆฌ๋ทฐ (3)
  • ๋งํฌ

  • ์ธ๊ธฐ ๊ธ€

  • ํƒœ๊ทธ

    AI
    Python
    ๊ฐ์ฒด๊ฒ€์ถœ
    Computer Vision
    Image Classification
    airflow
    ChatGPT
    pandas
    object detection
    ๋„์ปค
    OpenCV
    3D Vision
    nlp
    pytorch
    material recognition
    ํ”„๋กฌํ”„ํŠธ์—”์ง€๋‹ˆ์–ด๋ง
    GPT
    multi-modal
    OCR
    ํŒŒ์ด์ฌ
    CNN
    VLP
    LLM
    deep learning
    ์ปดํ“จํ„ฐ๋น„์ „
    ๋”ฅ๋Ÿฌ๋‹
    segmentation
    OpenAI
    Text recognition
    ๊ฐ์ฒด ๊ฒ€์ถœ
  • ์ตœ๊ทผ ๋Œ“๊ธ€

  • ์ตœ๊ทผ ๊ธ€

  • hELLOยท Designed By์ •์ƒ์šฐ.v4.10.3
๋ญ…์ฆค
[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION
์ƒ๋‹จ์œผ๋กœ

ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”