1. ์ฐ๊ตฌ ์ฃผ์ ์ ์ฃผ์ ๊ธฐ์ฌ
Zero-1-to-3๋ ๋จ ํ๋์ RGB ์ด๋ฏธ์ง๋ก๋ถํฐ ์๋ก์ด ์นด๋ฉ๋ผ ์์ ์์์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ณ , ๋์๊ฐ 3D ๋ณต์๊น์ง ์ํํ ์ ์๋ zero-shot ํ๋ ์์ํฌ์ด๋ค. ๊ธฐ์กด์๋ ๋ฉํฐ ๋ทฐ ๋๋ 3D ์ ๋ณด๊ฐ ํ์ํ๋ ๋ฌธ์ ๋ฅผ, Stable Diffusion๊ณผ ๊ฐ์ ๋๊ท๋ชจ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ํ์ฉํด ์ ์ฝ ์์ด ํ์ตํ์ง ์์ ๋ฐ์ดํฐ์์๋ ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๋ณดํ๋ค๋ ์ ์ด ์ฃผ์ ์ฐจ๋ณ์ ์ด๋ค.
โ ์ฃผ์ ๊ธฐ์ฌ
- Stable Diffusion์ ํ์ฉํ์ฌ camera viewpoint control์ด ๊ฐ๋ฅํ ์กฐ๊ฑด๋ถ image-to-image ๋ณํ ํ์ต
- Zero-shot 3D reconstruction์ ์ํ viewpoint-conditioned diffusion ๋ชจ๋ธ ์ ์
- Objaverse ๊ธฐ๋ฐ ํ์ต ํ์๋ in-the-wild ์ด๋ฏธ์ง, ํํ ๋ฑ ๋ค์ํ ๋๋ฉ์ธ์์ ๋์ ์ผ๋ฐํ ์ฑ๋ฅ
- ๊ธฐ์กด SOTA ๋๋น ์ ๋์ /์ ์ฑ์ ์ผ๋ก ์ฐ์ํ ์ฑ๋ฅ ํ๋ณด (PSNR, SSIM, FID ๋ฑ)
2. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋ํฅ
์ฌ๋์ ๋จ์ผ ์์ ์์ 3D ๊ฐ์ฒด์ ๊ตฌ์กฐ๋ฅผ ์ง๊ด์ ์ผ๋ก ์์ํ ์ ์์ผ๋, ๊ธฐ์กด CV ๋ชจ๋ธ๋ค์ ํ๋ถํ ์ฃผ์ ์ ๋ณด๋ ์ ํ๋ ๋ฒ์ฃผ์ ๋ฐ์ดํฐ์ ์ ์์กดํด์๋ค. ์ต๊ทผ์๋ CO3D ๊ฐ์ ๋๊ท๋ชจ 3D ๋ฐ์ดํฐ์ ์ ํ์ฉํ ์ฐ๊ตฌ๊ฐ ์ฆ๊ฐํ์ง๋ง, ์ฌ์ ํ ์นด๋ฉ๋ผ ํฌ์ฆ, ์คํ ๋ ์ค ๋ทฐ ๋ฑ์ ์ ์ฝ์ด ์กด์ฌํ๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ธํฐ๋ท ๊ท๋ชจ์ ๋ฐ์ดํฐ๋ก ํ์ต๋ diffusion model์ด 2D ์ด๋ฏธ์ง๋ก๋ถํฐ ๊ฐ์ ์ ์ผ๋ก 3D priors๋ฅผ ํ์ตํ์ ๊ฐ๋ฅ์ฑ์ ์ฐฉ์ํ์ฌ ์ด๋ฅผ ํ์ฉํ๊ณ ์ ํ๋ค.
*3D prior: ์ด ์ธ์ ๊ฐ์ฒด๋ค์ด ์ด๋ค ~ 3D ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ ๊ฑฐ๋ ๊ฒฝํ์ ์ถ์ , ํต๊ณ์ ๊ฒฝํฅ ์ ๋๋ฅผ ์๋ฏธ
โ ๊ด๋ จ ์ฐ๊ตฌ ๋ํฅ
- Text-to-image diffusion: DALL-E, Stable Diffusion ๋ฑ ๋๊ท๋ชจ ํ์ต์ ํตํด ํ๋ถํ ์๋ฏธ์ priors๋ฅผ ํ๋ณด
- 2D ๊ธฐ๋ฐ 3D ์์ฑ: DreamFields, DreamFusion ๋ฑ์ CLIP๊ณผ NeRF๋ฅผ ์กฐํฉํ์ฌ implicit 3D ํํ ์์ฑ
- Single-view 3D reconstruction: mesh, point cloud, voxel ๋ฑ์ ๊ธฐ๋ฐ์ผ๋ก 3D ํํ ์์ธก. ์ผ๋ฐํ ์ฑ๋ฅ ๋ถ์กฑ ๋ฐ ํฌ์ฆ ์ ํฉ ์ด์ ์กด์ฌ
- View-conditioned generation: ๊ธฐ์กด ์ฐ๊ตฌ๋ zero-shot ์ผ๋ฐํ๊น์ง ๋ณด์ฌ์ฃผ์ง ๋ชปํ์. ๋ณธ ์ฐ๊ตฌ๋ ์ ์ด ๊ฐ๋ฅํ viewpoint translation์ ํตํ ๊ฐ๋ ฅํ zero-shot ์ฑ๋ฅ ๋ฌ์ฑ
3. ์ฃผ์ ์ ์
Zero-1-to-3์ ํต์ฌ ๋ชฉํ๋, ๋จ ํ๋์ RGB ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ก์ ๋, ์ฌ์ฉ์๊ฐ ์ง์ ํ ์นด๋ฉ๋ผ ์์ (ํ์ R, ์ด๋ T)์ ํด๋นํ๋ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ฒ์ด๋ค. ์ด ๊ณผ์ ์ ์์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- x: ์ ๋ ฅ RGB ์ด๋ฏธ์ง
- (R, T): ์ํ๋ ์์ ์ ์๋์ ์ธ ์นด๋ฉ๋ผ ํ์ ๋ฐ ์ด๋
- f: ์๋ก์ด ์์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ํจ์ (๋ชจ๋ธ)
์ด ๋ฌธ์ ๋ ๊ทผ๋ณธ์ ์ผ๋ก under-constrained๋์ด ์๋ค. ์ฆ, ์ ๋ ฅ ์ด๋ฏธ์ง๊ฐ ํ๋๋ฟ์ด๊ธฐ ๋๋ฌธ์ ๋ฌผ์ฒด์ ๋ค๋ฅธ ์์ (์: ๋ค์ชฝ, ์๋ฉด)์ ์ ๋ณด๋ฅผ ์ง์ ์ ์ผ๋ก ๊ด์ธกํ ์ ์๊ณ , ๋ฐ๋ผ์ ์ ๋ต์ด ์ ์ผํ์ง ์๋ค. ๋ค์ํ ๊ฐ๋ฅํ ํด๊ฐ ์กด์ฌํ ์ ์๋ ๋ฌธ์ ์ด๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Zero-1-to-3๋ Stable Diffusion๊ณผ ๊ฐ์ ์ธํฐ๋ท ๊ท๋ชจ์ ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋๊ท๋ชจ ์ฌ์ ํ์ต ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ์ ์ฌ์ 3D prior๋ฅผ ํ์ฉํ๋ค. Stable Diffusion์ ์์ญ์ต ๊ฐ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ํตํด, ๋ค์ํ ๋ฌผ์ฒด๊ฐ ๋ค์ํ ๊ฐ๋์ ์คํ์ผ์์ ์ด๋ป๊ฒ ๋ณด์ด๋์ง๋ฅผ ์ด๋ฏธ ํ์ตํ ์ํ๋ค. ์ด ๋ชจ๋ธ์ ์ง์ ์ ์ผ๋ก 3D ๋ฐ์ดํฐ๋ฅผ ๋ณธ ์ ์ ์์ง๋ง, ๊ฐ์ ์ ์ผ๋ก ๊ฐ์ฒด์ ํํ, ์์ ๋ณํ, ๋์นญ์ฑ ๋ฑ 3D์ ์ธ ํต๊ณ์ ๊ท์น(priors)์ ๋ด์ฌํ๊ณ ์๋ค. ๋ฐ๋ผ์, ์ ๋ ฅ ์ด๋ฏธ์ง x์ ์นด๋ฉ๋ผ ๋ณํ (R, T)๋ฅผ ์กฐ๊ฑด์ผ๋ก diffusion ๋ชจ๋ธ์ fine-tuningํ๊ฑฐ๋ ์ ์ดํจ์ผ๋ก์จ, ๋ชจ๋ธ์ด ํ์ตํ ์ ์ฌ์ 3D ์ง์์ ํ์ฉํด ํ์ค์ ์ธ ์๋ก์ด ์์ ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ค๋ ๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด๋ค.
โ Viewpoint ์ ์ด ํ์ต
Zero-1-to-3๋ Stable Diffusion์ latent diffusion architecture๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์ ๋ ฅ ์ด๋ฏธ์ง์ ํจ๊ป ์ํ๋ ์นด๋ฉ๋ผ ์์ ์ ๋ณด๋ฅผ ์กฐ๊ฑด์ผ๋ก ์ฃผ์ด, ์๋ก์ด ์์ ์์์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ ์ ์ด ๋ฉ์ปค๋์ฆ(viewpoint control)์ ํ์ตํ๋ค.
์ด ๋ ผ๋ฌธ์์๋ Stable Diffusion์ ๊ธฐ๋ณธ ๊ตฌ์กฐ์ธ encoder → U-Net → decoder ์ํคํ ์ฒ๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ๋, U-Net ๋ถ๋ถ๋ง์ fine-tuningํ์ฌ viewpoint ์ ์ด ๊ธฐ๋ฅ์ ๋ถ์ฌํ๋ค. ์ฆ, ๊ธฐ์กด์ ํ์ต๋ ํ๋ถํ ์ด๋ฏธ์ง ์์ฑ ๋ฅ๋ ฅ์ ๊ทธ๋๋ก ์ ์งํ๋ฉด์, ์นด๋ฉ๋ผ ์์ ์ ๋ฐ๊พธ๋ ๋ฅ๋ ฅ๋ง ์ถ๊ฐ๋ก ํ์ตํ๋ ๊ฒ์ด๋ค.
- E(x): ์ ๋ ฅ ์ด๋ฏธ์ง์ latent representation
- z_t: diffusion ๋จ๊ณ t์์์ noisy latent
- ε: Gaussian noise
- c(x, R, T): ์ ๋ ฅ ์ด๋ฏธ์ง์ ์นด๋ฉ๋ผ ๋ณํ ์ ๋ณด๋ฅผ ํฌํจํ ์กฐ๊ฑด embedding
- ε_θ: noise๋ฅผ ์์ธกํ๋ U-Net
Loss Function ๋ง ๋ณด๋ฉด ๋ณต์กํด์... ํ์ต ๊ณผ์ ์ ์์ฝํด ๋ณด๋ฉด...
- ๋ชฉํ ์์ ์ ์ด๋ฏธ์ง x_{R,T}๋ฅผ ๋ ๋๋งํ์ฌ ์ค๋น (์ผ์ข ์ GT)
- ์ด ์ด๋ฏธ์ง๋ฅผ latent space๋ก ์ธ์ฝ๋ฉ (E(x_{R,T}))
- ์ฌ๊ธฐ์ ๋ ธ์ด์ฆ ε ๋ฅผ ์์ด์ z_t ์์ฑ
- ๋ชจ๋ธ์ ์ ๋ ฅ ๋๋ ๊ฒ
- z_t: ๋ ธ์ด์ฆ๊ฐ ์์ธ latent ์ด๋ฏธ์ง
- t: ๋ ธ์ด์ฆ ๊ฐ๋(๋ช ๋จ๊ณ์ธ์ง)
- c(x, R, T): ์ ๋ ฅ ์ด๋ฏธ์ง์ ์์ ๋ณํ์ ๊ฒฐํฉ ์๋ฒ ๋ฉ
- ๋ชจ๋ธ์ ์ด ๋ ธ์ด์ฆ๋ ๋ฌด์์ด์๋๊ฐ ε_θ ๋ฅผ ์์ธกํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต
- ์ด ๊ณผ์ ์ ๋ฐ๋ณตํ๋ฉด์ ๋ชจ๋ธ์ "์ ๋ ฅ ์ด๋ฏธ์ง x๋ฅผ (R, T) ๋ฐฉํฅ์์ ๋ณด๋ฉด ์ด๋ค ๋ชจ์ต์ผ์ง"๋ฅผ ๊ฐ์ ์ ์ผ๋ก ํ์ต
ํ์ต์ด ์๋ฃ๋๋ฉด, ์๋ก์ด ์์ ์์์ ์ด๋ฏธ์ง๋ฅผ ๋ ธ์ด์ฆ ์ ๊ฑฐ(iterative denoising) ๊ณผ์ ์ ํตํด ์ํ๋งํ ์ ์๋ค. Stable Diffusion์ด ์๋ ํ์ตํ ์๋งจํฑ/ํ ์ค์ฒ ํํ์ ๊ทธ๋๋ก ์ ์งํ๋ฉด์, viewpoint ์กฐ์ ๋ฅ๋ ฅ๋ง ๋ง๋ถ์ด๋ ๋ฐฉ์์ผ๋ก fine-tuning์ ์ํํ๋ค๋ ์ ์ด๋ค.
โ View-conditioned Diffusion Architecture
Zero-1-to-3์ ์กฐ๊ฑด ์ ๋ ฅ ์ค๊ณ๋ ๋ค์๊ณผ ๊ฐ์ ๋ ๊ฐ์ง ์คํธ๋ฆผ์ ๊ฒฐํฉํ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฅธ๋ค.
1. High-level ์คํธ๋ฆผ: Posed CLIP Embedding
- ์ ๋ ฅ ์ด๋ฏธ์ง x๋ฅผ CLIP encoder๋ฅผ ํตํด ์๋ฒ ๋ฉ
- ์ฌ๊ธฐ์ ์ํ๋ ์นด๋ฉ๋ผ ๋ณํ (R, T)๋ฅผ ๊ฒฐํฉํด posed CLIP embedding์ ์์ฑ
- ์ด ์๋ฒ ๋ฉ์ cross-attention์ ํตํด denoising U-Net์ ์ ๋ฌ๋์ด ๊ฐ์ฒด์ ์๋ฏธ์ ๊ตฌ์กฐ ๋ฐ ์ ์ฒด์ ์ธ ํํ๋ฅผ ์ปจํธ๋กค
2. Low-level ์คํธ๋ฆผ: ์ฑ๋ ๊ฒฐํฉ
- ์ ๋ ฅ ์ด๋ฏธ์ง x๋ฅผ denoised ์ด๋ฏธ์ง์ ํจ๊ป ์ฑ๋ ์ฐจ์์์ ์ง์ ๊ฒฐํฉ
- ์ด๋ ๊ฒ ํ๋ฉด, ๊ฐ์ฒด์ ๋ํ ์ผ, ํ ์ค์ฒ, ์์ ์ ๋ณด๊ฐ ์ ๋ณด์กด๋ ์ ์๋ค
- ์ฐฝ์์ ์ธ ๋ต๋ณด๋จ ์ข ๋ ๋ช ์์ ์ผ๋ก ํน์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋๋ก ํ๋ ๋๋
3. Classifier-free guidance
- ์กฐ๊ฑด์ ์ผ๋ถ ํ๋ฅ ๋ก ์ ๊ฑฐํ์ฌ ํ์ตํ๊ณ , ์ถ๋ก ์์๋ ์กฐ๊ฑด ๊ฐ๋๋ฅผ ์กฐ์ ํ์ฌ ์์ฑ ์ด๋ฏธ์ง์ ํ์ง๊ณผ ๋ค์์ฑ ์ฌ์ด์ trade-off๋ฅผ ์กฐ์
- diffusion ๋ชจ๋ธ์์ ์์ฃผ ์ฌ์ฉ๋๋ ๋ฐฉ์์ด๋ฉฐ, ์ด ๋ ผ๋ฌธ์์๋ ํ์ฉ๋จ
โ 3D Reconstruction ๋ฐฉ๋ฒ๋ก
Zero-1-to-3๋ ๋จ ํ๋์ ์ด๋ฏธ์ง๋ก๋ถํฐ ์๋ก์ด ์์ ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ์ด์ง๋ง, ๋ณธ ๋ ผ๋ฌธ์ ์ฌ๊ธฐ์ ํ ๋ฐ ๋ ๋์๊ฐ, ๋ชจ๋ธ์ด ์ค์ ๋ก 3D ๊ตฌ์กฐ์ ๋ํ ์ดํด๋ฅผ ๋ด์ฌ์ ์ผ๋ก ํ์ตํ๋์ง๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด 3D Reconstruction ์คํ์ ํจ๊ป ์ํํ๋ค.
- ๋จ์ผ ์ ๋ ฅ ์ด๋ฏธ์ง x๋ฅผ ๊ธฐ์ค์ผ๋ก
- ๋ค์ํ ์นด๋ฉ๋ผ ์์ (R_i, T_i)์ ๋๋คํ๊ฒ ์ํ๋งํ๊ณ
- ๊ฐ ์์ ์์์ ์ด๋ฏธ์ง๋ฅผ Zero-1-to-3๋ฅผ ํตํด ์์ฑ
- ์ด ์ด๋ฏธ์ง๋ค์ supervision์ผ๋ก ์ผ์, NeRF ์คํ์ผ์ 3D ๋ณผ๋ฅจ ํํ(Volumetric representation)์ ์ต์ ํ
์ด ๊ณผ์ ์์ Score Jacobian Chaining (SJC)์ด๋ผ๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ, Stable Diffusion ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ๋ดํฌํ ์ด๋ฏธ์ง ์์ฑ priors๋ฅผ 3D ์ฌ๊ตฌ์ฑ ๊ณผ์ ์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ค.
๐ก ์ฆ, ๋จ์ํ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ฐ ๊ทธ์น์ง ์๊ณ , ๋ชจ๋ธ์ด ํ์ตํ ์์ ๊ฐ ๊ด๊ณ์ ์๊ฐ์ ์ผ๊ด์ฑ์ด ์ค์ 3D ๊ตฌ์กฐ ๋ณต์์๋ ๊ธฐ์ฌํ ์ ์์์ ๋ณด์ฌ์ฃผ๋ ์ค์ํ ์คํ์ด๋ค.
โ ํ์ต ๋ฐ์ดํฐ์
Zero-1-to-3๋ ๋๊ท๋ชจ ๊ณต๊ฐ 3D ๊ฐ์ฒด ๋ฐ์ดํฐ์ ์ธ Objaverse๋ฅผ fine-tuning์ ์ฌ์ฉํ๋ค.
- ์ฝ 80๋ง ๊ฐ ์ด์์ 3D ๊ฐ์ฒด๋ฅผ ํฌํจ
- class label ์์ด ๋ค์ํ ์คํ์ผ, ๊ตฌ์กฐ, ์ฌ์ง์ ํฌํจํ๋ ๊ณ ํ์ง 3D ๋ชจ๋ธ ์ ๊ณต
- ๊ฐ ๊ฐ์ฒด๋น 12๊ฐ์ ์นด๋ฉ๋ผ ์์ ์์ ray-tracing ๊ธฐ๋ฐ ์ด๋ฏธ์ง ๋ ๋๋ง
- ์ด๋ก๋ถํฐ (x, x_{R,T}, R, T) ์์ ์์ฑํ์ฌ viewpoint control ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉ
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
Zero-1-to-3๋ ๋จ์ผ ์ด๋ฏธ์ง๋ก๋ถํฐ ์๋ก์ด ์์ ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ์ด์ง๋ง, ๋ ผ๋ฌธ์์๋ ๋จ์ํ ์ด๋ฏธ์ง ์์ฑ ์ฑ๋ฅ์ ๋์ด์, ๋ชจ๋ธ์ด ์ค์ ๋ก 3D ๊ตฌ์กฐ์ ๋ํ ์ดํด๋ฅผ ๋ด์ฌ์ ์ผ๋ก ํ์ตํ๋์ง๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด ์คํ์ ์ค๊ณํ๋ค. ์ด๋ฅผ ์ํด ์ ํํ๋ ๊ฐ์ฒด ๋ฐ์ดํฐ(GSO), ๋ณต์กํ ์ค์ธ๊ณ ์ฅ๋ฉด(RTMV), ๊ทธ๋ฆฌ๊ณ ํํ, ์์ฑ ์ด๋ฏธ์ง ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด ๋ชจ๋ธ์ zero-shot ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๊ฐํ๋ค.
Novel view synthesis๋ ํ๋์ ์ด๋ฏธ์ง์ ์์ ์ ๋ณด๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๋ณด์ง ๋ชปํ ๋ฐฉํฅ์์์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ณผ์ ์ด๋ค. ์ฌ๊ธฐ์ ๋ชจ๋ธ์ ๋ค์ํ ๋๋ฉ์ธ์์๋ ์ผ๊ด์ฑ ์๋ ๊ณ ํ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ฉฐ, ์์ ๋ณํ์ ๋ฐ๋ฅธ ์๊ฐ์ ์ ํฉ์ฑ์ ์ฑ๊ณต์ ์ผ๋ก ํ์ตํ์์ ๋ณด์ฌ์ค๋ค.
3D reconstruction ์คํ์ ๋ค์ํ ์์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ํ, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก NeRF ์คํ์ผ์ 3D ํํ์ ๋ณต์ํ๋ ๋ฐฉ์์ด๋ค. ์ด ๊ณผ์ ์ ๋ชจ๋ธ์ด ๋จ์ํ ์ด๋ฏธ์ง๋ฅผ ํ์ ์ํค๋ ๊ฒ์ด ์๋๋ผ, ์ค์ ๋ก ๊ฐ์ฒด์ ๊ตฌ์กฐ๋ฅผ ๋ด๋ถ์ ์ผ๋ก ์ดํดํ๊ณ ์์์ ์ ์ฆํ๋ ๊ทผ๊ฑฐ๋ก ์์ฉํ๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ์ด ๋ ผ๋ฌธ์ Zero-1-to-3๊ฐ ๋จ์ผ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์์ฑ ๋ชจ๋ธ์์๋ ๋ถ๊ตฌํ๊ณ , ๊ฐ๋ ฅํ 3D priors๋ฅผ ๋ด์ฌํ๊ณ ์์ผ๋ฉฐ, ๋ค์ํ ํ๊ฒฝ์์ ์ผ๋ฐํ ๊ฐ๋ฅํ 3D ์ธ์ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์์ ์คํ์ ์ผ๋ก ์ฆ๋ช ํ๋ค.
Zero-1-to-3๋ ์ฌ์ ํ์ต๋ Stable Diffusion์ ํ์ฉํ์ฌ ๋จ์ผ ์ด๋ฏธ์ง๋ก๋ถํฐ ๋ค์ํ ์์ ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ณ , ๋ ๋์๊ฐ ๊ณ ํ์ง์ 3D ๋ณต์๊น์ง ์ํํ ์ ์์์ ๋ณด์๋ค. ์ ์๋ ๋ฐฉ๋ฒ์ viewpoint ์ ์ด ํ์ต, view-conditioned diffusion, SJC ๊ธฐ๋ฐ 3D ์ต์ ํ ๋ฑ์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ์ ๋์ /์ ์ฑ์ ์คํ ๊ฒฐ๊ณผ ๊ธฐ์กด SOTA๋ฅผ ๋ชจ๋ ์ด์ํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค.
๋ณต์กํ ์ฅ๋ฉด (multi-object scenes), ๋น๋์ค ๋ฑ์ ๋ํ ์์ฑ์ ํฅํ ๋์ ๊ณผ์ ๋ก ๋จ์ ์๋ค.
'๐ Research > Generative AI' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Gen AI] Diffusion Model๊ณผ DDPM ๊ฐ๋ ์ค๋ช (0) | 2025.03.31 |
---|---|
[๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION (0) | 2025.03.23 |
[Gen AI] Stable Diffusion: ์ด๋ฏธ์ง ์์ฑ AI ์ดํดํ๊ธฐ (0) | 2024.11.04 |
VAE (Variational Autoencoder) ์ค๋ช | VAE Pytorch ์ฝ๋ ์์ (0) | 2024.01.06 |
[๊ธฐ์ ์๊ฐ] Text-to-Image Generation | ์ด๋ฏธ์ง ์์ฑ AI | DALL-E | GPT | dVAE (0) | 2023.04.06 |