[논문 리뷰] Zero-1-to-3: Zero-shot One Image to 3D Object | Single-view object reconstruction

1. 연구 주제와 주요 기여

Zero-1-to-3는 단 하나의 RGB 이미지로부터 새로운 카메라 시점에서의 이미지를 생성하고, 나아가 3D 복원까지 수행할 수 있는 zero-shot 프레임워크이다. 기존에는 멀티 뷰 또는 3D 정보가 필요했던 문제를, Stable Diffusion과 같은 대규모 사전학습 모델을 활용해 제약 없이 학습하지 않은 데이터에서도 일반화 성능을 확보한다는 점이 주요 차별점이다.

✅ 주요 기여

Stable Diffusion을 활용하여 camera viewpoint control이 가능한 조건부 image-to-image 변환 학습
Zero-shot 3D reconstruction을 위한 viewpoint-conditioned diffusion 모델 제안
Objaverse 기반 학습 후에도 in-the-wild 이미지, 회화 등 다양한 도메인에서 높은 일반화 성능
기존 SOTA 대비 정량적/정성적으로 우수한 성능 확보 (PSNR, SSIM, FID 등)

2. 연구 배경 및 동향

사람은 단일 시점에서 3D 객체의 구조를 직관적으로 상상할 수 있으나, 기존 CV 모델들은 풍부한 주석 정보나 제한된 범주의 데이터셋에 의존해왔다. 최근에는 CO3D 같은 대규모 3D 데이터셋을 활용한 연구가 증가했지만, 여전히 카메라 포즈, 스테레오 뷰 등의 제약이 존재한다. 본 연구는 인터넷 규모의 데이터로 학습된 diffusion model이 2D 이미지로부터 간접적으로 3D priors를 학습했을 가능성에 착안하여 이를 활용하고자 한다.

*3D prior: 이 세상 객체들이 어떤 ~ 3D 구조를 가지고 있을 거란 경험적 추정, 통계적 경향 정도를 의미

✅ 관련 연구 동향

Text-to-image diffusion: DALL-E, Stable Diffusion 등 대규모 학습을 통해 풍부한 의미적 priors를 확보
2D 기반 3D 생성: DreamFields, DreamFusion 등은 CLIP과 NeRF를 조합하여 implicit 3D 표현 생성
Single-view 3D reconstruction: mesh, point cloud, voxel 등을 기반으로 3D 형태 예측. 일반화 성능 부족 및 포즈 정합 이슈 존재
View-conditioned generation: 기존 연구는 zero-shot 일반화까지 보여주지 못했음. 본 연구는 제어 가능한 viewpoint translation을 통한 강력한 zero-shot 성능 달성

3. 주요 제안

Zero-1-to-3의 핵심 목표는, 단 하나의 RGB 이미지가 주어졌을 때, 사용자가 지정한 카메라 시점(회전 R, 이동 T)에 해당하는 새로운 이미지를 생성하는 것이다. 이 과정을 수식으로 표현하면 다음과 같다.

x: 입력 RGB 이미지
(R, T): 원하는 시점의 상대적인 카메라 회전 및 이동
f: 새로운 시점 이미지를 생성하는 함수 (모델)

이 문제는 근본적으로 under-constrained되어 있다. 즉, 입력 이미지가 하나뿐이기 때문에 물체의 다른 시점(예: 뒤쪽, 옆면)의 정보를 직접적으로 관측할 수 없고, 따라서 정답이 유일하지 않다. 다양한 가능한 해가 존재할 수 있는 문제이다.

이러한 문제를 해결하기 위해 Zero-1-to-3는 Stable Diffusion과 같은 인터넷 규모의 데이터로 학습된 대규모 사전학습 이미지 생성 모델의 잠재적 3D prior를 활용한다. Stable Diffusion은 수십억 개의 이미지 데이터를 통해, 다양한 물체가 다양한 각도와 스타일에서 어떻게 보이는지를 이미 학습한 상태다. 이 모델은 직접적으로 3D 데이터를 본 적은 없지만, 간접적으로 객체의 형태, 시점 변화, 대칭성 등 3D적인 통계적 규칙(priors)을 내재하고 있다. 따라서, 입력 이미지 x와 카메라 변환 (R, T)를 조건으로 diffusion 모델을 fine-tuning하거나 제어함으로써, 모델이 학습한 잠재적 3D 지식을 활용해 현실적인 새로운 시점의 이미지를 생성할 수 있다는 것이 이 논문의 핵심 아이디어다.

✅ Viewpoint 제어 학습

Zero-1-to-3는 Stable Diffusion의 latent diffusion architecture를 기반으로 하며, 입력 이미지와 함께 원하는 카메라 시점 정보를 조건으로 주어, 새로운 시점에서의 이미지를 생성할 수 있는 제어 메커니즘(viewpoint control)을 학습한다.

이 논문에서는 Stable Diffusion의 기본 구조인 encoder → U-Net → decoder 아키텍처를 그대로 사용하되, U-Net 부분만을 fine-tuning하여 viewpoint 제어 기능을 부여한다. 즉, 기존에 학습된 풍부한 이미지 생성 능력은 그대로 유지하면서, 카메라 시점을 바꾸는 능력만 추가로 학습하는 것이다.

E(x): 입력 이미지의 latent representation
z_t: diffusion 단계 t에서의 noisy latent
ε: Gaussian noise
c(x, R, T): 입력 이미지와 카메라 변환 정보를 포함한 조건 embedding
ε_θ: noise를 예측하는 U-Net

Loss Function 만 보면 복잡해서... 학습 과정을 요약해 보면...

목표 시점의 이미지 x_{R,T}를 렌더링하여 준비 (일종의 GT)

이 이미지를 latent space로 인코딩 (E(x_{R,T}))

여기에 노이즈 ε 를 섞어서 z_t 생성

모델에 입력 되는 것

z_t: 노이즈가 섞인 latent 이미지

t: 노이즈 강도(몇 단계인지)

c(x, R, T): 입력 이미지와 시점 변화의 결합 임베딩

모델은 이 노이즈는 무엇이었는가 ε_θ 를 예측하는 방향으로 학습

이 과정을 반복하면서 모델은 "입력 이미지 x를 (R, T) 방향에서 보면 어떤 모습일지"를 간접적으로 학습

학습이 완료되면, 새로운 시점에서의 이미지를 노이즈 제거(iterative denoising) 과정을 통해 샘플링할 수 있다. Stable Diffusion이 원래 학습한 시맨틱/텍스처 표현을 그대로 유지하면서, viewpoint 조절 능력만 덧붙이는 방식으로 fine-tuning을 수행한다는 점이다.

✅ View-conditioned Diffusion Architecture

Zero-1-to-3의 조건 입력 설계는 다음과 같은 두 가지 스트림을 결합한 구조를 따른다.

1. High-level 스트림: Posed CLIP Embedding

입력 이미지 x를 CLIP encoder를 통해 임베딩
여기에 원하는 카메라 변환 (R, T)를 결합해 posed CLIP embedding을 생성
이 임베딩은 cross-attention을 통해 denoising U-Net에 전달되어 객체의 의미적 구조 및 전체적인 형태를 컨트롤

2. Low-level 스트림: 채널 결합

입력 이미지 x를 denoised 이미지와 함께 채널 차원에서 직접 결합
이렇게 하면, 객체의 디테일, 텍스처, 색상 정보가 잘 보존될 수 있다
창의적인 답보단 좀 더 명시적으로 특정 이미지를 생성하도록 하는 느낌

3. Classifier-free guidance

조건을 일부 확률로 제거하여 학습하고, 추론 시에는 조건 강도를 조절하여 생성 이미지의 품질과 다양성 사이의 trade-off를 조절
diffusion 모델에서 자주 사용되는 방식이며, 이 논문에서도 활용됨

✅ 3D Reconstruction 방법론

Zero-1-to-3는 단 하나의 이미지로부터 새로운 시점의 이미지를 생성하는 모델이지만, 본 논문은 여기서 한 발 더 나아가, 모델이 실제로 3D 구조에 대한 이해를 내재적으로 학습했는지를 검증하기 위해 3D Reconstruction 실험을 함께 수행한다.

단일 입력 이미지 x를 기준으로
다양한 카메라 시점 (R_i, T_i)을 랜덤하게 샘플링하고
각 시점에서의 이미지를 Zero-1-to-3를 통해 생성
이 이미지들을 supervision으로 삼아, NeRF 스타일의 3D 볼륨 표현(Volumetric representation)을 최적화

이 과정에서 Score Jacobian Chaining (SJC)이라는 기법을 사용하여, Stable Diffusion 기반 모델이 내포한 이미지 생성 priors를 3D 재구성 과정에 효과적으로 활용한다.

💡 즉, 단순히 새로운 이미지를 생성하는 데 그치지 않고, 모델이 학습한 시점 간 관계와 시각적 일관성이 실제 3D 구조 복원에도 기여할 수 있음을 보여주는 중요한 실험이다.

✅ 학습 데이터셋

Zero-1-to-3는 대규모 공개 3D 객체 데이터셋인 Objaverse를 fine-tuning에 사용한다.

약 80만 개 이상의 3D 객체를 포함
class label 없이 다양한 스타일, 구조, 재질을 포함하는 고품질 3D 모델 제공
각 객체당 12개의 카메라 시점에서 ray-tracing 기반 이미지 렌더링
이로부터 (x, x_{R,T}, R, T) 쌍을 생성하여 viewpoint control 학습 데이터로 사용

4. 실험 및 결과

Zero-1-to-3는 단일 이미지로부터 새로운 시점의 이미지를 생성하는 모델이지만, 논문에서는 단순한 이미지 생성 성능을 넘어서, 모델이 실제로 3D 구조에 대한 이해를 내재적으로 학습했는지를 검증하기 위해 실험을 설계한다. 이를 위해 정형화된 객체 데이터(GSO), 복잡한 실세계 장면(RTMV), 그리고 회화, 생성 이미지 등 다양한 데이터셋을 사용해 모델의 zero-shot 일반화 성능을 평가한다.

Novel view synthesis는 하나의 이미지와 시점 정보를 입력으로 받아 보지 못한 방향에서의 이미지를 생성하는 과제이다. 여기서 모델은 다양한 도메인에서도 일관성 있는 고품질 이미지를 생성하며, 시점 변화에 따른 시각적 정합성을 성공적으로 학습했음을 보여준다.

3D reconstruction 실험은 다양한 시점 이미지를 생성한 후, 이를 기반으로 NeRF 스타일의 3D 표현을 복원하는 방식이다. 이 과정은 모델이 단순히 이미지를 회전시키는 것이 아니라, 실제로 객체의 구조를 내부적으로 이해하고 있음을 입증하는 근거로 작용한다.

결과적으로 이 논문은 Zero-1-to-3가 단일 이미지 기반 생성 모델임에도 불구하고, 강력한 3D priors를 내재하고 있으며, 다양한 환경에서 일반화 가능한 3D 인식 능력을 갖추고 있음을 실험적으로 증명한다.

Zero-1-to-3는 사전학습된 Stable Diffusion을 활용하여 단일 이미지로부터 다양한 시점의 이미지를 생성하고, 더 나아가 고품질의 3D 복원까지 수행할 수 있음을 보였다. 제안된 방법은 viewpoint 제어 학습, view-conditioned diffusion, SJC 기반 3D 최적화 등으로 구성되며, 정량적/정성적 실험 결과 기존 SOTA를 모두 초월하는 성능을 달성하였다.

복잡한 장면 (multi-object scenes), 비디오 등에 대한 생성은 향후 도전 과제로 남아 있다.

'🏛 Research > Image•Video Generation' 카테고리의 다른 글

[Gen AI] Diffusion Model과 DDPM 개념 설명 (0)	2025.03.31
[논문 리뷰] DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION (0)	2025.03.23
[Gen AI] Stable Diffusion: 이미지 생성 AI 이해하기 (0)	2024.11.04
VAE (Variational Autoencoder) 설명 \| VAE Pytorch 코드 예시 (0)	2024.01.06
[기술 소개] Text-to-Image Generation \| 이미지 생성 AI \| DALL-E \| GPT \| dVAE (0)	2023.04.06

1. 연구 주제와 주요 기여

✅ 주요 기여

2. 연구 배경 및 동향

✅ 관련 연구 동향

3. 주요 제안

✅ Viewpoint 제어 학습

✅ View-conditioned Diffusion Architecture

✅ 3D Reconstruction 방법론

✅ 학습 데이터셋

4. 실험 및 결과

'🏛 Research > Image•Video Generation' 카테고리의 다른 글

티스토리툴바