[논문 리뷰] DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION

1. 연구 주제와 주요 기여

DreamFusion은 2D text-to-image diffusion model을 활용해 3D 객체를 생성하는 text-to-3D 합성 방법을 제안한다.

✅ 주요 기여

3D 데이터나 3D 학습이 전혀 없이, 2D diffusion model만으로 3D 장면을 생성하는 end-to-end pipeline을 구축
Score Distillation Sampling (SDS)이라는 새로운 최적화 기반 샘플링 기법을 고안하여, pretrained 이미지 diffusion model을 3D 학습의 loss로 활용
NeRF를 기반으로 3D 볼륨을 파라미터화하여, 다양한 각도에서 일관된 이미지를 생성 가능하게 함

2. 연구 배경 및 관련 연구 동향

✅ Text-to-Image Synthesis

최근 DALL-E, Imagen, GLIDE 등의 모델들이 대규모 이미지-텍스트 페어로 학습되어 고품질의 텍스트-이미지 합성 결과를 보여주고 있다. 특히 diffusion model은 안정적이고 scalable한 학습 방식 덕분에 text-to-image 분야에서 널리 사용되고 있다.

✅ Text-to-3D의 필요성

게임, 영화, VR 등 많은 디지털 콘텐츠는 3D 자산을 필요로 하지만, 직접 모델링하는 데 시간이 많이 소요된다. 이에 따라 텍스트 입력만으로 3D 객체를 생성하는 자동화 기술이 필요하다.

✅ 기존 3D 생성 방식의 한계

대부분의 3D 생성 기법은 voxel, point cloud, mesh 등 명시적 3D 표현을 필요로 함.
CLIP 기반의 Dream Fields 등은 2D 이미지-텍스트 joint embedding을 활용했으나, 사실감 있는 geometry가 부족함.
기존 GAN 기반 기법은 제한된 클래스에서만 효과적임.

3. 주요 제안

✅ 핵심 아이디어

DreamFusion의 핵심은, 기존의 2D 이미지 생성용 diffusion model을 3D 모델 학습에 "loss function"으로 사용하는 것이다. 즉, diffusion model이 예측한 노이즈를 기반으로 NeRF의 파라미터를 최적화하는 구조다. 이를 통해 새로운 이미지 생성이 아닌, NeRF가 텍스트에 부합하는 3D 구조를 생성하게 한다.

디퓨전 모델과 NeRF는 완전히 다른 형태의 모델인데, 어떻게 한 모델의 출력을 기반으로 다른 모델을 학습할까? 라는 의문이 든다.

간단하게는 디퓨전 모델이 이미지 품질을 판단해주는 평가자, NeRF는 그 판단을 따라 조정되는 생성자의 느낌으로 보면 된다.

- 디퓨전 모델: "이 이미지-텍스트가 서로 어울리려면 이렇게 바꿔야됨!"

- NeRF: "ㅇㅋ 파라미터 바꿔볼게~"

✅ Score Distillation Sampling (SDS)

SDS는 DreamFusion이 제안한 새로운 최적화 기반 샘플링 방식이다. 일반적으로 diffusion model은 픽셀 공간에서 이미지를 생성하지만, 이 연구에서는 NeRF 파라미터 공간에서 이미지를 생성하고자 하며 이를 위해 다음 과정을 거친다.

텍스트와 랜덤 카메라 뷰로부터 NeRF를 통해 이미지를 렌더링
이 이미지를 diffusion model에 입력하고, 모델이 예측한 노이즈와 실제 노이즈의 차이를 계산함
이 차이를 통해 gradient를 계산하고 NeRF 파라미터를 업데이트함

기존의 diffusion training loss는 U-Net 내부까지 역전파되어야 하므로 비효율적이고 불안정하다. DreamFusion은 U-Net의 Jacobian을 생략하고, 대신 디퓨전 모델이 예측한 노이즈만을 활용해 효과적인 gradient를 구성한다. 최종적으로는 확률 밀도 사이의 KL divergence를 최소화하는 형태로, 이 과정을 통해 파라미터 공간에서 샘플링이 가능해진다. SDS는 최적화만으로 고품질 샘플을 생성할 수 있는 간단하면서 강력한 방법이다.

SDS는 Diffusion Model이 예측한 노이즈 정보를 활용해 NeRF를 최적화할 수 있게 만드는 Loss Function이라 보면 된다.

⁉️ SDS가 없었다면?

디퓨전 모델의 결과를 NeRF 파라미터 업데이트에 어떻게 써야할지 알 수 없음
디퓨전 loss를 그냥 쓰려면, 디퓨전 모델 전체(U-Net)를 역전파해야 함

✅ NeRF를 활용한 3D 표현

DreamFusion은 장면을 NeRF 구조로 표현하며, 이 NeRF는 다음과 같은 구성으로 설계된다.

MLP를 통해 위치(3D 좌표)에 대해 volumetric density(밀도)와 albedo(표면 색상)를 출력함
각 픽셀에 대해 ray를 쏘고, ray 위의 샘플링 지점들에 대해 MLP 출력을 alpha blending 방식으로 통합하여 최종 이미지를 렌더링함
normal vector는 밀도의 gradient를 통해 계산되며, 이 normal과 조명을 사용하여 diffuse shading을 적용함

조명을 다양하게 바꾸거나 카메라 각도를 변경해도 동일한 3D 구조를 유지할 수 있게 하여 다양한 뷰에서의 일관된 표현이 가능해짐.

추가적으로 ...

배경은 별도의 MLP로 처리
일정 확률로 albedo를 흰색으로 대체한 "textureless shading"을 통해 geometry 품질을 유지함 (텍스처에만 의존한 얕은 구조 방지)
밀도에 대한 regularization (불필요한 밀도 분포 억제)와 orientation loss (normal이 카메라를 향하도록 유도)를 통해 안정성 향상

✅ DreamFusion 학습 루프 요약

DreamFusion의 최종 학습 루프는 다음과 같다.

텍스트 프롬프트 고정 (예: "a frog wearing a sweater")
랜덤한 카메라 위치와 조명을 샘플링 (다양한 시점을 통해 3D 구조의 일관성을 학습)
해당 카메라로 NeRF를 렌더링 (컬러 렌더링, albedo(재질 색상), textureless shading 중 하나로 이미지 생성)
노이즈 샘플링, 노이즈 더하기
diffusion model (U-Net)으로부터 노이즈 예측값 생성
노이즈 예측값 <-> 실제 노이즈값으로 SDS loss 계산
해당 loss의 gradient로 NeRF 파라미터를 업데이트

이 과정을 계속 반복하면, 특정 텍스트에 부합하는 3D NeRF 모델이 학습된다.

정리해보면, DreamFusion은 NeRF가 생성한 이미지에서 Diffusion model로 예측한 노이즈와 실제 노이즈의 차이를 기반으로 NeRF 파라미터를 반복적으로 업데이트함으로써 텍스트 조건에 맞는 3D 모델을 학습하는 것이다!

4. 실험

DreamFusion의 실험은 다음 두 가지 질문에 초점을 맞춘다.

정말로 2D diffusion model만으로 의미 있는 3D geometry를 생성할 수 있는가?
기존의 CLIP 기반 방법들보다 어떤 점에서 개선되었는가?

실험을 통해 저자들은 단순히 시각적으로 보기 좋은 3D 모델이 아니라, 다양한 각도에서도 구조적으로 타당한 geometry를 갖는 3D 표현을 생성할 수 있음을 입증한다.

기존의 Dream Fields나 CLIP-Mesh는 대부분 텍스처에 의존하여 텍스트 조건을 만족시키며, geometry 품질이 떨어지는 경우가 많았음. (예: 평평한 면에 이미지가 그려진 형태)
반면, DreamFusion은 textureless render 기준에서도 높은 일관성과 정확도를 보여주며, geometry 자체가 텍스트 의미를 반영함. 예: 강아지가 입체적으로 표현됨.

즉, DreamFusion은 텍스트에 부합하는 진짜 3D 구조를 생성할 수 있는 방법이라는 것을 실험적으로 증명한다.

또한, 여러 구성요소가 최종 성능에 어떤 영향을 주는지 분석함으로써, DreamFusion이 왜 잘 작동하는지를 해석했다.

View-dependent text를 추가해야 다양한 각도에서 의미 있는 구조를 만들 수 있음. (예: "side view" 조건을 반영하지 않으면 얼굴이 여러 개인 결과 발생)
Textureless rendering은 geometry 학습에 핵심적인 역할을 함. 색에 의존하지 않고 순수한 구조를 학습할 수 있도록 함.
조명 다양화는 표면의 굴곡을 명확히 드러내며, geometry 학습에 기여함.

5. 결론

✅ 장점

3D 데이터 없이도 고품질 Text-to-3D 생성 가능
하나의 pretrained diffusion model로 다양한 프롬프트에 대응 가능
geometry와 색상 모두에서 높은 일관성과 사실감을 보여줌

✅ 한계

SDS는 oversmoothing 문제를 일으킬 수 있으며, 다양한 시드에서 생성된 결과의 다양성이 낮음
사용된 Imagen 모델은 64x64 해상도로, 세밀한 디테일 부족
최적화는 다소 느리며, 15,000 step에 약 1.5시간 소요됨 (TPU 기준)

개인적으로 요즘은 이미 잘 만들어진 모델을 창의적으로 재활용하거나 새로운 방식으로 접목해 효율을 극대화하려는 시도가 많아진 것 같다. Vision-Language Model(VLM) 분야도 대표적인 예이고, DreamFusion처럼 기존 2D diffusion model을 loss function으로 전용해 전혀 다른 3D 생성에 활용한 사례도 마찬가지다. 이런 연구 흐름은 꼭 내가 속한 세부 분야가 아니더라도, 인접 영역에서 아이디어를 가져와 융합했을 때 더 큰 시너지를 만들 수 있다는 점에서 매우 인사이트풀하게 느껴진다.

'🏛 Research > Image•Video Generation' 카테고리의 다른 글

[Gen AI] LDM (Latent Diffusion Models) 개념 설명 (1)	2025.06.29
[Gen AI] Diffusion Model과 DDPM 개념 설명 (0)	2025.03.31
[논문 리뷰] Zero-1-to-3: Zero-shot One Image to 3D Object \| Single-view object reconstruction (0)	2025.03.22
[Gen AI] Stable Diffusion: 이미지 생성 AI 이해하기 (0)	2024.11.04
VAE (Variational Autoencoder) 설명 \| VAE Pytorch 코드 예시 (0)	2024.01.06

1. 연구 주제와 주요 기여

✅ 주요 기여

2. 연구 배경 및 관련 연구 동향

✅ Text-to-Image Synthesis

✅ Text-to-3D의 필요성

✅ 기존 3D 생성 방식의 한계

3. 주요 제안

✅ 핵심 아이디어

✅ Score Distillation Sampling (SDS)

✅ NeRF를 활용한 3D 표현

✅ DreamFusion 학습 루프 요약

4. 실험

5. 결론

✅ 장점

✅ 한계

'🏛 Research > Image•Video Generation' 카테고리의 다른 글

티스토리툴바