'🏛 Research/Generative AI' 카테고리의 글 목록

생성 모델에서 Diffusion은 고해상도 이미지를 만들어내는 핵심 기술로 자리 잡았지만, DDPM처럼 픽셀 공간에서 직접 노이즈를 다루는 방식에는 치명적인 단점이 있었다. 바로 연산과 메모리 효율이다. [Gen AI] Diffusion Model과 DDPM 개념 설명생성 모델에서 Diffusion 모델은 고해상도 이미지를 생성하는 핵심 기술로 주목받고 있는데, 이 모델은 노이즈를 점점 제거해가며 이미지를 생성한다는 개념으로, Stable Diffusion, DALL·E 2 등 다양한mvje.tistory.com 예를 들어, 256×256 해상도의 이미지를 직접 디퓨전(픽셀 단위로 노이즈를 넣고 제거)하려면, 수백 MB에 달하는 feature를 반복적으로 처리해야 한다. 고해상도일수록 이 부담은 기하..

생성 모델에서 Diffusion 모델은 고해상도 이미지를 생성하는 핵심 기술로 주목받고 있는데, 이 모델은 노이즈를 점점 제거해가며 이미지를 생성한다는 개념으로, Stable Diffusion, DALL·E 2 등 다양한 모델의 기반이 되고 있다. 이 글에서는 Diffusion Model의 개념부터 가장 기본이 되는 DDPM(Denoising Diffusion Probabilistic Model)의 학습 및 생성 과정에 초점을 맞추어 설명한다. 수식보다는 개념적 설명에 집중했다. Latent 공간에서 diffusion을 수행하는 더 발전한 형태의 모델(LDM)은 ↓ [Gen AI] LDM (Latent Diffusion Models) 개념 설명생성 모델에서 Diffusion은 고해상도 이미지를 만들어내는..

1. 연구 주제와 주요 기여DreamFusion은 2D text-to-image diffusion model을 활용해 3D 객체를 생성하는 text-to-3D 합성 방법을 제안한다. ✅ 주요 기여3D 데이터나 3D 학습이 전혀 없이, 2D diffusion model만으로 3D 장면을 생성하는 end-to-end pipeline을 구축Score Distillation Sampling (SDS)이라는 새로운 최적화 기반 샘플링 기법을 고안하여, pretrained 이미지 diffusion model을 3D 학습의 loss로 활용NeRF를 기반으로 3D 볼륨을 파라미터화하여, 다양한 각도에서 일관된 이미지를 생성 가능하게 함 2. 연구 배경 및 관련 연구 동향✅ Text-to-Image Synthesis최근..

1. 연구 주제와 주요 기여 Zero-1-to-3는 단 하나의 RGB 이미지로부터 새로운 카메라 시점에서의 이미지를 생성하고, 나아가 3D 복원까지 수행할 수 있는 zero-shot 프레임워크이다. 기존에는 멀티 뷰 또는 3D 정보가 필요했던 문제를, Stable Diffusion과 같은 대규모 사전학습 모델을 활용해 제약 없이 학습하지 않은 데이터에서도 일반화 성능을 확보한다는 점이 주요 차별점이다. ✅ 주요 기여Stable Diffusion을 활용하여 camera viewpoint control이 가능한 조건부 image-to-image 변환 학습Zero-shot 3D reconstruction을 위한 viewpoint-conditioned diffusion 모델 제안Objaverse 기반 학습 후에..

AI를 활용한 이미지 생성 기술은 단순한 픽셀 단위의 변형을 넘어, 고유한 예술적 창의성을 담아내는 단계에 이르렀다. AI는 이제 텍스트와 같은 간단한 조건에서부터 복잡한 이미지 디테일까지, 사용자 요구에 맞춰 고해상도 이미지를 생성할 수 있게 되었다. 이러한 흐름의 선두에 있는 기술 중 하나가 Stable Diffusion이다. 이 모델은 기존의 이미지 생성 모델들이 겪던 한계를 해결하며, 다양한 조건에서도 효율적으로 이미지를 생성할 수 있도록 설계되었다. Stable Diffusion의 구조와 학습 방식을 이해하면 이미지 생성 AI가 어떻게 발전해왔고, 어떤 방식으로 더 창의적인 결과물을 만들어내는지 알 수 있다. Diffusion Model ?Diffusion model은 데이터에 점진적으로 노이즈..

VAE (Variational Autoencoder) VAE(Variational Autoencoder)는 생성 모델 중 하나로, 주로 차원 축소 및 생성 작업에 사용되는 신경망 아키텍처이다. VAE는 데이터의 잠재 변수를 학습하고 이를 사용하여 새로운 데이터를 생성하는 데 사용되는데, 특히 이미지 및 음성 생성과 같은 응용 분야에서 널리 사용되고 있다. 이러한 VAE는 크게 인코더와 디코더라는 두 부분으로 구성되어 있다. Autoencoder(오토인코더)와 헷갈릴 수 있는데, 오토인코더는 인풋을 똑같이 복원할 수 있는 latent variable z를 만드는 것이 목적, 즉 인코더를 학습하는 것이 주 목적이고,VAE의 경우 인풋 x를 잘 표현하는 latent vector를 추출하고, 이를 통해 인풋..

티스토리툴바