[Gen AI] Flow Matching & Rectified Flow 이해하기! | Diffusion 보다 더 빠른 생성 방식
·
🏛 Research/Image•Video Generation
1. 새로운 이미지 생성 방식이미지 생성 도메인에서 Diffusion Model이 텍스트 기반 이미지 생성에 폭넓게 사용되며 높은 품질의 결과를 보여주고 있다. 그러나 디퓨전 모델은 기본적으로 수백~수천 번의 노이즈 제거 과정을 거쳐야 하기에 샘플링 속도가 느리다는 단점이 존재한다. 이러한 한계를 극복하기 위해 등장한 것이 바로 Flow Matching 계열의 모델들이다. 이들은 이미지를 생성할 때 노이즈를 점차 제거해가는 방식이 아니라, 처음부터 이미지와 노이즈 사이의 경로 자체를 예측하여 보다 빠르고 효율적으로 이미지를 생성하는 방식이다.이 글에서는 Flow Matching의 기본 개념부터 이를 개선한 Rectified Flow까지 기술적으로 정리한다. 2. Flow Matching (FM)2.1 개..
[Gen AI] Diffusion Transformer (DiT) 완벽 이해하기!
·
🏛 Research/Image•Video Generation
1. 인트로1.1 트랜스포머의 영향최근 딥러닝에서는 자연어 처리에서 GPT, BERT 같은 트랜스포머가 사실상 표준이 되었고, 이미지 분류에서도 ViT(Vision Transformer)가 ResNet을 대체하는 흐름을 보이고 있다. 하지만 이상하게도 이미지 생성 분야, 특히 diffusion 기반 모델에서는 해당 논문이 발표되기 전까진 convolutional U-Net이 널리 쓰이고 있다.1.2 diffusion에서 왜 아직도 U-Net인가?Stable Diffusion, DALL·E 2 같은 유명한 생성 모델들도 모두 noise를 점진적으로 제거하는 neural network로 U-Net을 사용한다. diffusion process에서 timestep마다 노이즈를 제거하는 ε_θ(x_t)을 예측할 ..
[Gen AI] Diffusion 모델 샘플링 & 학습 트릭 정리
·
🏛 Research/Image•Video Generation
1. 샘플링(Sampling) 방법1.1 DDIMDDIM(Denoising Diffusion Implicit Models)은 DDPM의 stochastic sampling을 deterministic 방식으로 바꿔 적은 step으로도 고품질 샘플을 생성할 수 있게 한다.DDPM은 noise를 거슬러 올라갈 때 매 step에 randomness가 들어가지만, DDIM은 deterministic trajectory를 따라간다.즉, DDIM은 한 스텝에 더 크게 노이즈를 벗겨내도 trajectory가 깨지지 않아서 더 적은 스텝으로도 좋은 품질의 이미지를 만들 수 있는 것이다.DDPM이 보통 1000 step을 필요로 하는데 DDIM은 50~100 step 정도로도 좋은 품질을 낼 수 있다.예시: Stable ..
[Gen AI] LDM (Latent Diffusion Models) 개념 설명
·
🏛 Research/Image•Video Generation
생성 모델에서 Diffusion은 고해상도 이미지를 만들어내는 핵심 기술로 자리 잡았지만, DDPM처럼 픽셀 공간에서 직접 노이즈를 다루는 방식에는 치명적인 단점이 있었다. 바로 연산과 메모리 효율이다. [Gen AI] Diffusion Model과 DDPM 개념 설명생성 모델에서 Diffusion 모델은 고해상도 이미지를 생성하는 핵심 기술로 주목받고 있는데, 이 모델은 노이즈를 점점 제거해가며 이미지를 생성한다는 개념으로, Stable Diffusion, DALL·E 2 등 다양한mvje.tistory.com 예를 들어, 256×256 해상도의 이미지를 직접 디퓨전(픽셀 단위로 노이즈를 넣고 제거)하려면, 수백 MB에 달하는 feature를 반복적으로 처리해야 한다. 고해상도일수록 이 부담은 기하..
[Gen AI] Diffusion Model과 DDPM 개념 설명
·
🏛 Research/Image•Video Generation
생성 모델에서 Diffusion 모델은 고해상도 이미지를 생성하는 핵심 기술로 주목받고 있는데, 이 모델은 노이즈를 점점 제거해가며 이미지를 생성한다는 개념으로, Stable Diffusion, DALL·E 2 등 다양한 모델의 기반이 되고 있다. 이 글에서는 Diffusion Model의 개념부터 가장 기본이 되는 DDPM(Denoising Diffusion Probabilistic Model)의 학습 및 생성 과정에 초점을 맞추어 설명한다. 수식보다는 개념적 설명에 집중했다. Latent 공간에서 diffusion을 수행하는 더 발전한 형태의 모델(LDM)은 ↓ [Gen AI] LDM (Latent Diffusion Models) 개념 설명생성 모델에서 Diffusion은 고해상도 이미지를 만들어내는..