[T2I] Back to Basics: Let Denoising Generative Models Denoise | Just image Transformers (JiT) 리뷰
·
🏛 Research/Image•Video Generation
1. Intro최근 Back to Basics: Let Denoising Generative Models Denoise (JiT) 논문이 Diffusion 분야에서 꽤 핫한 연구이다. 핵심은 매우 단순한데, "Diffusion 모델은 본래 깨끗한 이미지를 복원하는 모델인데, 왜 대부분의 구현은 노이즈(ϵ)나 v(velocity)만 예측할까?" JiT는 바로 이 질문에서 출발해, "그냥 클린 이미지(x)를 직접 예측하면 더 잘 된다"라는 매우 직관적이지만 강력한 결론을 제시한다. 특히 고해상도 픽셀 공간에서는 이 효과가 극적으로 나타난다.1.1 문제의식: 왜 x-prediction인가?기존 diffusion 모델은 크게 ϵ-prediction 또는 v-prediction을 사용한다. 그러나 이 두 대상은 ..