'🏛 Research' 카테고리의 글 목록

생성 모델에서 Diffusion 모델은 고해상도 이미지를 생성하는 핵심 기술로 주목받고 있는데, 이 모델은 노이즈를 점점 제거해가며 이미지를 생성한다는 개념으로, Stable Diffusion, DALL·E 2 등 다양한 모델의 기반이 되고 있다. 이 글에서는 Diffusion Model의 개념부터 가장 기본이 되는 DDPM(Denoising Diffusion Probabilistic Model)의 학습 및 생성 과정에 초점을 맞추어 설명한다. 수식보다는 개념적 설명에 집중했다.1. Diffusion Model이란?디퓨전 모델은 데이터에 점점 가우시안 노이즈를 추가해 완전히 무작위한 상태로 만든 뒤, 그 반대 과정을 통해 노이즈에서 원본 이미지를 복원하는 방식이다. 이 과정을 두 단계로 나눌 수 있다. ..

1. 연구 주제와 주요 기여DreamFusion은 2D text-to-image diffusion model을 활용해 3D 객체를 생성하는 text-to-3D 합성 방법을 제안한다. ✅ 주요 기여3D 데이터나 3D 학습이 전혀 없이, 2D diffusion model만으로 3D 장면을 생성하는 end-to-end pipeline을 구축Score Distillation Sampling (SDS)이라는 새로운 최적화 기반 샘플링 기법을 고안하여, pretrained 이미지 diffusion model을 3D 학습의 loss로 활용NeRF를 기반으로 3D 볼륨을 파라미터화하여, 다양한 각도에서 일관된 이미지를 생성 가능하게 함 2. 연구 배경 및 관련 연구 동향✅ Text-to-Image Synthesis최근..

1. 연구 주제와 주요 기여 Zero-1-to-3는 단 하나의 RGB 이미지로부터 새로운 카메라 시점에서의 이미지를 생성하고, 나아가 3D 복원까지 수행할 수 있는 zero-shot 프레임워크이다. 기존에는 멀티 뷰 또는 3D 정보가 필요했던 문제를, Stable Diffusion과 같은 대규모 사전학습 모델을 활용해 제약 없이 학습하지 않은 데이터에서도 일반화 성능을 확보한다는 점이 주요 차별점이다. ✅ 주요 기여Stable Diffusion을 활용하여 camera viewpoint control이 가능한 조건부 image-to-image 변환 학습Zero-shot 3D reconstruction을 위한 viewpoint-conditioned diffusion 모델 제안Objaverse 기반 학습 후에..

💡 LLaVA 1. 연구 주제와 주요 기여 이 연구는 텍스트와 이미지를 함께 이해하고 처리할 수 있는 멀티모달 모델 LLaVA를 제안하고 있어요. 특히 Visual Instruction Tuning을 통해 멀티모달 작업에서 사용자의 지시를 따르고, 복잡한 이미지와 텍스트 기반 작업을 수행할 수 있도록 모델을 설계했어요. 기존의 이미지-텍스트 페어 데이터(예: COCO)를 활용한 학습에서 한 발 더 나아가, GPT-4를 활용해 이미지 설명 캡션을 바탕으로 질문과 답변 형식의 새로운 학습 데이터를 생성했답니다.새로운 데이터셋 생성 방법: GPT-4를 활용해 기존 이미지-텍스트 페어를 멀티모달 지시-응답 데이터로 자동 변환하는 데이터 생성 파이프라인을 개발했어요. 이를 통해 다양한 멀티모달 작업에 활용 가능..

💡 BLIP-21. 연구 주제와 주요 기여 BLIP-2 논문은 Multi-modal Vision Language Pre-training(VLP)에 대한 비용 효율적인 새로운 접근법을 제안했어요. 기존의 큰 모델을 end-to-end 로 학습시키는 방식의 높은 계산 비용을 해결하기 위해, 이미 학습된 이미지 인코더와 대형 언어 모델(LLM)을 고정(frozen)한 채로 사용하는 방법을 고안했어요. Querying Transformer(Q-Former): Modality Gap(이미지와 텍스트 간의 차이)를 효과적으로 줄이기 위한 경량 모듈을 제안했어요.Two-stage Pre-training: 기존 모델의 강점을 결합한 Representation Learning과 Generative Learning 전략..

💡 BLIP1. 연구 주제와 주요 기여 BLIP는 Vision-Language Pre-training(VLP)을 위한 새로운 프레임워크로, 이미지와 텍스트 간의 이해 기반 작업과 생성 기반 작업을 모두 효과적으로 수행할 수 있도록 설계되었어요.기존 VLP 모델의 한계를 다음과 같이 개선했어요.이해 기반(예: 이미지-텍스트 검색) 또는 생성 기반(예: 이미지 캡션 생성) 작업에 특화된 기존 모델의 단점을 보완.웹에서 수집된 노이즈가 많은 데이터로부터 학습 성능을 극대화하기 위한 데이터 부트스트래핑 방법 제안.BLIP는 SOTA 성능을 기록하며 다양한 Vision-Language 작업에서 우수한 결과를 보였어요. 2. 연구 배경 및 동향Vision-Language Pre-training (VLP)Visio..

티스토리툴바