[Gen AI] Diffusion Model과 DDPM 개념 설명
·
🏛 Research/Generative AI
생성 모델에서 Diffusion 모델은 고해상도 이미지를 생성하는 핵심 기술로 주목받고 있는데, 이 모델은 노이즈를 점점 제거해가며 이미지를 생성한다는 개념으로, Stable Diffusion, DALL·E 2 등 다양한 모델의 기반이 되고 있다. 이 글에서는 Diffusion Model의 개념부터 가장 기본이 되는 DDPM(Denoising Diffusion Probabilistic Model)의 학습 및 생성 과정에 초점을 맞추어 설명한다. 수식보다는 개념적 설명에 집중했다.1. Diffusion Model이란?디퓨전 모델은 데이터에 점점 가우시안 노이즈를 추가해 완전히 무작위한 상태로 만든 뒤, 그 반대 과정을 통해 노이즈에서 원본 이미지를 복원하는 방식이다. 이 과정을 두 단계로 나눌 수 있다. ..
[AI/ML] Matrix Factorization(행렬 분해)와 머신러닝
·
📖 Fundamentals/AI & ML
머신러닝 관련 공부를 하다보면 행렬에 관한 이야기가 참 많이 나오죠. 정말 지긋지긋한데 그렇다고 또 늘 완벽히 이해하지는 못하는 분야이기도 해요...ㅠ 오늘은 생각난 김에 행렬 분해에 대한 내용을 정리해 보려 합니다. 행렬 분해(Matrix Factorization)는 하나의 행렬을 더 작은 행렬들의 곱으로 분해해 표현하는 방법입니다. 이러한 행렬 분해를 사용하면, 데이터의 크기를 줄이면서도 중요한 정보를 보존할 수 있어요. 데이터를 단순히 압축하는 데 그치지 않고, 그 안에 숨겨진 패턴이나 관계를 찾아내는 데도 정말 유용하답니다. 예를 들어, 추천 시스템에서 사용자와 아이템 간의 선호도를 나타내는 대규모 행렬이 있을 때, 이를 분해하면 각 사용자와 아이템의 잠재적인 특징을 발견할 수 있어요. 이렇게 발..
[논문 리뷰] Visual Instruction Tuning | LLaVA Model
·
🏛 Research/Multi-modal
💡 LLaVA 1. 연구 주제와 주요 기여 이 연구는 텍스트와 이미지를 함께 이해하고 처리할 수 있는 멀티모달 모델 LLaVA를 제안하고 있어요. 특히 Visual Instruction Tuning을 통해 멀티모달 작업에서 사용자의 지시를 따르고, 복잡한 이미지와 텍스트 기반 작업을 수행할 수 있도록 모델을 설계했어요. 기존의 이미지-텍스트 페어 데이터(예: COCO)를 활용한 학습에서 한 발 더 나아가, GPT-4를 활용해 이미지 설명 캡션을 바탕으로 질문과 답변 형식의 새로운 학습 데이터를 생성했답니다.새로운 데이터셋 생성 방법: GPT-4를 활용해 기존 이미지-텍스트 페어를 멀티모달 지시-응답 데이터로 자동 변환하는 데이터 생성 파이프라인을 개발했어요. 이를 통해 다양한 멀티모달 작업에 활용 가능..
[논문 리뷰] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
·
🏛 Research/Multi-modal
💡 BLIP-21. 연구 주제와 주요 기여 BLIP-2 논문은 Multi-modal Vision Language Pre-training(VLP)에 대한 비용 효율적인 새로운 접근법을 제안했어요. 기존의 큰 모델을 end-to-end 로 학습시키는 방식의 높은 계산 비용을 해결하기 위해, 이미 학습된 이미지 인코더와 대형 언어 모델(LLM)을 고정(frozen)한 채로 사용하는 방법을 고안했어요. Querying Transformer(Q-Former): Modality Gap(이미지와 텍스트 간의 차이)를 효과적으로 줄이기 위한 경량 모듈을 제안했어요.Two-stage Pre-training: 기존 모델의 강점을 결합한 Representation Learning과 Generative Learning 전략..
[논문 리뷰] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
·
🏛 Research/Multi-modal
💡 BLIP1. 연구 주제와 주요 기여 BLIP는 Vision-Language Pre-training(VLP)을 위한 새로운 프레임워크로, 이미지와 텍스트 간의 이해 기반 작업과 생성 기반 작업을 모두 효과적으로 수행할 수 있도록 설계되었어요.기존 VLP 모델의 한계를 다음과 같이 개선했어요.이해 기반(예: 이미지-텍스트 검색) 또는 생성 기반(예: 이미지 캡션 생성) 작업에 특화된 기존 모델의 단점을 보완.웹에서 수집된 노이즈가 많은 데이터로부터 학습 성능을 극대화하기 위한 데이터 부트스트래핑 방법 제안.BLIP는 SOTA 성능을 기록하며 다양한 Vision-Language 작업에서 우수한 결과를 보였어요. 2. 연구 배경 및 동향Vision-Language Pre-training (VLP)Visio..
[Gen AI] Stable Diffusion: 이미지 생성 AI 이해하기
·
🏛 Research/Generative AI
AI를 활용한 이미지 생성 기술은 단순한 픽셀 단위의 변형을 넘어, 고유한 예술적 창의성을 담아내는 단계에 이르렀다. AI는 이제 텍스트와 같은 간단한 조건에서부터 복잡한 이미지 디테일까지, 사용자 요구에 맞춰 고해상도 이미지를 생성할 수 있게 되었다. 이러한 흐름의 선두에 있는 기술 중 하나가 Stable Diffusion이다. 이 모델은 기존의 이미지 생성 모델들이 겪던 한계를 해결하며, 다양한 조건에서도 효율적으로 이미지를 생성할 수 있도록 설계되었다. Stable Diffusion의 구조와 학습 방식을 이해하면 이미지 생성 AI가 어떻게 발전해왔고, 어떤 방식으로 더 창의적인 결과물을 만들어내는지 알 수 있다. Diffusion Model ?Diffusion model은 데이터에 점진적으로 노이즈..