'multi-modal' 태그의 글 목록

💡 LLaVA 1. 연구 주제와 주요 기여 이 연구는 텍스트와 이미지를 함께 이해하고 처리할 수 있는 멀티모달 모델 LLaVA를 제안하고 있어요. 특히 Visual Instruction Tuning을 통해 멀티모달 작업에서 사용자의 지시를 따르고, 복잡한 이미지와 텍스트 기반 작업을 수행할 수 있도록 모델을 설계했어요. 기존의 이미지-텍스트 페어 데이터(예: COCO)를 활용한 학습에서 한 발 더 나아가, GPT-4를 활용해 이미지 설명 캡션을 바탕으로 질문과 답변 형식의 새로운 학습 데이터를 생성했답니다.새로운 데이터셋 생성 방법: GPT-4를 활용해 기존 이미지-텍스트 페어를 멀티모달 지시-응답 데이터로 자동 변환하는 데이터 생성 파이프라인을 개발했어요. 이를 통해 다양한 멀티모달 작업에 활용 가능..

💡 BLIP-21. 연구 주제와 주요 기여 BLIP-2 논문은 Multi-modal Vision Language Pre-training(VLP)에 대한 비용 효율적인 새로운 접근법을 제안했어요. 기존의 큰 모델을 end-to-end 로 학습시키는 방식의 높은 계산 비용을 해결하기 위해, 이미 학습된 이미지 인코더와 대형 언어 모델(LLM)을 고정(frozen)한 채로 사용하는 방법을 고안했어요. Querying Transformer(Q-Former): Modality Gap(이미지와 텍스트 간의 차이)를 효과적으로 줄이기 위한 경량 모듈을 제안했어요.Two-stage Pre-training: 기존 모델의 강점을 결합한 Representation Learning과 Generative Learning 전략..

💡 BLIP1. 연구 주제와 주요 기여 BLIP는 Vision-Language Pre-training(VLP)을 위한 새로운 프레임워크로, 이미지와 텍스트 간의 이해 기반 작업과 생성 기반 작업을 모두 효과적으로 수행할 수 있도록 설계되었어요.기존 VLP 모델의 한계를 다음과 같이 개선했어요.이해 기반(예: 이미지-텍스트 검색) 또는 생성 기반(예: 이미지 캡션 생성) 작업에 특화된 기존 모델의 단점을 보완.웹에서 수집된 노이즈가 많은 데이터로부터 학습 성능을 극대화하기 위한 데이터 부트스트래핑 방법 제안.BLIP는 SOTA 성능을 기록하며 다양한 Vision-Language 작업에서 우수한 결과를 보였어요. 2. 연구 배경 및 동향Vision-Language Pre-training (VLP)Visio..

Open AI에서 게재한(ICML2021) Contrastive Language-Image Pre-training(CLIP)를 제안한 논문을 소개합니다. Introduction & Motivation 딥러닝이 computer vision의 거의 모든 분야에서 굉장히 잘 활용되지만 현재 접근 방식에는 몇가지 문제가 있습니다. 기존의 vision model들은 학습된 task에는 성능이 우수하지만 새로운 task에 적용시키기 위해서는 새로 학습을 시키야 하는(그러면 새로운 데이터셋과 추가 레이블링이 필요..) 번거로움(?) 이 있습니다. 벤치마크에서 잘 수행되는 몇몇 model들은 stress test에서 좋지 않은 결과를 보여주기도 합니다. 대안으로 raw text와 image를 pair로 학습시키는 방법..

티스토리툴바