
[논문 리뷰] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
·
🏛 Research/Multi-modal
💡 BLIP1. 연구 주제와 주요 기여 BLIP는 Vision-Language Pre-training(VLP)을 위한 새로운 프레임워크로, 이미지와 텍스트 간의 이해 기반 작업과 생성 기반 작업을 모두 효과적으로 수행할 수 있도록 설계되었어요.기존 VLP 모델의 한계를 다음과 같이 개선했어요.이해 기반(예: 이미지-텍스트 검색) 또는 생성 기반(예: 이미지 캡션 생성) 작업에 특화된 기존 모델의 단점을 보완.웹에서 수집된 노이즈가 많은 데이터로부터 학습 성능을 극대화하기 위한 데이터 부트스트래핑 방법 제안.BLIP는 SOTA 성능을 기록하며 다양한 Vision-Language 작업에서 우수한 결과를 보였어요. 2. 연구 배경 및 동향Vision-Language Pre-training (VLP)Visio..