728x90 ๐ Research/Multi-modal4 [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Visual Instruction Tuning | LLaVA Model ๐ก LLaVA 1. ์ฐ๊ตฌ ์ฃผ์ ์ ์ฃผ์ ๊ธฐ์ฌ ์ด ์ฐ๊ตฌ๋ ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ํจ๊ป ์ดํดํ๊ณ ์ฒ๋ฆฌํ ์ ์๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ LLaVA๋ฅผ ์ ์ํ๊ณ ์์ด์. ํนํ Visual Instruction Tuning์ ํตํด ๋ฉํฐ๋ชจ๋ฌ ์์ ์์ ์ฌ์ฉ์์ ์ง์๋ฅผ ๋ฐ๋ฅด๊ณ , ๋ณต์กํ ์ด๋ฏธ์ง์ ํ ์คํธ ๊ธฐ๋ฐ ์์ ์ ์ํํ ์ ์๋๋ก ๋ชจ๋ธ์ ์ค๊ณํ์ด์. ๊ธฐ์กด์ ์ด๋ฏธ์ง-ํ ์คํธ ํ์ด ๋ฐ์ดํฐ(์: COCO)๋ฅผ ํ์ฉํ ํ์ต์์ ํ ๋ฐ ๋ ๋์๊ฐ, GPT-4๋ฅผ ํ์ฉํด ์ด๋ฏธ์ง ์ค๋ช ์บก์ ์ ๋ฐํ์ผ๋ก ์ง๋ฌธ๊ณผ ๋ต๋ณ ํ์์ ์๋ก์ด ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ต๋๋ค.์๋ก์ด ๋ฐ์ดํฐ์ ์์ฑ ๋ฐฉ๋ฒ: GPT-4๋ฅผ ํ์ฉํด ๊ธฐ์กด ์ด๋ฏธ์ง-ํ ์คํธ ํ์ด๋ฅผ ๋ฉํฐ๋ชจ๋ฌ ์ง์-์๋ต ๋ฐ์ดํฐ๋ก ์๋ ๋ณํํ๋ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ ๊ฐ๋ฐํ์ด์. ์ด๋ฅผ ํตํด ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ ์์ ์ ํ์ฉ ๊ฐ๋ฅ.. 2024. 12. 4. [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models ๐ก BLIP-21. ์ฐ๊ตฌ ์ฃผ์ ์ ์ฃผ์ ๊ธฐ์ฌ BLIP-2 ๋ ผ๋ฌธ์ Multi-modal Vision Language Pre-training(VLP)์ ๋ํ ๋น์ฉ ํจ์จ์ ์ธ ์๋ก์ด ์ ๊ทผ๋ฒ์ ์ ์ํ์ด์. ๊ธฐ์กด์ ํฐ ๋ชจ๋ธ์ end-to-end ๋ก ํ์ต์ํค๋ ๋ฐฉ์์ ๋์ ๊ณ์ฐ ๋น์ฉ์ ํด๊ฒฐํ๊ธฐ ์ํด, ์ด๋ฏธ ํ์ต๋ ์ด๋ฏธ์ง ์ธ์ฝ๋์ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๊ณ ์ (frozen)ํ ์ฑ๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ๊ณ ์ํ์ด์. Querying Transformer(Q-Former): Modality Gap(์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์ฐจ์ด)๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ค์ด๊ธฐ ์ํ ๊ฒฝ๋ ๋ชจ๋์ ์ ์ํ์ด์.Two-stage Pre-training: ๊ธฐ์กด ๋ชจ๋ธ์ ๊ฐ์ ์ ๊ฒฐํฉํ Representation Learning๊ณผ Generative Learning ์ ๋ต.. 2024. 12. 4. [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation ๐ก BLIP1. ์ฐ๊ตฌ ์ฃผ์ ์ ์ฃผ์ ๊ธฐ์ฌ BLIP๋ Vision-Language Pre-training(VLP)์ ์ํ ์๋ก์ด ํ๋ ์์ํฌ๋ก, ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์ดํด ๊ธฐ๋ฐ ์์ ๊ณผ ์์ฑ ๊ธฐ๋ฐ ์์ ์ ๋ชจ๋ ํจ๊ณผ์ ์ผ๋ก ์ํํ ์ ์๋๋ก ์ค๊ณ๋์์ด์.๊ธฐ์กด VLP ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๊ฐ์ ํ์ด์.์ดํด ๊ธฐ๋ฐ(์: ์ด๋ฏธ์ง-ํ ์คํธ ๊ฒ์) ๋๋ ์์ฑ ๊ธฐ๋ฐ(์: ์ด๋ฏธ์ง ์บก์ ์์ฑ) ์์ ์ ํนํ๋ ๊ธฐ์กด ๋ชจ๋ธ์ ๋จ์ ์ ๋ณด์.์น์์ ์์ง๋ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ต ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํ ๋ฐ์ดํฐ ๋ถํธ์คํธ๋ํ ๋ฐฉ๋ฒ ์ ์.BLIP๋ SOTA ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ฉฐ ๋ค์ํ Vision-Language ์์ ์์ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ด์. 2. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋ํฅVision-Language Pre-training (VLP)Visio.. 2024. 12. 4. [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Learning Transferable Visual Models From Natural Language Supervision / CLIP / Multi-modal network Open AI์์ ๊ฒ์ฌํ(ICML2021) Contrastive Language-Image Pre-training(CLIP)๋ฅผ ์ ์ํ ๋ ผ๋ฌธ์ ์๊ฐํฉ๋๋ค. Introduction & Motivation ๋ฅ๋ฌ๋์ด computer vision์ ๊ฑฐ์ ๋ชจ๋ ๋ถ์ผ์์ ๊ต์ฅํ ์ ํ์ฉ๋์ง๋ง ํ์ฌ ์ ๊ทผ ๋ฐฉ์์๋ ๋ช๊ฐ์ง ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๊ธฐ์กด์ vision model๋ค์ ํ์ต๋ task์๋ ์ฑ๋ฅ์ด ์ฐ์ํ์ง๋ง ์๋ก์ด task์ ์ ์ฉ์ํค๊ธฐ ์ํด์๋ ์๋ก ํ์ต์ ์ํค์ผ ํ๋(๊ทธ๋ฌ๋ฉด ์๋ก์ด ๋ฐ์ดํฐ์ ๊ณผ ์ถ๊ฐ ๋ ์ด๋ธ๋ง์ด ํ์..) ๋ฒ๊ฑฐ๋ก์(?) ์ด ์์ต๋๋ค. ๋ฒค์น๋งํฌ์์ ์ ์ํ๋๋ ๋ช๋ช model๋ค์ stress test์์ ์ข์ง ์์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํฉ๋๋ค. ๋์์ผ๋ก raw text์ image๋ฅผ pair๋ก ํ์ต์ํค๋ ๋ฐฉ๋ฒ.. 2022. 2. 26. ์ด์ 1 ๋ค์ 728x90