๐ก BLIP-2
1. ์ฐ๊ตฌ ์ฃผ์ ์ ์ฃผ์ ๊ธฐ์ฌ
BLIP-2 ๋ ผ๋ฌธ์ Multi-modal Vision Language Pre-training(VLP)์ ๋ํ ๋น์ฉ ํจ์จ์ ์ธ ์๋ก์ด ์ ๊ทผ๋ฒ์ ์ ์ํ์ด์. ๊ธฐ์กด์ ํฐ ๋ชจ๋ธ์ end-to-end ๋ก ํ์ต์ํค๋ ๋ฐฉ์์ ๋์ ๊ณ์ฐ ๋น์ฉ์ ํด๊ฒฐํ๊ธฐ ์ํด, ์ด๋ฏธ ํ์ต๋ ์ด๋ฏธ์ง ์ธ์ฝ๋์ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๊ณ ์ (frozen)ํ ์ฑ๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ๊ณ ์ํ์ด์.
- Querying Transformer(Q-Former): Modality Gap(์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์ฐจ์ด)๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ค์ด๊ธฐ ์ํ ๊ฒฝ๋ ๋ชจ๋์ ์ ์ํ์ด์.
- Two-stage Pre-training: ๊ธฐ์กด ๋ชจ๋ธ์ ๊ฐ์ ์ ๊ฒฐํฉํ Representation Learning๊ณผ Generative Learning ์ ๋ต์ผ๋ก ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ๋ชจ๋ ์ก์์ด์.
- Flamingo ๋ฑ๊ณผ ๋น๊ตํด 54๋ฐฐ ์ ์ Trainable Parameters๋ก๋ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ด์.
2. CLIP, BLIP, BLIP-2 ๋น๊ต
ํน์ง | CLIP | BLIP | BLIP-2 |
Pre-training ๋ฐฉ์ | Image-Text Contrastive Learning |
Contrastive Learning + Generative Learning |
Two-stage Learning (Representation + Generative) |
๋ชจ๋ธ ๊ตฌ์กฐ | Dual-Encoder | Encoder-Decoder | Q-Former + Frozen Image/Language Models |
Trainable Parameters |
์ฝ 428M | ์ฝ 583M | ์ฝ 188M |
์ฃผ์ ํน์ง | ํ ์คํธ์ ์ด๋ฏธ์ง ๊ฐ Representation Alignment | Image Captioning ๋ฐ VQA ๊ฐ๋ฅ | ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๊ท ํ |
์ฅ์ | ๋น ๋ฅธ ํ์ต ์๋ | ์์ฑ ๊ธฐ๋ฐ ์์ ์ ์ ๋ฆฌ | ์ต์ํ์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก SOTA ์ฑ๋ฅ |
ํ๊ณ | Generative ๋ฅ๋ ฅ ๋ถ์กฑ | ๊ณ์ฐ ๋น์ฉ์ด ํฌ๋ค | Frozen Models ์์กด์ฑ |
3. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋ํฅ
Vision-Language ์ฐ๊ตฌ๋ ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ Representation ํ์ต์ผ๋ก, Image Captioning, Visual Question Answering(VQA), Image-Text Retrieval ๊ฐ์ ์์ ์์ ํ๋ฐํ ๋ฐ์ ํด์์ด์.
๊ธฐ์กด CLIP(Radford et al., 2021)๋ ํจ์จ์ ์ธ Contrastive Learning ๋ฐฉ์์ ํตํด ๊ฐ๋ ฅํ Zero-shot ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ง๋ง, Generative Task์์๋ ํ๊ณ๊ฐ ์์๊ณ , BLIP(Li et al., 2022)๋ Contrastive์ Generative Task๋ฅผ ๋ชจ๋ ์ง์ํ์ง๋ง, ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋๋ ๋ฌธ์ ๊ฐ ์์์ด์.
์ต๊ทผ์๋ Flamingo(Alayrac et al., 2022)์ฒ๋ผ Frozen Models๋ฅผ ํ์ฉํ์ฌ ํจ์จ์ฑ์ ๋์ด๋ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ํ๊ณ ์์ด์.
4. ์ฃผ์ ์ ์
BLIP-2์ ํต์ฌ์ Q-Former์ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ Two-stage Pre-training์ด์์. ์ด ๊ตฌ์กฐ๋ Frozen Image Encoder์ Frozen LLM ๊ฐ์ Modality Gap(๋ชจ๋ฌ๋ฆฌํฐ ๊ฒฉ์ฐจ)์ ํจ์จ์ ์ผ๋ก ํด์ํ๊ณ , ๊ณ์ฐ ์์์ ์๋ผ๋ฉด์๋ ๋์ ์ฑ๋ฅ์ ๊ตฌํํ ์ ์๋๋ก ์ค๊ณ๋์์ด์.
4.1. Q-Former
Q-Former๋ Frozen Image Encoder์ Frozen LLM์ ์ฐ๊ฒฐํ๋ ๊ฒฝ๋ Transformer ๋ชจ๋๋ก, ๋ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ์ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ๊ตํํ๊ธฐ ์ํด ์ค๊ณ๋์์ด์. ์ด ๋ชจ๋์ ๋ค์๊ณผ ๊ฐ์ ์ฃผ์ ๊ธฐ๋ฅ์ ์ํํฉ๋๋ค.
4.1.1. Learnable Query Vectors
Q-Former๋ Learnable Query Vectors๋ผ๋ ํ์ต ๊ฐ๋ฅํ ๋ฒกํฐ๋ฅผ ํตํด ์ด๋ฏธ์ง ์ธ์ฝ๋์ ๊ณ ์ ๋ ์๊ฐ์ ํํ์์ ๊ฐ์ฅ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ถ์ถํด์. ์๋ฅผ ๋ค์ด, ์ด๋ฏธ์ง ์ธ์ฝ๋์์ 257๊ฐ์ ์ด๋ฏธ์ง ํน์ง ๋ฒกํฐ๋ฅผ ์ถ๋ ฅํ๋ค๋ฉด, Q-Former๋ 32๊ฐ์ Query Vectors๋ฅผ ํ์ตํด ์ด ์ค ํ ์คํธ ์์ฑ์ ํ์ํ ํต์ฌ ์ ๋ณด๋ง ์์ฝํด์ ๊ฐ์ ธ์์.
์ด ๊ณผ์ ์์ Cross-Attention ๋ฉ์ปค๋์ฆ์ ํ์ฉํด Query์ ์ด๋ฏธ์ง ํน์ง ๊ฐ์ ์ํธ์์ฉ์ ์ํํ๋ฉฐ, ์ ๋ณด์ ์ค์๋๋ฅผ ํ๋จํด ํ์์ ์ธ ์๊ฐ์ ๋จ์๋ฅผ ์ ํํฉ๋๋ค. ์ด ๋ฐฉ์์ ํ ์คํธ ์์ฑ๊ณผ ๊ฐ์ ์ธ์ด ์์ ์ ํ์ํ ์ ๋ณด๋ง ์ ๋ณ์ ์ผ๋ก ์ ๋ฌํ๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ํ๋ณดํ ์ ์์ด์.
4.1.2. Bottleneck ์ญํ
Q-Former๋ ์ด๋ฏธ์ง ์ธ์ฝ๋์ LLM ์ฌ์ด์์ ์ ๋ณด bottleneck ์ญํ ์ ํด์. ์ด๋ฏธ์ง ์ธ์ฝ๋๊ฐ ์ถ๋ ฅํ๋ ๋๊ท๋ชจ์ ์๊ฐ ์ ๋ณด๋ฅผ LLM์ด ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋๋ก ํ์ํ ํต์ฌ ์ ๋ณด๋ก ๊ฐ์ํํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค. ์ด ๊ณผ์ ์์ Learnable Query Vectors๋ฅผ ํ์ฉํด ํ์์ ์ธ ์๊ฐ์ ๋จ์๋ฅผ ์ถ์ถํ๊ณ , ์ด๋ฅผ LLM์ ์ ๋ฌํ์ฌ ํ ์คํธ ์์ฑ์ด๋ ์ง๋ฌธ ์๋ต๊ณผ ๊ฐ์ ์์ ์ ์ํํ ๋ ํ์ํ ์ต์ํ์ ์ ๋ณด๋ฅผ ํฌํจํ๋๋ก ์ค๊ณ๋ผ์. ์ด๋ ๊ฒ ์ ๋ณด์ ์์ ์ค์ด๋ฉด์๋ ์ค์ํ ๋ด์ฉ์ ๋์น์ง ์๋๋ก ์ต์ ํํจ์ผ๋ก์จ ๋ชจ๋ธ์ ๊ณ์ฐ ์์์ ์ ์ฝํ๊ณ ์ฑ๋ฅ์ ์ ์งํ ์ ์์ด์.
4.1.3. Transformer์ ๋ ๊ฐ์ง ๋ชจ๋
Q-Former๋ ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ํด ๋ด๋ถ์ ์ผ๋ก ๋ ๊ฐ์ง ๋ชจ๋์ Transformer๋ฅผ ํฌํจํ๊ณ ์์ด์.
- Image Transformer: Learnable Query Vectors๊ฐ Frozen Image Encoder์ ์ถ๋ ฅ๊ณผ ์ํธ์์ฉํ์ฌ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค. ์ด ๊ณผ์ ์์ ์ด๋ฏธ์ง์ ๊ณ ์ ๋ ํน์ง ํํ์์ ํ ์คํธ ์์ฑ์ ํ์ํ ์๊ฐ์ ์ ๋ณด๋ฅผ ์ ํ์ ์ผ๋ก ์ถ์ถํด์.
- Text Transformer: Query Vectors๊ฐ Frozen LLM๊ณผ ์ํธ์์ฉํ๋ฉฐ, ํ ์คํธ ์์ฑ์ด๋ ์ง๋ฌธ ์๋ต์ ํ์ํ ์ ๋ณด๋ฅผ ์ ๋ฌํฉ๋๋ค. ์ด ๊ณผ์ ์์ ์ ํ๋ ์๊ฐ ์ ๋ณด๋ ์์ฐ์ด๋ก ๋ณํ๋๋ ๋ฐ ์ฌ์ฉ๋ผ์.
์ด ๋ ๊ฐ์ง ๋ชจ๋๋ ๊ฐ๊ฐ ์๊ฐ ์ ๋ณด์ ์ดํด์ ์ธ์ด์ ํํ ๊ฐ์ ๋ค๋ฆฌ ์ญํ ์ ํ๋ฉฐ, ๋ ๋ชจ๋ฌ๋ฆฌํฐ์ ๊ฒฉ์ฐจ๋ฅผ ์ค์ด๊ณ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ๊ตํํ ์ ์๋๋ก ๋์ต๋๋ค. ์ด๋ฌํ ์ค๊ณ๋ BLIP-2๊ฐ ๋ค์ํ Vision-Language ์์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ๋ ๋ฐ ํต์ฌ์ ์ธ ์ญํ ์ ํด์.
4.2. Two-stage Pre-training
BLIP-2๋ Q-Former๋ฅผ ํ์ต์ํค๊ณ Vision-to-Language ์์ ์ ์ต์ ํํ๊ธฐ ์ํด Representation Learning๊ณผ Generative Learning์ ๋ ๋จ๊ณ Pre-training ์ ๋ต์ ์ฌ์ฉํด์. ์ด๋ฌํ ์ ๋ต์ ๊ณ์ฐ ์์์ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ๋ฉด์๋ ๋์ ์ฑ๋ฅ์ ๊ตฌํํ๋๋ก ์ค๊ณ๋์๋ต๋๋ค.
4.2.1. Representation Learning
Representation Learning์ ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ ๊ฐ๋ ฅํ ๋ฉํฐ๋ชจ๋ฌ ํํ์ ํ์ตํ๋ ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์. ์ด ๋จ๊ณ๋ ์ด๋ฏธ์ง์ ํ ์คํธ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ์ ๋ ฌํ๊ณ , ํ์ํ ์ ๋ณด๋ฅผ ์ ํํ ์ถ์ถํ ์ ์๋๋ก Q-Former๋ฅผ ํ์ตํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค. ์ฃผ์ ํ์ต ๋ชฉํ๋ ๋ค์๊ณผ ๊ฐ์์.
1) Image-Text Contrastive Learning (ITC)
ITC๋ ์ด๋ฏธ์ง์ ํ
์คํธ๋ฅผ ๋ฒกํฐ ๊ณต๊ฐ์์ ์ ๋ ฌ(align)ํ๋ ์์
์ด์์. Q-Former์ Query Vectors๋ ์ด๋ฏธ์ง์ ์๊ฐ์ ํน์ง์ ์ถ์ถํ ๋ค, ์ด๋ฅผ ํ
์คํธ ํํ๊ณผ ๋น๊ตํด positive pairs๋ฅผ ๊ฐ๊น์ด, negative pairs๋ฅผ ๋ฉ๋ฆฌ ์์นํ๋๋ก ํ์ตํด์.
์๋ฅผ ๋ค์ด, "๊ณ ์์ด๊ฐ ์ ๊ธ๋ผ์ค๋ฅผ ์ฐ๊ณ ์๋ ์ด๋ฏธ์ง"์ "๊ณ ์์ด๊ฐ ์ ๊ธ๋ผ์ค๋ฅผ ์ฐ๊ณ ์๋ค"๋ ํ ์คํธ๋ positive pair๋ก ๊ฐ์ฃผ๋ผ์. ๋ฐ๋ฉด, "๊ฐ์์ง๊ฐ ๋ฐ์ด๋๊ณ ์๋ ์ด๋ฏธ์ง"๋ negative pair๋ก ์ฒ๋ฆฌ๋ฉ๋๋ค.
์ด ์์ ์ ํตํด ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ ์ ๋ฐ์ ์ธ ์๋ฏธ์ ์ผ์น๋ฅผ ํ์ตํด์.
2) Image-Text Matching (ITM)
ITM์ ์ด๋ฏธ์ง์ ํ
์คํธ ๊ฐ์ Fine-grained Alignment๋ฅผ ํ์ตํด์. ๋ชจ๋ธ์ ์ฃผ์ด์ง ์ด๋ฏธ์ง์ ํ
์คํธ ์์ด ์ผ์นํ๋์ง ์ฌ๋ถ๋ฅผ ์ด์ง ๋ถ๋ฅ ๋ฐฉ์์ผ๋ก ํ์ตํ๊ณ , ํ
์คํธ์ ์ด๋ฏธ์ง ๊ฐ์ ์ธ๋ฐํ ๊ด๊ณ๋ฅผ ์ดํดํ๋๋ก ๋์ต๋๋ค.
์๋ฅผ ๋ค์ด, "์ฌ๊ณผ"๋ผ๋ ํ ์คํธ์ "์ฌ๊ณผ ์ฌ์ง"์ positive pair๋ก ํ์ต๋์ง๋ง, "๋ฐ๋๋"๋ผ๋ ํ ์คํธ์ "์ฌ๊ณผ ์ฌ์ง"์ negative pair๋ก ํ์ต๋ผ์.
์ด ๊ณผ์ ์ ๋ชจ๋ธ์ด ํ ์คํธ์ ์ด๋ฏธ์ง ๊ฐ์ ๊ตฌ์ฒด์ ์ด๊ณ ์ธ๋ฐํ ๋งฅ๋ฝ์ ์ดํดํ๋๋ก ๋ง๋ญ๋๋ค.
3) Image-grounded Text Generation (ITG)
ITG๋ ํ
์คํธ ์์ฑ์ ํ์ํ ์๊ฐ์ ์ ๋ณด๋ฅผ ์ถ์ถํ๋๋ก Q-Former๋ฅผ ํ์ตํ๋ ๊ณผ์ ์ด์์. Query Vectors๋ ์ด๋ฏธ์ง์์ ํ
์คํธ ์์ฑ์ ํ์์ ์ธ ์ ๋ณด๋ฅผ ์ ๋ณ์ ์ผ๋ก ์ถ์ถํ๊ณ , ์ด๋ฅผ ํ
์คํธ Transformer์ ์ ๋ฌํด ์์ฐ์ค๋ฌ์ด ํ
์คํธ๋ฅผ ์์ฑํ๋๋ก ํ์ตํด์.
์๋ฅผ ๋ค์ด, ์ฌ์ง ์ค๋ช ์์ฑ ์์ ์์ "์ด ์ฌ์ง์ ์ ๊ธ๋ผ์ค๋ฅผ ์ด ๊ณ ์์ด๋ฅผ ๋ณด์ฌ์ค๋๋ค"์ ๊ฐ์ ํ ์คํธ๋ฅผ ์์ฑํ๋๋ก ํ์ตํฉ๋๋ค.
Representation Learning์ ์๋ฏธ
Representation Learning์ LLM์ด ์ฒ๋ฆฌํด์ผ ํ ์๊ฐ ์ ๋ณด์ ์์ ์ค์ด๊ณ , Q-Former๊ฐ ์ต์ ํ๋ ์๊ฐ ํํ์ LLM์ ์ ๋ฌํ ์ ์๋๋ก ํ์ตํ๋ ๊ธฐ์ด ๋จ๊ณ์์. ์ด๋ฅผ ํตํด Frozen Image Encoder์ Q-Former ๊ฐ ํ๋ ฅ์ ๊ฐํํ๊ณ , ํ ์คํธ ์์ฑ์ ํ์ํ ์๊ฐ์ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ์ ๋ ฌํฉ๋๋ค.
4.2.2. Generative Learning: ํ ์คํธ ์์ฑ ์ต์ ํ
Generative Learning์ Representation Learning ์ดํ ์งํ๋๋ ๋ ๋ฒ์งธ ๋จ๊ณ๋ก, LLM๊ณผ์ ์ฐ๊ฒฐ์ ์ต์ ํํด ํ ์คํธ ์์ฑ ๋ฅ๋ ฅ์ ๊ฐํํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ๊ณ ์์ด์. ์ด ๋จ๊ณ๋ LLM์ด ์๊ฐ ์ ๋ณด๋ฅผ ์์ฐ์ด๋ก ๋ณํํ๋ ๊ณผ์ ์ ์ ๊ตํ๊ฒ ์กฐ์จํฉ๋๋ค.
1) Soft Prompting with Q-Former
Q-Former๋ Frozen LLM๊ณผ ์ง์ ์ฐ๊ฒฐ๋์ง ์๊ณ , Query Representation์ Soft Prompt๋ก ๋ณํํด LLM์ ์
๋ ฅ์ผ๋ก ์ ๊ณตํด์. ์ด ๋ฐฉ์์ LLM์ ๊ตฌ์กฐ๋ ๊ฐ์ค์น๋ฅผ ๋ณ๊ฒฝํ์ง ์์ผ๋ฉด์๋, ์๊ฐ์ ์ ๋ณด๋ฅผ ํ
์คํธ๋ก ํํํ๋ ๋ฅ๋ ฅ์ ์์ฐ์ค๋ฝ๊ฒ ๊ฐํํด์ค๋๋ค.
์๋ฅผ ๋ค์ด, ์ด๋ฏธ์ง์์ ์ถ์ถํ Query Representation์ "์ด๋ฏธ์ง ์ค๋ช :"์ด๋ผ๋ ํ ์คํธ์ ๊ฒฐํฉํด ์ ๋ ฅํ๋ฉด, LLM์ด "๊ณ ์์ด๊ฐ ์ ๊ธ๋ผ์ค๋ฅผ ์ฐ๊ณ ์๋ค"์ ๊ฐ์ ๋ฌธ์ฅ์ ์์ฑํ๋๋ก ์ ๋ํด์.
2) Decoder-based LLM (OPT)์ Encoder-Decoder LLM (FlanT5)์ ์ฐจ์ด
- OPT (Decoder-only)
Query Representation์ LLM์ ์ ๋ ฅ ํ ์คํธ์ ์์ ๋ถ๋ ์ถ๊ฐ ํ ํฐ์ฒ๋ผ ๋์ํด์.
(์์: "์ด๋ฏธ์ง ์ค๋ช : ๊ณ ์์ด๊ฐ ์ ๊ธ๋ผ์ค๋ฅผ ์ฐ๊ณ ์๋ค.") - FlanT5 (Encoder-Decoder)
Query Representation์ LLM์ ์ธ์ฝ๋ ์ ๋ ฅ๊ณผ ๊ฒฐํฉ๋ผ ํ ์คํธ ์์ฑ ๊ณผ์ ์ ๋์ต๋๋ค.
(์์: "์ด๋ฏธ์ง ์ค๋ช ์์ฑ -> ํ ์คํธ ์ถ๋ ฅ.")
Generative Learning์ ์๋ฏธ
Generative Learning์ Q-Former๊ฐ ์ถ์ถํ ์๊ฐ ์ ๋ณด๋ฅผ Frozen LLM์ ํจ๊ณผ์ ์ผ๋ก ์ ๋ฌํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ฐ์ค๋ฌ์ด ํ ์คํธ๋ฅผ ์์ฑํ๋ ๋ฅ๋ ฅ์ ์ต์ ํํ๋ ๋จ๊ณ์์. ์ด ์ ๊ทผ๋ฒ์ LLM์ ๊ตฌ์กฐ๋ฅผ ๋ณ๊ฒฝํ์ง ์์ผ๋ฉด์๋ ๊ฐ๋ ฅํ Vision-to-Language ์ฑ๋ฅ์ ๊ตฌํํ ์ ์๋๋ก ๋์ต๋๋ค.
4.2.3. Two-Stage Pre-training์ ๊ฐ์
Representation Learning๊ณผ Generative Learning์ ์กฐํฉ์ BLIP-2๊ฐ ์ ์ Trainable Parameters๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋๋ก ํด์ค๋๋ค.
- Frozen Models์ ํ์ฉํด ์ต์ ๋ชจ๋ธ์ ๊ฐ์ ์ ์ต๋ํ ํ์ฉํ๋ฉด์ ๊ณ์ฐ ์์์ ์ ์ฝํด์.
- Q-Former๋ Vision-to-Language ์์ ์์ ํ์์ ์ธ ์ ๋ณด๋ง ์ ๋ณ์ ์ผ๋ก ์ ๋ฌํด ํจ์จ์ฑ์ ๊ทน๋ํํด์.
- ์ด๋ฌํ ์ ๊ทผ์ ์๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ธ์ด์ ํํ์ผ๋ก ๋ณํํ๋ ๋ฐ ์ต์ ํ๋์ด, ๋ค์ํ Vision-Language ์์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
BLIP-2์ Two-Stage Pre-training ์ ๋ต์ Vision-Language ์ฐ๊ตฌ์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํ๋ฉฐ, ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ์๋ฒฝํ ๊ท ํ์ ๋ณด์ฌ์ค๋๋ค.
5. ์คํ ๊ฒฐ๊ณผ
BLIP-2๋ ๋ค์ํ Vision-Language ์์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ์ ์ฆํ๋ฉฐ, ํจ์จ์ฑ๊ณผ ์ ํ์ฑ์ ๋์์ ๋ณด์ฌ์คฌ์ด์. Zero-shot VQA ์์ ์์ Flamingo80B ๋๋น 8.7% ๋ ๋์ ์ ํ๋(65.0%)๋ฅผ ๊ธฐ๋กํ์ผ๋ฉฐ, ์ด๋ 54๋ฐฐ ์ ์ Trainable Parameters๋ก ๋ฌ์ฑ๋ ๊ฒฐ๊ณผ๋ก ๋ชจ๋ธ์ ๊ฒฝ๋ํ์ ํจ์จ์ฑ์ ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ฏธ์ง ์ค๋ช ์์ฑ์์๋ COCO์ NoCaps ๋ฐ์ดํฐ์ ์์ ๊ฐ๊ฐ CIDEr ์ ์ 145.8๊ณผ 121.6์ผ๋ก ์ต๊ณ ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ฉฐ, ์ด๋ฏธ์ง์ ์๊ฐ์ ์ ๋ณด๋ฅผ ์์ฐ์ค๋ฌ์ด ํ ์คํธ๋ก ๋ณํํ๋ ๋ฅ๋ ฅ์ ์ ์ฆํ์ด์. ๋ํ, ์ด๋ฏธ์ง-ํ ์คํธ ๊ฒ์์์๋ Flickr30K์ COCO ๋ฐ์ดํฐ์ ์์ Recall@1 ๊ธฐ์ค ๊ฐ๊ฐ 97.6%์ 85.4%๋ฅผ ๋ฌ์ฑํ๋ฉฐ, ํ ์คํธ์ ์ด๋ฏธ์ง ๊ฐ์ ๊ด๊ณ๋ฅผ ์ ๊ตํ๊ฒ ์ดํดํ๋ ๋ชจ๋ธ์ ๊ฐ์ ์ ๋ณด์ฌ์คฌ์ต๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ BLIP-2๊ฐ ์ ์ ์์์ผ๋ก๋ ๋์ ์ฑ๋ฅ์ ๊ตฌํํ๋ฉฐ, ๋ค์ํ Vision-Language ์์ ์์ ๋ค๋ชฉ์ ์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ถ ๋ชจ๋ธ์์ ๋ํ๋ ๋๋ค.
6. ๊ฒฐ๋ก
BLIP-2๋ ๋ฉํฐ๋ชจ๋ฌ AI์์ ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ํ์ ์ ์ผ๋ก ๊ฒฐํฉํ ๋ชจ๋ธ๋ก, Q-Former๋ฅผ ํ์ฉํด ๊ณ ์ ๋ ์ด๋ฏธ์ง ๋ฐ ์ธ์ด ๋ชจ๋ธ ๊ฐ์ ๊ฐ๊ทน์ ํจ๊ณผ์ ์ผ๋ก ํด์ํ๋ฉฐ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด์ด์คฌ์ด์. ๊ณ ์ ๋ ์ธ์ด ๋ชจ๋ธ(OPT, FlanT5 ๋ฑ)์ ์์กดํ๋ ๋งํผ ์ ํํ ์ธ์ด ๋ชจ๋ธ์ ํ์ง์ด ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น๊ณ , ๋ค์ค ์ด๋ฏธ์ง-ํ ์คํธ ์ํ์ค ๋ฐ์ดํฐ ์ธํธ ๋ถ์กฑ์ผ๋ก ์ธํด in-context learning ์ฑ๋ฅ์ด ์ ํ์ ์ด๋ผ๋ ํ๊ณ๋ ์์ง๋ง, ์ด๋ฌํ ๋ฌธ์ ๋ ๋ ํ๋ถํ ๋ฐ์ดํฐ์ ๋ชจ๋ ๊ฐ์ ์ ํตํด ์ถฉ๋ถํ ๋ณด์ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
BLIP-2๋ CLIP๊ณผ BLIP์ ๊ฐ์ ์ ๋ชจ๋ ์ด์ด๋ฐ์ผ๋ฉด์๋ ํจ์จ์ฑ์ ๊ทน๋ํํ ์ ์ด ๋๋ณด์ด๋ฉฐ, ์ค์ฉ์ฑ๊ณผ ํ์ฅ์ฑ ์ธก๋ฉด์์ ๋ฉํฐ๋ชจ๋ฌ AI์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํ์ด์.