๐ก BLIP
1. ์ฐ๊ตฌ ์ฃผ์ ์ ์ฃผ์ ๊ธฐ์ฌ
BLIP๋ Vision-Language Pre-training(VLP)์ ์ํ ์๋ก์ด ํ๋ ์์ํฌ๋ก, ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์ดํด ๊ธฐ๋ฐ ์์ ๊ณผ ์์ฑ ๊ธฐ๋ฐ ์์ ์ ๋ชจ๋ ํจ๊ณผ์ ์ผ๋ก ์ํํ ์ ์๋๋ก ์ค๊ณ๋์์ด์.
๊ธฐ์กด VLP ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๊ฐ์ ํ์ด์.
- ์ดํด ๊ธฐ๋ฐ(์: ์ด๋ฏธ์ง-ํ ์คํธ ๊ฒ์) ๋๋ ์์ฑ ๊ธฐ๋ฐ(์: ์ด๋ฏธ์ง ์บก์ ์์ฑ) ์์ ์ ํนํ๋ ๊ธฐ์กด ๋ชจ๋ธ์ ๋จ์ ์ ๋ณด์.
- ์น์์ ์์ง๋ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ต ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํ ๋ฐ์ดํฐ ๋ถํธ์คํธ๋ํ ๋ฐฉ๋ฒ ์ ์.
BLIP๋ SOTA ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ฉฐ ๋ค์ํ Vision-Language ์์ ์์ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ด์.
2. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋ํฅ
Vision-Language Pre-training (VLP)
Vision-Language Pre-training(VLP)์ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ํจ๊ป ์ดํดํ๊ณ ํ์ฉํ๋ ๊ธฐ์ ์ด์์. ์ฐ๋ฆฌ๊ฐ ํํ ๋ณด๋ ์ด๋ฏธ์ง-ํ ์คํธ ๊ฒ์, ์ด๋ฏธ์ง ์ค๋ช ์์ฑ ๊ฐ์ ์์ ์ ๊ผญ ํ์ํ ๊ธฐ์ ์ด์ฃ . ๊ทธ๋ฐ๋ฐ ๊ธฐ์กด VLP ๋ชจ๋ธ๋ค์ ๋๋ถ๋ถ ์น์์ ๋๊ท๋ชจ๋ก ์์งํ ์ด๋ฏธ์ง-ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ง๋ง, ์ด ๋ฐ์ดํฐ๊ฐ ๋ ธ์ด์ฆ๊ฐ ๋ง์์ ๋ฌธ์ ์์ด์. ๋ฐ์ดํฐ ํ์ง์ด ์ข์ง ์์ผ๋ฉด ๋ชจ๋ธ์ด ์๋ชป ํ์ต๋๊ฑฐ๋ ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์๊ฒ ์ฃ ?
๋ํ์ ์ธ ๊ธฐ์กด ๋ชจ๋ธ
- CLIP: ํ ์คํธ-์ด๋ฏธ์ง ๊ฒ์์์ ์ ๋ง ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ง๋ง, ํ ์คํธ๋ฅผ ๋ง๋ค์ด๋ด๋ ์์ ์๋ ์ฝํ์ด์.
- ALBEF: ์ด๋ฏธ์ง ์ ๋ํ ์ผ์ ๋ ์ ํ์ฉํ์ง๋ง, ์ฌ์ ํ ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ง ๋ชปํ์ด์.
- SimVLM: ๋จ์ํ ๊ตฌ์กฐ๋ก ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌํ์ง๋ง, ํ ๊ฐ์ง ์์ ์๋ง ํนํ๋ ๋๋์ด์์ด์.
๊ธฐ์กด ๋ชจ๋ธ์ ํ๊ณ
๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๊ฐ๊ฐ์ ์์
์๋ ๊ฐ์ ์ด ์์ง๋ง, ์ดํด์ ์์ฑ ์์
์ ๋์์ ์ํด๋ด์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ์์์ด์.
- Encoder ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํ ์คํธ๋ฅผ ์์ฑํ๊ธฐ์๋ ์ ํฉํ์ง ์์์ ์ด๋ฏธ์ง ์ค๋ช ๊ฐ์ ์์ ์ ์ ๋ชปํ์ด์.
- Encoder-Decoder ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ด๋ฏธ์ง-ํ ์คํธ ๋งค์นญ ๊ฐ์ ์ดํด ์์ ์์ ์ฑ๋ฅ์ด ๋จ์ด์ก์ด์.
๋ํ, ์น์์ ๊ฐ์ ธ์จ ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ ๋ฌธ์ ๋ฅผ ์ ๋๋ก ํด๊ฒฐํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ด ๋ฐ์ดํฐ์ ์ค๋ฅ๋ ๋ถ์์ ํจ๊น์ง ํ์ตํด๋ฒ๋ฆฌ๋ ์ผ์ด ๋ง์์ด์. ๊ทธ๋์ ๋ ์ ๊ตํ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ๊ณผ ์ดํด์ ์์ฑ์ ๋์์ ์ํ๋ ๋ชจ๋ธ์ด ํ์ํ์ด์.
3. ์ฃผ์ ์ ์
BLIP์ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๋ ํตํฉ ๋น์ -์ธ์ด ํ๋ฆฌํธ๋ ์ด๋(VLP) ํ๋ ์์ํฌ๋ฅผ ์ ์ํด์. ์ด ํ๋ ์์ํฌ๋ ์๋ก์ด ๋ชจ๋ธ ์ํคํ ์ฒ์ธ Multimodal Mixture of Encoder-Decoder (MED)์ ๋ฐ์ดํฐ ํ์ง์ ๊ฐ์ ํ๋ Captioning and Filtering (CapFilt) ๋ฐฉ๋ฒ๋ก ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
3.1. Multimodal Mixture of Encoder-Decoder (MED)
BLIP์ ํต์ฌ ๊ตฌ์กฐ์ธ Multimodal Mixture of Encoder-Decoder(MED)๋ ์ดํด์ ์์ฑ ์์ ์ ๋์์ ์ํํ ์ ์๋๋ก ์ค๊ณ๋ ๋ค๋ชฉ์ ๋น์ -์ธ์ด ๋ชจ๋ธ์ด์์. ์ด ์ํคํ ์ฒ๋ ์ธ ๊ฐ์ง ๋ชจ๋๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๊ฐ๊ฐ ํน์ ์์ ์ ์๊ตฌ์ฌํญ์ ์ถฉ์กฑํ๋๋ก ์ค๊ณ๋์๋ต๋๋ค.
3.1.1. Unimodal Encoder
Unimodal Encoder๋ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ์ธ์ฝ๋ฉํ์ฌ ๊ฐ๊ฐ์ ํํ ๋ฒกํฐ๋ฅผ ์์ฑํด์. ํ ์คํธ ์ธ์ฝ๋๋ BERT ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์ ๋ ฅ ํ ์คํธ์ ์์์ [CLS] ํ ํฐ์ ์ถ๊ฐํด์ ๋ฌธ์ฅ ์ ์ฒด๋ฅผ ์์ฝํ๋ ํํ์ ์์ฑํฉ๋๋ค. ์ด ๋ชจ๋๋ ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ๊ฐ์ ๋ ๋ฆฝ์ ์ธ ํน์ง์ ์ถ์ถํ๋ ๋ฐ ์ ํฉํด์.
3.1.2. Image-grounded Text Encoder
Image-grounded Text Encoder๋ ํ ์คํธ ์ธ์ฝ๋์ ๊ฐ Transformer ๋ธ๋ก์ ํฌ๋ก์ค ์ดํ ์ (Cross-Attention) ๊ณ์ธต์ ์ถ๊ฐํด์. ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง์์ ์ป์ ์ ๋ณด๋ฅผ ํ ์คํธ ์ธ์ฝ๋์ ํตํฉํ์ฌ ๋ฉํฐ๋ชจ๋ฌ ํํ์ ์์ฑํฉ๋๋ค. ์ด ๋ชจ๋๋ ์ด๋ฏธ์ง์ ํ ์คํธ์ ๊ด๊ณ๋ฅผ ํ์ตํ๋ ๋ฐ ์ค์ ์ ๋๋ฉฐ, ์ด๋ฏธ์ง-ํ ์คํธ ๋งค์นญ๊ณผ ๊ฐ์ ์ดํด ๊ธฐ๋ฐ ์์ ์์ ํ์ฉ๋ผ์.
3.1.3. Image-grounded Text Decoder
Image-grounded Text Decoder๋ ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์คํธ๋ฅผ ์์ฑํ๋ ๋ชจ๋์์. ๋์ฝ๋๋ Causal Self-Attention์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ๋ ์ด๋ฏธ์ง์ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ์์ฐจ์ ์ผ๋ก ํ ์คํธ๋ฅผ ์์ฑํฉ๋๋ค. ํ ์คํธ ์์ฑ์ ์์ํ๋ [Decode] ํ ํฐ๊ณผ ์ข ๋ฃ๋ฅผ ๋ํ๋ด๋ End-of-Sequence ํ ํฐ์ ํฌํจํ๋ฉฐ, ์ด๋ฏธ์ง ์บก์ ์์ฑ์ด๋ ํ ์คํธ ์์ฑ ์์ ์ ์ ํฉํฉ๋๋ค.
Vision Transformer (ViT) ํ์ฉ
BLIP๋ ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ์ ์ํด Vision Transformer(ViT)๋ฅผ ์ฌ์ฉํด์. ViT๋ ์ด๋ฏธ์ง๋ฅผ ์์ ํจ์น ๋จ์๋ก ๋ถํ ํ๊ณ , ๊ฐ ํจ์น๋ฅผ ๋ฒกํฐ ํํ๋ก ์๋ฒ ๋ฉํ์ฌ Transformer ๊ตฌ์กฐ์ ์
๋ ฅํฉ๋๋ค. ์ด๋ฅผ ํตํด ์๊ฐ์ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ตํ๊ณ , ๋ค์ํ ์ด๋ฏธ์ง ์์
์ ํ์ฉํ ์ ์๋๋ก ์ง์ํด์.
3.2. Pre-training Objectives
MED ์ํคํ ์ฒ๋ ์ดํด์ ์์ฑ ์์ ์ ๋์์ ํ์ตํ ์ ์๋๋ก ์ธ ๊ฐ์ง Loss ํจ์๋ฅผ ์ฌ์ฉํด ํ์ต๋ฉ๋๋ค.
3.2.1. Image-Text Contrastive Loss (ITC)
ITC๋ ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ feature space๋ฅผ ์ ๋ ฌํ๊ธฐ ์ํ Loss์ ๋๋ค. ๋์ผํ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ๊ฐ๊น์ด ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ์์นํ๋๋ก ํ์ตํ๋ฉฐ, ๊ทธ๋ ์ง ์์ ์์ ๋ฉ์ด์ง๋๋ก ์กฐ์ ํด์. ๋ํ, ๋ชจ๋ฉํ ์ธ์ฝ๋์ ์ํํธ ๋ผ๋ฒจ์ ํ์ฉํด ์ ์ฌ์ ์์ฑ ์ํ๊น์ง ํ์ต์ ํฌํจํ์ฌ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์์ด์.
์๋ฅผ ๋ค์ด, "๊ฐ์์ง๊ฐ ๊ณต์์์ ๋๊ณ ์๋ ์ฌ์ง"๊ณผ "๊ฐ์์ง๊ฐ ๊ณต์์์ ๋๊ณ ์๋ค"๋ ํ ์คํธ๋ positive pair๋ก ๊ฐ์ฃผ๋๋ฉฐ, ์ด ๋์ ๊ฐ๊น์ด ์์น์ ๋งคํ๋ผ์. ๋ฐ๋ฉด, ๊ฐ์ ์ฌ์ง๊ณผ "๋ฐ๋ค์์ ์ํ์ ์ฆ๊ธฐ๋ ์ฌ๋"์ด๋ผ๋ ํ ์คํธ๋ negative pair๋ก ๊ฐ์ฃผ๋๊ณ ๋ฉ์ด์ง๋๋ก ํ์ต๋ฉ๋๋ค.
์ด Loss๋ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง์ ํ ์คํธ์ ๊ด๊ณ๋ฅผ ์ดํดํ๋๋ก ๋์ ํ ์คํธ-์ด๋ฏธ์ง ๊ฒ์์ด๋ Zero-shot ์์ ๊ฐ์ ํ์คํฌ์์ ์ ์ฉํ๊ฒ ํ์ฉ๋ผ์.
3.2.2. Image-Text Matching Loss (ITM)
ITM์ ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ์ค์ ๋ก ๋งค์นญ๋๋์ง๋ฅผ ์ด์ง ๋ถ๋ฅ ๋ฐฉ์์ผ๋ก ํ์ตํฉ๋๋ค. Hard Negative Mining ๊ธฐ๋ฒ์ ํตํด ์ ์ฌํ์ง๋ง ๋งค์นญ๋์ง ์๋ ์์ ๊ตฌ๋ณํ์ฌ ๋ชจ๋ธ์ ์ ๊ตํจ์ ๋์์ด์. ์ด ํ์ต ๋ชฉํ๋ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ์ธ๋ถ์ ์ธ ์ ํฉ์ฑ์ ํ๊ฐํ๊ณ ๊ฐ์ ํ๋ ๋ฐ ์ด์ ์ด ๋ง์ถฐ์ ธ ์์ด์.
์๋ฅผ ๋ค์ด, "ํ๋ณ ์๋ ๊ณ ์์ด๊ฐ ๋ฎ์ ์ ์๊ณ ์๋ ์ฌ์ง"๊ณผ "๊ณ ์์ด๊ฐ ํ๋ณ์์ ์๊ณ ์๋ค"๋ ํ ์คํธ๋ positive pair๋ก ํ์ต๋ฉ๋๋ค. ๋ฐ๋ฉด, ๋น์ทํด ๋ณด์ด๋ ํ ์คํธ("ํ๋ณ ์๋์์ ๊ฐ์์ง๊ฐ ์๊ณ ์๋ค")๋ negative pair๋ก ๋ถ๋ฅ๋ผ์.
์ด Loss๋ ์ด๋ฏธ์ง-ํ ์คํธ ๋งค์นญ, ์ด๋ฏธ์ง ์ค๋ช ์์ฑ, ๋น์ฃผ์ผ ์ง๋ฌธ ์๋ต(VQA) ๊ฐ์ ์์ ์์ ๋ชจ๋ธ์ด ์ธ๋ถ์ ์ธ ๊ด๊ณ๋ฅผ ์ ์ดํดํ๋๋ก ํ์ตํ๋ ๋ฐ ํต์ฌ์ ์ธ ์ญํ ์ ํด์.
3.2.3. Language Modeling Loss (LM)
LM์ ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์คํธ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ํ์ตํฉ๋๋ค. Autoregressive ๋ฐฉ์์ผ๋ก ํ ์คํธ๋ฅผ ์์ฑํ๋ฉฐ, label smoothing์ ์ ์ฉํด ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐํํ์ด์. ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง ์บก์ ์์ฑ๊ณผ ๊ฐ์ ์์ ์์ ํ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
์๋ฅผ ๋ค์ด, "ํด๋ณ์์ ์ฌ๋์ด ์ํ๋ณด๋๋ฅผ ๋ค๊ณ ์๋ ์ฌ์ง"์ด ์ฃผ์ด์ก๋ค๋ฉด, LM์ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก "ํ ์ฌ๋์ด ํด๋ณ์์ ์ํ๋ณด๋๋ฅผ ๋ค๊ณ ์๋ค"์ ๊ฐ์ ๋ฌธ์ฅ์ ์์ฑํ๋๋ก ํ์ต๋ผ์. ์ด Loss๋ ์ด๋ฏธ์ง ์บก์ ์์ฑ ์์ ์์ ํ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, Zero-shot ์์ฑ ์์ ์์๋ ํ์ฉ๋ผ์.
ํ์ต ํจ์จ์ฑ ๊ทน๋ํ
BLIP๋ ํ ์คํธ ์ธ์ฝ๋์ ๋์ฝ๋๊ฐ Self-Attention ๊ณ์ธต์ ์ ์ธํ ๋งค๊ฐ๋ณ์๋ฅผ ๊ณต์ ํ๋๋ก ์ค๊ณ๋์์ด์. ์ด ๊ณต์ ๊ตฌ์กฐ๋ ๋ชจ๋ธ์ ํ์ต ํจ์จ์ ํฌ๊ฒ ๋์ด๊ณ , ์ดํด์ ์์ฑ ์์ ์ ๋์์ ํ์ตํ๋ ๋ฐ ํ์ํ ๋ฆฌ์์ค๋ฅผ ์ต์ํํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ฉํฐํ์คํน ํ์ต์ ํจ๊ณผ๋ฅผ ๊ทน๋ํํ ์ ์์๋ต๋๋ค.
3.3. Captioning and Filtering (CapFilt): ๋ฐ์ดํฐ ๋ถํธ์คํธ๋ํ
BLIP๋ CapFilt๋ผ๋ ๋ ๋จ๊ณ์ ๋ฐ์ดํฐ ๋ถํธ์คํธ๋ํ ๊ธฐ๋ฒ์ ์ฌ์ฉํด ์น์์ ์์งํ ๋ ธ์ด์ฆ ๋ง์ ์ด๋ฏธ์ง-ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ๊ณ ํ์ฉํ์ด์.
Captioner๋ Image-grounded Text Decoder๋ฅผ ํ์ฉํด ์น ์ด๋ฏธ์ง์์ ํฉ์ฑ ์บก์ (Synthetic Captions)์ ์์ฑํด์. ์์ฑ๋ ์บก์ ์ ๊ฐ ์ด๋ฏธ์ง์ ํ๋์ฉ ๋งค์นญ๋๋ฉฐ, ๋ฐ์ดํฐ์ ํ์ง์ ๋ณด๊ฐํ๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค.
3.3.2. Filter
Filter๋ Image-grounded Text Encoder๋ฅผ ์ฌ์ฉํ์ฌ ์๋ณธ ์น ํ ์คํธ์ ์์ฑ๋ ํฉ์ฑ ์บก์ ์ ์ ํฉ์ฑ์ ํ๊ฐํฉ๋๋ค. ITM ํค๋๋ฅผ ํ์ฉํด "๋น์ ํฉ"์ผ๋ก ๋ถ๋ฅ๋ ํ ์คํธ๋ฅผ ํ์ต ๋ฐ์ดํฐ์์ ์ ์ธํ๋ฉฐ, ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ๋ฅผ ์ค์ด๊ณ ํ์ต ํ์ง์ ๋์์ด์
3.4. ๋ชจ๋ธ ํ์ต
BLIP ๋ ผ๋ฌธ์ ์ฝ๋ค๋ณด๋ฉด ์๊ฐ๋ณด๋ค ํ์ต ๊ณผ์ ์ด ๋ณต์กํด์. ํ์ต ์ค์ ๋ฐ์ดํฐ ๋ถํธ์คํธ๋ํ์ ํ๋ค๋ ๊ฒ์ธ์ง, ์ด๋ฏธ ํ์ต๋ ๋คํธ์ํฌ๋ก ๋ถํธ์คํธ๋ํ์ ํ๋ค๋ ๊ฒ์ธ์ง ํท๊ฐ๋ฆฌ์ฃ ...๐ฅ
๋ ผ๋ฌธ์ ๋ณด๋ฉด BLIP๋ ๋จผ์ Text Encoder, Text Decoder๊ฐ ํฌํจ๋ MED๋ฅผ ๋๊ท๋ชจ ๋ ธ์ด์ฆ๊ฐ ํฌํจ๋ ์น ๋ฐ์ดํฐ์ ์ผ๋ก Pre-trainingํฉ๋๋ค. ๊ทธ ํ, Pre-training์ด ์๋ฃ๋ MED ๋ชจ๋ธ์ COCO์ ๊ฐ์ ๊ณ ํ์ง์ ์๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก Fine-tuningํ์ฌ Text Encoder์ Text Decoder๋ฅผ ๋ ์ ๋ฐํ๊ฒ ํ์ต์ํต๋๋ค. ์ด๋ ๊ฒ Fine-tuning์ด ๋๋ ๋ชจ๋ธ์ Text Encoder๋ฅผ Filter๋ก, Text Decoder๋ฅผ Captioner๋ก ์ฌ์ฉํ๋ ๊ฒ์ ๋๋ค.
์ด์ Fine-tuning๋ MED ๋ชจ๋ธ์ ํ์ฉํด ๋ฐ์ดํฐ ๋ถํธ์คํธ๋ํ์ ์งํํฉ๋๋ค. Captioner ์ญํ ์ ํ๋ Text Decoder๋ ์น ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด ํฉ์ฑ ์บก์ ์ ์์ฑํ๊ณ , Filter ์ญํ ์ ํ๋ Text Encoder๋ ๊ธฐ์กด์ ์น ์บก์ ๊ณผ ์๋ก ์์ฑ๋ ํฉ์ฑ ์บก์ ์ ํ์ง์ ๋น๊ตํด ์ด๋ฏธ์ง์ ๋ ์ ๋งค์นญ๋๋ ์บก์ ์ ์ ํํฉ๋๋ค. ์ด ๊ณผ์ ์ ํตํด ๊ธฐ์กด์ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ๋ฐ์ดํฐ ๋์ , ์ ์ ๋ ํ์ต ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๊ฒ ๋ฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก,๋ถํธ์คํธ๋ํ์ ํตํด ์๋กญ๊ฒ ์์ฑ๋ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ MED ๋ชจ๋ธ์ ๋ค์ Pre-trainingํฉ๋๋ค. ์ ์ ๋ ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ์ด์ ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์ต๋๋ค. Pre-training๋ Text Encoder์ Text Decoder๋ฅผ Captioner์ Filter๋ก ํ์ฉํด ์๋ก์ด ํ์ต ๋ฐ์ดํฐ์ ์ ์์ฑํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ์ ๋ค์ ํ์ตํ๋ ๋ฐฉ์์ ๋ค์ ๋ณต์กํ๊ณ ๋นํจ์จ์ ์ผ๋ก ๋ณด์ผ ์ ์์ง๋ง, ๋ ธ์ด์ฆ๊ฐ ๋ง์ ์น ๋ฐ์ดํฐ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์ ์ง์ ์ผ๋ก ๋ฐ์ดํฐ ํ์ง๊ณผ ๋ชจ๋ธ ์ฑ๋ฅ์ ๋์ด๋ ๋ฐ ๋งค์ฐ ํจ๊ณผ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
4. ์คํ ๊ฒฐ๊ณผ
BLIP๋ ๋ค์ํ ์์ ์์ ๊ธฐ์กด ๋ชจ๋ธ์ ๋ฐ์ด๋๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ด์. ๋จผ์ , ์ด๋ฏธ์ง-ํ ์คํธ ๊ฒ์ ์์ ์์๋ COCO ๋ฐ์ดํฐ์ ๊ธฐ์ค์ผ๋ก ALBEF ๋๋น Recall@1์์ 2.7% ํฅ์๋ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ๊ณ , Zero-shot ์ค์ ์์๋ ๋ฐ์ด๋ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด์์ด์. ์ด๋ฏธ์ง ์บก์ ์์ฑ์์๋ COCO์ NoCaps ๋ฐ์ดํฐ์ ์์ CIDEr ์ ์ 129.7์ ๋ฌ์ฑํ๋ฉฐ ๊ธฐ์กด ๋ชจ๋ธ ๋๋น ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ต๋๋ค. VQA(Visual Question Answering) ์์ ์์๋ BLIP๋ ๊ธฐ์กด ์ต๊ณ ๋ชจ๋ธ์ธ SimVLM(1.8B ๋ฐ์ดํฐ๋ฅผ ํ์ตํ ๋ชจ๋ธ)์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋ฉฐ, SimVLM๋ณด๋ค ํจ์ฌ ์ ์ ๋ฐ์ดํฐ(129M)๋ก ํ์ตํ์์๋ ๋ฐ์ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋์ด์. ๋ง์ง๋ง์ผ๋ก, Zero-shot ๋น๋์ค ์ธ์ด ์์ ์์๋ ๋น๋์ค-ํ ์คํธ ๊ฒ์๊ณผ ๋น๋์ค ์ง๋ฌธ ์๋ต์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ ์ฆํ๋ฉฐ ๋ค๋ชฉ์ ๋น์ -์ธ์ด ๋ชจ๋ธ๋ก์์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์คฌ์ต๋๋ค.
5. ๊ฒฐ๋ก
BLIP๋ ์ดํด์ ์์ฑ ์์ ์ ํตํฉ์ ์ผ๋ก ์ํํ ์ ์๋ Vision-Language Pre-training(VLP) ๋ชจ๋ธ๋ก, ๊ธฐ์กด ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ฉฐ ๋ค์ํ ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ต๋๋ค. ํนํ, Multimodal Mixture of Encoder-Decoder(MED) ์ํคํ ์ฒ์ Captioning and Filtering(CapFilt) ๊ธฐ๋ฒ์ ํตํด ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ํ์ต ํจ์จ์ฑ์ ๊ทน๋ํํ์ต๋๋ค. BLIP๋ ๋ค๋ชฉ์ ์ฑ๊ณผ ์ค์ฉ์ฑ์ ๊ฐ์กฐํ๋ฉฐ VLP ์ฐ๊ตฌ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ์ง๋ง, ๋ค๊ตญ์ด ์ง์๊ณผ ๋ฐ์ดํฐ ํ์ง ์์กด์ฑ ๋ฌธ์ ๋ ํฅํ ์ฐ๊ตฌ์์ ํด๊ฒฐํด์ผ ํ ๊ณผ์ ๋ก ๋จ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด BLIP๋ ๋น์ -์ธ์ด ์ฐ๊ตฌ์ ์์ฉ์ ๋ฐ์ ์ ์ค์ํ ๊ธฐ๋ฐ์ ์ ๊ณตํ์ต๋๋ค.