๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ› Research/Multi-modal

[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

by ๋ญ…์ฆค 2024. 12. 4.
๋ฐ˜์‘ํ˜•

๐Ÿ’ก BLIP

1. ์—ฐ๊ตฌ ์ฃผ์ œ์™€ ์ฃผ์š” ๊ธฐ์—ฌ

 

BLIP๋Š” Vision-Language Pre-training(VLP)์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ๊ฐ„์˜ ์ดํ•ด ๊ธฐ๋ฐ˜ ์ž‘์—…๊ณผ ์ƒ์„ฑ ๊ธฐ๋ฐ˜ ์ž‘์—…์„ ๋ชจ๋‘ ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์–ด์š”.


๊ธฐ์กด VLP ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ฐœ์„ ํ–ˆ์–ด์š”.

  • ์ดํ•ด ๊ธฐ๋ฐ˜(์˜ˆ: ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๊ฒ€์ƒ‰) ๋˜๋Š” ์ƒ์„ฑ ๊ธฐ๋ฐ˜(์˜ˆ: ์ด๋ฏธ์ง€ ์บก์…˜ ์ƒ์„ฑ) ์ž‘์—…์— ํŠนํ™”๋œ ๊ธฐ์กด ๋ชจ๋ธ์˜ ๋‹จ์ ์„ ๋ณด์™„.
  • ์›น์—์„œ ์ˆ˜์ง‘๋œ ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํ•™์Šต ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘ ๋ฐฉ๋ฒ• ์ œ์•ˆ.

BLIP๋Š” SOTA ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•˜๋ฉฐ ๋‹ค์–‘ํ•œ Vision-Language ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์–ด์š”.

 

2. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋™ํ–ฅ

Vision-Language Pre-training (VLP)

Vision-Language Pre-training(VLP)์€ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ํ•จ๊ป˜ ์ดํ•ดํ•˜๊ณ  ํ™œ์šฉํ•˜๋Š” ๊ธฐ์ˆ ์ด์—์š”. ์šฐ๋ฆฌ๊ฐ€ ํ”ํžˆ ๋ณด๋Š” ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๊ฒ€์ƒ‰, ์ด๋ฏธ์ง€ ์„ค๋ช… ์ƒ์„ฑ ๊ฐ™์€ ์ž‘์—…์— ๊ผญ ํ•„์š”ํ•œ ๊ธฐ์ˆ ์ด์ฃ . ๊ทธ๋Ÿฐ๋ฐ ๊ธฐ์กด VLP ๋ชจ๋ธ๋“ค์€ ๋Œ€๋ถ€๋ถ„ ์›น์—์„œ ๋Œ€๊ทœ๋ชจ๋กœ ์ˆ˜์ง‘ํ•œ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ–ˆ์ง€๋งŒ, ์ด ๋ฐ์ดํ„ฐ๊ฐ€ ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์•„์„œ ๋ฌธ์ œ์˜€์–ด์š”. ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์ด ์ข‹์ง€ ์•Š์œผ๋ฉด ๋ชจ๋ธ์ด ์ž˜๋ชป ํ•™์Šต๋˜๊ฑฐ๋‚˜ ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ๊ฒ ์ฃ ?

 

๋Œ€ํ‘œ์ ์ธ ๊ธฐ์กด ๋ชจ๋ธ

  • CLIP: ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๊ฒ€์ƒ‰์—์„œ ์ •๋ง ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คฌ์ง€๋งŒ, ํ…์ŠคํŠธ๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š” ์ž‘์—…์—๋Š” ์•ฝํ–ˆ์–ด์š”.
  • ALBEF: ์ด๋ฏธ์ง€ ์† ๋””ํ…Œ์ผ์„ ๋” ์ž˜ ํ™œ์šฉํ–ˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ๋ฐ์ดํ„ฐ์˜ ๋…ธ์ด์ฆˆ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ–ˆ์–ด์š”.
  • SimVLM: ๋‹จ์ˆœํ•œ ๊ตฌ์กฐ๋กœ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ์ฒ˜๋ฆฌํ–ˆ์ง€๋งŒ, ํ•œ ๊ฐ€์ง€ ์ž‘์—…์—๋งŒ ํŠนํ™”๋œ ๋Š๋‚Œ์ด์—ˆ์–ด์š”.

๊ธฐ์กด ๋ชจ๋ธ์˜ ํ•œ๊ณ„
๊ธฐ์กด ๋ชจ๋ธ๋“ค์€ ๊ฐ๊ฐ์˜ ์ž‘์—…์—๋Š” ๊ฐ•์ ์ด ์žˆ์ง€๋งŒ, ์ดํ•ด์™€ ์ƒ์„ฑ ์ž‘์—…์„ ๋™์‹œ์— ์ž˜ํ•ด๋‚ด์ง€ ๋ชปํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์–ด์š”.

  • Encoder ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ์—๋Š” ์ ํ•ฉํ•˜์ง€ ์•Š์•„์„œ ์ด๋ฏธ์ง€ ์„ค๋ช… ๊ฐ™์€ ์ž‘์—…์€ ์ž˜ ๋ชปํ–ˆ์–ด์š”.
  • Encoder-Decoder ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋งค์นญ ๊ฐ™์€ ์ดํ•ด ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์ด ๋–จ์–ด์กŒ์–ด์š”.

๋˜ํ•œ, ์›น์—์„œ ๊ฐ€์ ธ์˜จ ๋ฐ์ดํ„ฐ์˜ ๋…ธ์ด์ฆˆ ๋ฌธ์ œ๋ฅผ ์ œ๋Œ€๋กœ ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ–ˆ๊ธฐ ๋•Œ๋ฌธ์—, ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ์˜ ์˜ค๋ฅ˜๋‚˜ ๋ถˆ์™„์ „ํ•จ๊นŒ์ง€ ํ•™์Šตํ•ด๋ฒ„๋ฆฌ๋Š” ์ผ์ด ๋งŽ์•˜์–ด์š”. ๊ทธ๋ž˜์„œ ๋” ์ •๊ตํ•œ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•๊ณผ ์ดํ•ด์™€ ์ƒ์„ฑ์„ ๋™์‹œ์— ์ž˜ํ•˜๋Š” ๋ชจ๋ธ์ด ํ•„์š”ํ–ˆ์–ด์š”.

 

3. ์ฃผ์š” ์ œ์•ˆ 

 

BLIP์€ ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ํ†ตํ•ฉ ๋น„์ „-์–ธ์–ด ํ”„๋ฆฌํŠธ๋ ˆ์ด๋‹(VLP) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ด์š”. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์ƒˆ๋กœ์šด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์ธ Multimodal Mixture of Encoder-Decoder (MED)์™€ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์„ ๊ฐœ์„ ํ•˜๋Š” Captioning and Filtering (CapFilt) ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

3.1. Multimodal Mixture of Encoder-Decoder (MED)

BLIP์˜ ํ•ต์‹ฌ ๊ตฌ์กฐ์ธ Multimodal Mixture of Encoder-Decoder(MED)๋Š” ์ดํ•ด์™€ ์ƒ์„ฑ ์ž‘์—…์„ ๋™์‹œ์— ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ๋‹ค๋ชฉ์  ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์ด์—์š”. ์ด ์•„ํ‚คํ…์ฒ˜๋Š” ์„ธ ๊ฐ€์ง€ ๋ชจ๋“œ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉฐ, ๊ฐ๊ฐ ํŠน์ • ์ž‘์—…์˜ ์š”๊ตฌ์‚ฌํ•ญ์„ ์ถฉ์กฑํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ต๋‹ˆ๋‹ค.

 

3.1.1. Unimodal Encoder

Unimodal Encoder๋Š” ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ๊ฐœ๋ณ„์ ์œผ๋กœ ์ธ์ฝ”๋”ฉํ•˜์—ฌ ๊ฐ๊ฐ์˜ ํ‘œํ˜„ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•ด์š”. ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋Š” BERT ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ์ž…๋ ฅ ํ…์ŠคํŠธ์˜ ์‹œ์ž‘์— [CLS] ํ† ํฐ์„ ์ถ”๊ฐ€ํ•ด์„œ ๋ฌธ์žฅ ์ „์ฒด๋ฅผ ์š”์•ฝํ•˜๋Š” ํ‘œํ˜„์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋“œ๋Š” ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ๊ฐ๊ฐ์˜ ๋…๋ฆฝ์ ์ธ ํŠน์ง•์„ ์ถ”์ถœํ•˜๋Š” ๋ฐ ์ ํ•ฉํ•ด์š”.

 

3.1.2. Image-grounded Text Encoder

Image-grounded Text Encoder๋Š” ํ…์ŠคํŠธ ์ธ์ฝ”๋”์˜ ๊ฐ Transformer ๋ธ”๋ก์— ํฌ๋กœ์Šค ์–ดํ…์…˜(Cross-Attention) ๊ณ„์ธต์„ ์ถ”๊ฐ€ํ•ด์š”. ์ด๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€์—์„œ ์–ป์€ ์ •๋ณด๋ฅผ ํ…์ŠคํŠธ ์ธ์ฝ”๋”์— ํ†ตํ•ฉํ•˜์—ฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ‘œํ˜„์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋“œ๋Š” ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ์˜ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘๋ฉฐ, ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋งค์นญ๊ณผ ๊ฐ™์€ ์ดํ•ด ๊ธฐ๋ฐ˜ ์ž‘์—…์—์„œ ํ™œ์šฉ๋ผ์š”.

 

3.1.3. Image-grounded Text Decoder

Image-grounded Text Decoder๋Š” ์ด๋ฏธ์ง€๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋“œ์˜ˆ์š”. ๋””์ฝ”๋”๋Š” Causal Self-Attention์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ๋œ ์ด๋ฏธ์ง€์˜ ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ˆœ์ฐจ์ ์œผ๋กœ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํ…์ŠคํŠธ ์ƒ์„ฑ์„ ์‹œ์ž‘ํ•˜๋Š” [Decode] ํ† ํฐ๊ณผ ์ข…๋ฃŒ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” End-of-Sequence ํ† ํฐ์„ ํฌํ•จํ•˜๋ฉฐ, ์ด๋ฏธ์ง€ ์บก์…˜ ์ƒ์„ฑ์ด๋‚˜ ํ…์ŠคํŠธ ์ƒ์„ฑ ์ž‘์—…์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

 

Vision Transformer (ViT) ํ™œ์šฉ
BLIP๋Š” ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”ฉ์„ ์œ„ํ•ด Vision Transformer(ViT)๋ฅผ ์‚ฌ์šฉํ•ด์š”. ViT๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ž‘์€ ํŒจ์น˜ ๋‹จ์œ„๋กœ ๋ถ„ํ• ํ•˜๊ณ , ๊ฐ ํŒจ์น˜๋ฅผ ๋ฒกํ„ฐ ํ˜•ํƒœ๋กœ ์ž„๋ฒ ๋”ฉํ•˜์—ฌ Transformer ๊ตฌ์กฐ์— ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹œ๊ฐ์  ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ณ , ๋‹ค์–‘ํ•œ ์ด๋ฏธ์ง€ ์ž‘์—…์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•ด์š”.

3.2. Pre-training Objectives

MED ์•„ํ‚คํ…์ฒ˜๋Š” ์ดํ•ด์™€ ์ƒ์„ฑ ์ž‘์—…์„ ๋™์‹œ์— ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ธ ๊ฐ€์ง€ Loss ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ด ํ•™์Šต๋ฉ๋‹ˆ๋‹ค.

 

3.2.1. Image-Text Contrastive Loss (ITC)

ITC๋Š” ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ๊ฐ„์˜ feature space๋ฅผ ์ •๋ ฌํ•˜๊ธฐ ์œ„ํ•œ Loss์ž…๋‹ˆ๋‹ค. ๋™์ผํ•œ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ์€ ๊ฐ€๊นŒ์šด ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์— ์œ„์น˜ํ•˜๋„๋ก ํ•™์Šตํ•˜๋ฉฐ, ๊ทธ๋ ‡์ง€ ์•Š์€ ์Œ์€ ๋ฉ€์–ด์ง€๋„๋ก ์กฐ์ •ํ•ด์š”. ๋˜ํ•œ, ๋ชจ๋ฉ˜ํ…€ ์ธ์ฝ”๋”์™€ ์†Œํ”„ํŠธ ๋ผ๋ฒจ์„ ํ™œ์šฉํ•ด ์ž ์žฌ์  ์–‘์„ฑ ์ƒ˜ํ”Œ๊นŒ์ง€ ํ•™์Šต์— ํฌํ•จํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋†’์˜€์–ด์š”.

 

์˜ˆ๋ฅผ ๋“ค์–ด, "๊ฐ•์•„์ง€๊ฐ€ ๊ณต์›์—์„œ ๋†€๊ณ  ์žˆ๋Š” ์‚ฌ์ง„"๊ณผ "๊ฐ•์•„์ง€๊ฐ€ ๊ณต์›์—์„œ ๋†€๊ณ  ์žˆ๋‹ค"๋Š” ํ…์ŠคํŠธ๋Š” positive pair๋กœ ๊ฐ„์ฃผ๋˜๋ฉฐ, ์ด ๋‘˜์€ ๊ฐ€๊นŒ์šด ์œ„์น˜์— ๋งคํ•‘๋ผ์š”. ๋ฐ˜๋ฉด, ๊ฐ™์€ ์‚ฌ์ง„๊ณผ "๋ฐ”๋‹ค์—์„œ ์„œํ•‘์„ ์ฆ๊ธฐ๋Š” ์‚ฌ๋žŒ"์ด๋ผ๋Š” ํ…์ŠคํŠธ๋Š” negative pair๋กœ ๊ฐ„์ฃผ๋˜๊ณ  ๋ฉ€์–ด์ง€๋„๋ก ํ•™์Šต๋ฉ๋‹ˆ๋‹ค.

์ด Loss๋Š” ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ์˜ ๊ด€๊ณ„๋ฅผ ์ดํ•ดํ•˜๋„๋ก ๋„์™€ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๊ฒ€์ƒ‰์ด๋‚˜ Zero-shot ์ž‘์—… ๊ฐ™์€ ํƒœ์Šคํฌ์—์„œ ์œ ์šฉํ•˜๊ฒŒ ํ™œ์šฉ๋ผ์š”.

 

3.2.2. Image-Text Matching Loss (ITM)

ITM์€ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๊ฐ€ ์‹ค์ œ๋กœ ๋งค์นญ๋˜๋Š”์ง€๋ฅผ ์ด์ง„ ๋ถ„๋ฅ˜ ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. Hard Negative Mining ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์œ ์‚ฌํ•˜์ง€๋งŒ ๋งค์นญ๋˜์ง€ ์•Š๋Š” ์Œ์„ ๊ตฌ๋ณ„ํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ •๊ตํ•จ์„ ๋†’์˜€์–ด์š”. ์ด ํ•™์Šต ๋ชฉํ‘œ๋Š” ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ์˜ ์„ธ๋ถ€์ ์ธ ์ •ํ•ฉ์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ณ  ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ์ดˆ์ ์ด ๋งž์ถฐ์ ธ ์žˆ์–ด์š”.

 

์˜ˆ๋ฅผ ๋“ค์–ด, "ํ–‡๋ณ• ์•„๋ž˜ ๊ณ ์–‘์ด๊ฐ€ ๋‚ฎ์ž ์„ ์ž๊ณ  ์žˆ๋Š” ์‚ฌ์ง„"๊ณผ "๊ณ ์–‘์ด๊ฐ€ ํ–‡๋ณ•์—์„œ ์ž๊ณ  ์žˆ๋‹ค"๋Š” ํ…์ŠคํŠธ๋Š” positive pair๋กœ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ๋น„์Šทํ•ด ๋ณด์ด๋Š” ํ…์ŠคํŠธ("ํ–‡๋ณ• ์•„๋ž˜์—์„œ ๊ฐ•์•„์ง€๊ฐ€ ์ž๊ณ  ์žˆ๋‹ค")๋Š” negative pair๋กœ ๋ถ„๋ฅ˜๋ผ์š”.

์ด Loss๋Š” ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋งค์นญ, ์ด๋ฏธ์ง€ ์„ค๋ช… ์ƒ์„ฑ, ๋น„์ฃผ์–ผ ์งˆ๋ฌธ ์‘๋‹ต(VQA) ๊ฐ™์€ ์ž‘์—…์—์„œ ๋ชจ๋ธ์ด ์„ธ๋ถ€์ ์ธ ๊ด€๊ณ„๋ฅผ ์ž˜ ์ดํ•ดํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š” ๋ฐ ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•ด์š”.

 

3.2.3. Language Modeling Loss (LM)

LM์€ ์ด๋ฏธ์ง€๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. Autoregressive ๋ฐฉ์‹์œผ๋กœ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋ฉฐ, label smoothing์„ ์ ์šฉํ•ด ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ–ˆ์–ด์š”. ์ด๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€ ์บก์…˜ ์ƒ์„ฑ๊ณผ ๊ฐ™์€ ์ž‘์—…์—์„œ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

 

์˜ˆ๋ฅผ ๋“ค์–ด, "ํ•ด๋ณ€์—์„œ ์‚ฌ๋žŒ์ด ์„œํ•‘๋ณด๋“œ๋ฅผ ๋“ค๊ณ  ์žˆ๋Š” ์‚ฌ์ง„"์ด ์ฃผ์–ด์กŒ๋‹ค๋ฉด, LM์€ ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ "ํ•œ ์‚ฌ๋žŒ์ด ํ•ด๋ณ€์—์„œ ์„œํ•‘๋ณด๋“œ๋ฅผ ๋“ค๊ณ  ์žˆ๋‹ค"์™€ ๊ฐ™์€ ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๋„๋ก ํ•™์Šต๋ผ์š”. ์ด Loss๋Š” ์ด๋ฏธ์ง€ ์บก์…˜ ์ƒ์„ฑ ์ž‘์—…์—์„œ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, Zero-shot ์ƒ์„ฑ ์ž‘์—…์—์„œ๋„ ํ™œ์šฉ๋ผ์š”.

 

ํ•™์Šต ํšจ์œจ์„ฑ ๊ทน๋Œ€ํ™”

BLIP๋Š” ํ…์ŠคํŠธ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๊ฐ€ Self-Attention ๊ณ„์ธต์„ ์ œ์™ธํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ณต์œ ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์–ด์š”. ์ด ๊ณต์œ  ๊ตฌ์กฐ๋Š” ๋ชจ๋ธ์˜ ํ•™์Šต ํšจ์œจ์„ ํฌ๊ฒŒ ๋†’์ด๊ณ , ์ดํ•ด์™€ ์ƒ์„ฑ ์ž‘์—…์„ ๋™์‹œ์— ํ•™์Šตํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค๋ฅผ ์ตœ์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฉ€ํ‹ฐํƒœ์Šคํ‚น ํ•™์Šต์˜ ํšจ๊ณผ๋ฅผ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ต๋‹ˆ๋‹ค.

 

3.3. Captioning and Filtering (CapFilt): ๋ฐ์ดํ„ฐ ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘

 

BLIP๋Š” CapFilt๋ผ๋Š” ๋‘ ๋‹จ๊ณ„์˜ ๋ฐ์ดํ„ฐ ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•ด ์›น์—์„œ ์ˆ˜์ง‘ํ•œ ๋…ธ์ด์ฆˆ ๋งŽ์€ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ •์ œํ•˜๊ณ  ํ™œ์šฉํ–ˆ์–ด์š”.

 

3.3.1. Captioner

Captioner๋Š” Image-grounded Text Decoder๋ฅผ ํ™œ์šฉํ•ด ์›น ์ด๋ฏธ์ง€์—์„œ ํ•ฉ์„ฑ ์บก์…˜(Synthetic Captions)์„ ์ƒ์„ฑํ•ด์š”. ์ƒ์„ฑ๋œ ์บก์…˜์€ ๊ฐ ์ด๋ฏธ์ง€์— ํ•˜๋‚˜์”ฉ ๋งค์นญ๋˜๋ฉฐ, ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ์„ ๋ณด๊ฐ•ํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.

 

3.3.2. Filter

Filter๋Š” Image-grounded Text Encoder๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์›๋ณธ ์›น ํ…์ŠคํŠธ์™€ ์ƒ์„ฑ๋œ ํ•ฉ์„ฑ ์บก์…˜์˜ ์ •ํ•ฉ์„ฑ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ITM ํ—ค๋“œ๋ฅผ ํ™œ์šฉํ•ด "๋น„์ •ํ•ฉ"์œผ๋กœ ๋ถ„๋ฅ˜๋œ ํ…์ŠคํŠธ๋ฅผ ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ ์ œ์™ธํ•˜๋ฉฐ, ๋ฐ์ดํ„ฐ์˜ ๋…ธ์ด์ฆˆ๋ฅผ ์ค„์ด๊ณ  ํ•™์Šต ํ’ˆ์งˆ์„ ๋†’์˜€์–ด์š”

 

3.4. ๋ชจ๋ธ ํ•™์Šต

BLIP ๋…ผ๋ฌธ์„ ์ฝ๋‹ค๋ณด๋ฉด ์ƒ๊ฐ๋ณด๋‹ค ํ•™์Šต ๊ณผ์ •์ด ๋ณต์žกํ•ด์š”. ํ•™์Šต ์ค‘์— ๋ฐ์ดํ„ฐ ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์ธ์ง€, ์ด๋ฏธ ํ•™์Šต๋œ ๋„คํŠธ์›Œํฌ๋กœ ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์ธ์ง€ ํ—ท๊ฐˆ๋ฆฌ์ฃ ...๐Ÿ˜ฅ

 

๋…ผ๋ฌธ์„ ๋ณด๋ฉด BLIP๋Š” ๋จผ์ € Text Encoder, Text Decoder๊ฐ€ ํฌํ•จ๋œ MED๋ฅผ ๋Œ€๊ทœ๋ชจ ๋…ธ์ด์ฆˆ๊ฐ€ ํฌํ•จ๋œ ์›น ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ Pre-trainingํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ํ›„, Pre-training์ด ์™„๋ฃŒ๋œ MED ๋ชจ๋ธ์„ COCO์™€ ๊ฐ™์€ ๊ณ ํ’ˆ์งˆ์˜ ์†Œ๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ Fine-tuningํ•˜์—ฌ Text Encoder์™€ Text Decoder๋ฅผ ๋” ์ •๋ฐ€ํ•˜๊ฒŒ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ Fine-tuning์ด ๋๋‚œ ๋ชจ๋ธ์€ Text Encoder๋ฅผ Filter๋กœ, Text Decoder๋ฅผ Captioner๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

์ด์ œ Fine-tuning๋œ MED ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ๋ฐ์ดํ„ฐ ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. Captioner ์—ญํ• ์„ ํ•˜๋Š” Text Decoder๋Š” ์›น ์ด๋ฏธ์ง€๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒˆ๋กœ์šด ํ•ฉ์„ฑ ์บก์…˜์„ ์ƒ์„ฑํ•˜๊ณ , Filter ์—ญํ• ์„ ํ•˜๋Š” Text Encoder๋Š” ๊ธฐ์กด์˜ ์›น ์บก์…˜๊ณผ ์ƒˆ๋กœ ์ƒ์„ฑ๋œ ํ•ฉ์„ฑ ์บก์…˜์˜ ํ’ˆ์งˆ์„ ๋น„๊ตํ•ด ์ด๋ฏธ์ง€์™€ ๋” ์ž˜ ๋งค์นญ๋˜๋Š” ์บก์…˜์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์„ ํ†ตํ•ด ๊ธฐ์กด์˜ ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ๋ฐ์ดํ„ฐ ๋Œ€์‹ , ์ •์ œ๋œ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ,๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘์„ ํ†ตํ•ด ์ƒˆ๋กญ๊ฒŒ ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ MED ๋ชจ๋ธ์„ ๋‹ค์‹œ Pre-trainingํ•ฉ๋‹ˆ๋‹ค. ์ •์ œ๋œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ์€ ์ด์ „๋ณด๋‹ค ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Pre-training๋œ Text Encoder์™€ Text Decoder๋ฅผ Captioner์™€ Filter๋กœ ํ™œ์šฉํ•ด ์ƒˆ๋กœ์šด ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ์ƒ์„ฑํ•˜๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ๋ธ์„ ๋‹ค์‹œ ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹์€ ๋‹ค์†Œ ๋ณต์žกํ•˜๊ณ  ๋น„ํšจ์œจ์ ์œผ๋กœ ๋ณด์ผ ์ˆ˜ ์žˆ์ง€๋งŒ, ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ์›น ๋ฐ์ดํ„ฐ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ  ์ ์ง„์ ์œผ๋กœ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ๊ณผ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๋ฐ ๋งค์šฐ ํšจ๊ณผ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

4. ์‹คํ—˜ ๊ฒฐ๊ณผ

 

BLIP๋Š” ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๊ธฐ์กด ๋ชจ๋ธ์„ ๋›ฐ์–ด๋„˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คฌ์–ด์š”. ๋จผ์ €, ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๊ฒ€์ƒ‰ ์ž‘์—…์—์„œ๋Š” COCO ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ์ค€์œผ๋กœ ALBEF ๋Œ€๋น„ Recall@1์—์„œ 2.7% ํ–ฅ์ƒ๋œ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ–ˆ๊ณ , Zero-shot ์„ค์ •์—์„œ๋„ ๋›ฐ์–ด๋‚œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋ณด์˜€์–ด์š”. ์ด๋ฏธ์ง€ ์บก์…˜ ์ƒ์„ฑ์—์„œ๋Š” COCO์™€ NoCaps ๋ฐ์ดํ„ฐ์…‹์—์„œ CIDEr ์ ์ˆ˜ 129.7์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ ๊ธฐ์กด ๋ชจ๋ธ ๋Œ€๋น„ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คฌ์Šต๋‹ˆ๋‹ค. VQA(Visual Question Answering) ์ž‘์—…์—์„œ๋„ BLIP๋Š” ๊ธฐ์กด ์ตœ๊ณ  ๋ชจ๋ธ์ธ SimVLM(1.8B ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•œ ๋ชจ๋ธ)์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, SimVLM๋ณด๋‹ค ํ›จ์”ฌ ์ ์€ ๋ฐ์ดํ„ฐ(129M)๋กœ ํ•™์Šตํ–ˆ์Œ์—๋„ ๋›ฐ์–ด๋‚œ ๊ฒฐ๊ณผ๋ฅผ ๋ƒˆ์–ด์š”. ๋งˆ์ง€๋ง‰์œผ๋กœ, Zero-shot ๋น„๋””์˜ค ์–ธ์–ด ์ž‘์—…์—์„œ๋„ ๋น„๋””์˜ค-ํ…์ŠคํŠธ ๊ฒ€์ƒ‰๊ณผ ๋น„๋””์˜ค ์งˆ๋ฌธ ์‘๋‹ต์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ•˜๋ฉฐ ๋‹ค๋ชฉ์  ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ๋กœ์„œ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์คฌ์Šต๋‹ˆ๋‹ค.

 

5. ๊ฒฐ๋ก 

BLIP๋Š” ์ดํ•ด์™€ ์ƒ์„ฑ ์ž‘์—…์„ ํ†ตํ•ฉ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” Vision-Language Pre-training(VLP) ๋ชจ๋ธ๋กœ, ๊ธฐ์กด ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋ฉฐ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คฌ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, Multimodal Mixture of Encoder-Decoder(MED) ์•„ํ‚คํ…์ฒ˜์™€ Captioning and Filtering(CapFilt) ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ๋…ธ์ด์ฆˆ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  ํ•™์Šต ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. BLIP๋Š” ๋‹ค๋ชฉ์ ์„ฑ๊ณผ ์‹ค์šฉ์„ฑ์„ ๊ฐ•์กฐํ•˜๋ฉฐ VLP ์—ฐ๊ตฌ์˜ ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ ์ œ์‹œํ–ˆ์ง€๋งŒ, ๋‹ค๊ตญ์–ด ์ง€์›๊ณผ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ์˜์กด์„ฑ ๋ฌธ์ œ๋Š” ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด BLIP๋Š” ๋น„์ „-์–ธ์–ด ์—ฐ๊ตฌ์™€ ์‘์šฉ์˜ ๋ฐœ์ „์— ์ค‘์š”ํ•œ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ฐ˜์‘ํ˜•