๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ› Research/Multi-modal

[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] Visual Instruction Tuning | LLaVA Model

by ๋ญ…์ฆค 2024. 12. 4.
๋ฐ˜์‘ํ˜•

๐Ÿ’ก LLaVA 

1. ์—ฐ๊ตฌ ์ฃผ์ œ์™€ ์ฃผ์š” ๊ธฐ์—ฌ

 

์ด ์—ฐ๊ตฌ๋Š” ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ํ•จ๊ป˜ ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ LLaVA๋ฅผ ์ œ์•ˆํ•˜๊ณ  ์žˆ์–ด์š”. ํŠนํžˆ Visual Instruction Tuning์„ ํ†ตํ•ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž‘์—…์—์„œ ์‚ฌ์šฉ์ž์˜ ์ง€์‹œ๋ฅผ ๋”ฐ๋ฅด๊ณ , ๋ณต์žกํ•œ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ชจ๋ธ์„ ์„ค๊ณ„ํ–ˆ์–ด์š”. ๊ธฐ์กด์˜ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ํŽ˜์–ด ๋ฐ์ดํ„ฐ(์˜ˆ: COCO)๋ฅผ ํ™œ์šฉํ•œ ํ•™์Šต์—์„œ ํ•œ ๋ฐœ ๋” ๋‚˜์•„๊ฐ€, GPT-4๋ฅผ ํ™œ์šฉํ•ด ์ด๋ฏธ์ง€ ์„ค๋ช… ์บก์…˜์„ ๋ฐ”ํƒ•์œผ๋กœ ์งˆ๋ฌธ๊ณผ ๋‹ต๋ณ€ ํ˜•์‹์˜ ์ƒˆ๋กœ์šด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ–ˆ๋‹ต๋‹ˆ๋‹ค.

  • ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ ๋ฐฉ๋ฒ•: GPT-4๋ฅผ ํ™œ์šฉํ•ด ๊ธฐ์กด ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ํŽ˜์–ด๋ฅผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ง€์‹œ-์‘๋‹ต ๋ฐ์ดํ„ฐ๋กœ ์ž๋™ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ฐœ๋ฐœํ–ˆ์–ด์š”. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž‘์—…์— ํ™œ์šฉ ๊ฐ€๋Šฅํ•œ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์ถ•ํ–ˆ๋‹ต๋‹ˆ๋‹ค.
  • ์ƒˆ๋กœ์šด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ ์ œ์•ˆ: CLIP ๊ธฐ๋ฐ˜์˜ ๋น„์ „ ์ธ์ฝ”๋”์™€ Vicuna ๊ธฐ๋ฐ˜์˜ ์–ธ์–ด ๋ชจ๋ธ์„ ์—ฐ๊ฒฐํ•ด LLaVA ๋ชจ๋ธ์„ ์„ค๊ณ„ํ–ˆ์–ด์š”. ์ด๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ๊ฐ„์˜ ๊นŠ์€ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž‘์—…์—์„œ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ LLaVA-Bench๋ฅผ ์ œ๊ณตํ•ด์š”. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์—ˆ์–ด์š”.

 

2. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋™ํ–ฅ

๊ธฐ์กด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์—ฐ๊ตฌ๋Š” ์ฃผ๋กœ ๊ฐ๊ฐ์˜ ์ž‘์—…(์˜ˆ: ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜, ์บก์…˜ ์ƒ์„ฑ)์„ ๋ณ„๋„์˜ ๋ชจ๋ธ๋กœ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ท„์œผ๋ฉฐ, ์–ธ์–ด๋Š” ๋ณด์กฐ์ ์ธ ์—ญํ• (์˜ˆ: ์ด๋ฏธ์ง€๋ฅผ ์„ค๋ช…)๋กœ ์‚ฌ์šฉ๋˜์—ˆ์–ด์š”. ํ•˜์ง€๋งŒ ์ตœ๊ทผ GPT-4์™€ ๊ฐ™์€ LLM์ด ๋“ฑ์žฅํ•˜๋ฉด์„œ, ์–ธ์–ด๋ฅผ ๋ณดํŽธ์  ์ธํ„ฐํŽ˜์ด์Šค๋กœ ํ™œ์šฉํ•ด ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ๋‹จ์ผ ๋ชจ๋ธ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์คฌ๋‹ต๋‹ˆ๋‹ค.

  • LLM ํŠœ๋‹: ChatGPT์™€ LLaMA ๊ฐ™์€ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ LLM์—์„œ Instruction Tuning์ด ์ผ๋ฐ˜์ ์ธ ์ž‘์—… ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ชจ์Šต์„ ๋ณด์—ฌ์คฌ์–ด์š”. ์ด๋Š” LLM์„ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ๋กœ ์ž๋ฆฌ ์žก๊ฒŒ ํ–ˆ๋‹ต๋‹ˆ๋‹ค.
  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ ๊ฐœ๋ฐœ: ๊ธฐ์กด์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ(์˜ˆ: BLIP-2, Flamingo, OpenFlamingo)์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž‘์—…์—์„œ ์˜๋ฏธ ์žˆ๋Š” ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„ ๋น„์ „-์–ธ์–ด ์ง€์‹œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ํŠœ๋‹์ด ๋ถ€์กฑํ•ด์„œ ์ž‘์—… ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์— ํ•œ๊ณ„๋ฅผ ๋ณด์˜€์–ด์š”.
  • LLaVA๋Š” ๋น„์ „-์–ธ์–ด ์ง€์‹œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ๋ชจ๋ธ์„ ํŠœ๋‹ํ•˜๊ณ , ๊ธฐ์กด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋†’์€ ์ž‘์—… ์ผ๋ฐ˜ํ™”๋ฅผ ๋ชฉํ‘œ๋กœ ํ–ˆ์–ด์š”. ์ด๋Š” ๋‹จ์ˆœํžˆ ์ด๋ฏธ์ง€๋ฅผ ์„ค๋ช…ํ•˜๊ฑฐ๋‚˜ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ˆ˜์ค€์„ ๋„˜์–ด, ์‚ฌ์šฉ์ž์˜ ์ง€์‹œ๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ณ  ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํƒœ์Šคํฌ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•œ ์ ‘๊ทผ์ด์—์š”.

 

3.  ์ฃผ์š” ์ œ์•ˆ

3.1. ๋ฐ์ดํ„ฐ ์ƒ์„ฑ 

LLaVA๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด GPT-4์™€ ChatGPT๋ฅผ ํ™œ์šฉํ•ด Vision-Language Instruction-following ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ–ˆ์–ด์š”. ์ด ๊ณผ์ •์—์„œ ๊ธฐ์กด์˜ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ํŽ˜์–ด ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์–‘ํ•œ ์งˆ๋ฌธ๊ณผ ๋‹ต๋ณ€ ํ˜•์‹์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ž๋™ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ–ˆ๋‹ต๋‹ˆ๋‹ค.

 

3.1.1. ํ•™์Šต ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•

LLaVA๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต์„ ์œ„ํ•ด GPT-4๋ฅผ ํ™œ์šฉํ•ด ๊ธฐ์กด ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ํŽ˜์–ด ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋Œ€ํ™”ํ˜• ๋ฐ์ดํ„ฐ(Conversation), ์ƒ์„ธ ๋ฌ˜์‚ฌ(Detailed Description), ๋ณต์žกํ•œ ์ถ”๋ก (Complex Reasoning)์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ์œ ํ˜•์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ–ˆ์–ด์š”. ๊ฐ ์œ ํ˜•์€ ์„œ๋กœ ๋‹ค๋ฅธ ์ˆ˜์ค€์˜ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ดํ•ด์™€ ์ฒ˜๋ฆฌ๋ฅผ ์š”๊ตฌํ•ด์š”.

 

1) ๋Œ€ํ™”ํ˜• ๋ฐ์ดํ„ฐ (Conversation)
๋Œ€ํ™”ํ˜• ๋ฐ์ดํ„ฐ๋Š” ์‚ฌ์šฉ์ž์™€ AI ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๋ชจ๋ฐฉํ•˜์—ฌ ์งˆ๋ฌธ๊ณผ ๋‹ต๋ณ€์˜ ํ˜•ํƒœ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์–ด์š”. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ์šฉ์ž๊ฐ€ ์ด๋ฏธ์ง€๋ฅผ ๋ณด๋ฉด์„œ "์ด ์‚ฌ์ง„ ์†์— ์žˆ๋Š” ๋™๋ฌผ์€ ๋ฌด์—‡์ธ๊ฐ€์š”?"๋ผ๊ณ  ๋ฌป๋Š”๋‹ค๋ฉด, ๋ชจ๋ธ์€ "์‚ฌ์ง„ ์†์—๋Š” ํ•œ ๋งˆ๋ฆฌ์˜ ๊ณ ์–‘์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค."๋ผ๋Š” ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋„๋ก ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ๋Š” AI๊ฐ€ ์‚ฌ์šฉ์ž์˜ ์งˆ๋ฌธ์— ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์‘๋‹ตํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ํ‚ค์šฐ๋Š” ๋ฐ ๋„์›€์„ ์ค˜์š”.

  • ์งˆ๋ฌธ: "์ด ์ด๋ฏธ์ง€์—์„œ ์‚ฌ๋žŒ์ด ๋ฌด์—‡์„ ํ•˜๊ณ  ์žˆ๋‚˜์š”?"
  • ๋‹ต๋ณ€: "์‚ฌ๋žŒ๋“ค์ด SUV์— ์ง์„ ์‹ฃ๊ณ  ์žˆ๋Š” ๋ชจ์Šต์ž…๋‹ˆ๋‹ค."

 

2) ์ƒ์„ธ ๋ฌ˜์‚ฌ(Detailed Description)
์ƒ์„ธ ๋ฌ˜์‚ฌ๋Š” ์ด๋ฏธ์ง€๋ฅผ ๊ฐ€๋Šฅํ•œ ํ•œ ์ž์„ธํžˆ ๋ฌ˜์‚ฌํ•˜๋Š” ์„œ์ˆ ํ˜• ๋ฐ์ดํ„ฐ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์–ด์š”. ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€์˜ ๋ชจ๋“  ์‹œ๊ฐ์  ์š”์†Œ๋ฅผ ์ธ์‹ํ•˜๊ณ  ์ด๋ฅผ ํ…์ŠคํŠธ๋กœ ์„ค๋ช…ํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘ก๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋‹จ์ˆœํžˆ "์‚ฌ๋žŒ๋“ค์ด SUV ์˜†์— ์„œ ์žˆ๋‹ค"๋Š” ๋ฌ˜์‚ฌ์—์„œ ๋” ๋‚˜์•„๊ฐ€, "๊ฒ€์€์ƒ‰ SUV ์˜†์—์„œ ์„ธ ์‚ฌ๋žŒ์ด ์„œ๋กœ ์ด์•ผ๊ธฐ๋ฅผ ๋‚˜๋ˆ„๋ฉฐ ์ง์„ ์ •๋ฆฌํ•˜๊ณ  ์žˆ๋‹ค"์™€ ๊ฐ™์€ ๊ตฌ์ฒด์ ์ธ ์„ค๋ช…์„ ์ƒ์„ฑํ•˜๋„๋ก ํ•™์Šตํ–ˆ์–ด์š”.

  • ์˜ˆ์‹œ ๋ฌ˜์‚ฌ: "์‚ฌ์ง„์—๋Š” ๊ฒ€์€์ƒ‰ SUV๊ฐ€ ์žˆ๊ณ , ์„ธ ๋ช…์˜ ์‚ฌ๋žŒ์ด ์ง์„ ์ •๋ฆฌํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ฐจ๋Ÿ‰ ์˜†์—๋Š” ์ปค๋‹ค๋ž€ ์—ฌํ–‰ ๊ฐ€๋ฐฉ๊ณผ ์ž‘์€ ํ•ธ๋“œ๋ฐฑ์ด ๋†“์—ฌ ์žˆ์œผ๋ฉฐ, ํ•˜๋Š˜์€ ๋ง‘์€ ์ƒํƒœ์ž…๋‹ˆ๋‹ค."

 

3) ๋ณต์žกํ•œ ์ถ”๋ก (Complex Reasoning)
๋ณต์žกํ•œ ์ถ”๋ก  ๋ฐ์ดํ„ฐ๋Š” ๋‹จ์ˆœํžˆ ์ด๋ฏธ์ง€๋ฅผ ๋ฌ˜์‚ฌํ•˜๋Š” ๋ฐ ๊ทธ์น˜์ง€ ์•Š๊ณ , ์ด๋ฏธ์ง€๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋…ผ๋ฆฌ์  ์‚ฌ๊ณ ์™€ ์ด์œ ๋ฅผ ์š”๊ตฌํ•˜๋Š” ์งˆ๋ฌธ๊ณผ ๋‹ต๋ณ€์œผ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์–ด์š”. ์ด ๋ฐ์ดํ„ฐ๋Š” AI๊ฐ€ ์ถ”๋ก ์„ ํ†ตํ•ด ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, "์ด ์‚ฌ๋žŒ๋“ค์ด ์—ฌํ–‰์„ ๋– ๋‚  ์ค€๋น„๋ฅผ ํ•˜๊ณ  ์žˆ๋Š” ์ด์œ ๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?"๋ผ๋Š” ์งˆ๋ฌธ์— "์ง์„ SUV์— ์‹ฃ๋Š” ๋ชจ์Šต์œผ๋กœ ๋ณด์•„, ๊ฐ€์กฑ ์—ฌํ–‰์„ ์ค€๋น„ํ•˜๋Š” ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค."์™€ ๊ฐ™์€ ์‘๋‹ต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ํ›ˆ๋ จํ–ˆ์–ด์š”.

  • ์งˆ๋ฌธ: "์ด ์‚ฌ์ง„์—์„œ ์‚ฌ๋žŒ๋“ค์ด ์–ด๋–ค ๊ฐ์ •์„ ๋Š๋ผ๊ณ  ์žˆ์„๊นŒ์š”?"
  • ๋‹ต๋ณ€: "์‚ฌ๋žŒ๋“ค์ด ํ•จ๊ป˜ ๋Œ€ํ™”๋ฅผ ๋‚˜๋ˆ„๋ฉฐ ์›ƒ๊ณ  ์žˆ๋Š” ๋ชจ์Šต์œผ๋กœ ๋ณด์•„, ๊ธ์ •์ ์ด๊ณ  ํ–‰๋ณตํ•œ ๊ฐ์ •์„ ๋Š๋ผ๊ณ  ์žˆ๋Š” ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค."

 

3.1.2. ์™œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋งŒ์„ ์‚ฌ์šฉํ–ˆ์„๊นŒ?

LLaVA๋Š” ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์บก์…˜๊ณผ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ •๋ณด๋ฅผ ํ™œ์šฉํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ–ˆ๋Š”๋ฐ, ์ด๋ฅผ ์„ ํƒํ•œ ์ด์œ ๋Š” ํ…์ŠคํŠธ ์ „์šฉ ๋ชจ๋ธ์˜ ๊ตฌ์กฐ์  ์ œํ•œ๊ณผ ๋น„์šฉ ํšจ์œจ์„ฑ ๋•Œ๋ฌธ์ด์—์š”. GPT-4์™€ ChatGPT๋Š” ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋กœ, ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ๋ฅผ ์ง์ ‘ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์—†์–ด์„œ ์ด๋ฏธ์ง€๋ฅผ ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ–ˆ์–ด์š”. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ด๋ฏธ์ง€๋ฅผ "A black SUV surrounded by luggage"์™€ ๊ฐ™์€ ํ…์ŠคํŠธ ์บก์…˜ ํ˜•ํƒœ๋กœ ํ‘œํ˜„ํ•˜๊ฑฐ๋‚˜, "์‚ฌ๋žŒ, ๊ฐ€๋ฐฉ, ์ฐจ๋Ÿ‰ ๋“ฑ์˜ ์œ„์น˜์™€ ๋ฒ”์œ„"๋ฅผ ์ˆซ์ž๋กœ ํ‘œ์‹œํ•œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ–ˆ๋‹ต๋‹ˆ๋‹ค.

 

๋˜ํ•œ, ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•œ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ์ˆ˜์ž‘์—…์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์€ ๋น„์šฉ์ด ๋งค์šฐ ํฌ๊ณ  ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ ค์š”. ๋ฐ˜๋ฉด, ๊ธฐ์กด ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์ด๋ฏธ์ง€ ์„ค๋ช… ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๋ฉด ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ๋น ๋ฅด๊ณ  ์ €๋ ดํ•˜๊ฒŒ ์ฆ๊ฐ•ํ•  ์ˆ˜ ์žˆ์—ˆ์ฃ . GPT-4๋Š” ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์ž…๋ ฅ๋งŒ์œผ๋กœ๋„ ๋›ฐ์–ด๋‚œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ์บก์…˜์ด๋‚˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ •๋ณด๋งŒ์œผ๋กœ๋„ ๋…ผ๋ฆฌ์ ์ด๊ณ  ์ƒ์„ธํ•œ ์งˆ๋ฌธ-์‘๋‹ต ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์žˆ์—ˆ์–ด์š”.

 

3.1.3. ์ €์ž๊ฐ€ ๊ฐ•์กฐํ•œ ํฌ์ธํŠธ

์ด ๋…ผ๋ฌธ์—์„œ๋Š” ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋ก ์˜ ์‹ค์šฉ์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ๊ฐ•์กฐํ–ˆ์–ด์š”. ์ด๋ฏธ์ง€๋ฅผ ํฌํ•จํ•˜์ง€ ์•Š๊ณ ๋„ ๊ธฐ์กด์˜ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์คฌ์ฃ . ํŠนํžˆ, GPT-4์˜ ๊ฐ•๋ ฅํ•œ ์–ธ์–ด ์ฒ˜๋ฆฌ ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ†ตํ•ด ๋‹จ์ˆœ ์บก์…˜๋งŒ์œผ๋กœ๋„ ๊ณ ํ’ˆ์งˆ์˜ ์งˆ๋ฌธ-์‘๋‹ต ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด๋ƒˆ์–ด์š”.

 

๋˜ํ•œ, ํ…์ŠคํŠธ๋งŒ์„ ์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๋ฐฉ๋ฒ•์€ ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ๊ณผ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ์œ ๋ฆฌํ–ˆ์–ด์š”. ๋‹ค์–‘ํ•œ ์บก์…˜ ๋ฐ์ดํ„ฐ์™€ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ •๋ณด๋ฅผ ํ™œ์šฉํ•ด ๋” ๋งŽ์€ ์œ ํ˜•์˜ ์งˆ๋ฌธ-์‘๋‹ต ๋ฐ์ดํ„ฐ๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์—ˆ์ฃ . ๋งˆ์ง€๋ง‰์œผ๋กœ, ์ €์ž๋“ค์€ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ํ•™์Šต์˜ ์‹ค์šฉ์„ฑ์„ ์ž…์ฆํ•˜๋ฉด์„œ๋„, ํ–ฅํ›„ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ํ•จ๊ป˜ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ฐœ์ „ํ•  ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด๋‘์—ˆ์–ด์š”. ํ˜„์žฌ๋Š” ํ…์ŠคํŠธ ์ค‘์‹ฌ์œผ๋กœ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ–ˆ์ง€๋งŒ, ๋” ๋ณต์žกํ•œ ์‹œ๊ฐ ์ •๋ณด ํ†ตํ•ฉ์€ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค.

 

3.2.  Model Architecture

 

LLaVA์˜ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋Š” ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ๊ฐ•๋ ฅํ•˜๊ฒŒ ์„ค๊ณ„๋˜์–ด, ์‚ฌ์ „ ํ•™์Šต๋œ LLM(Vicuna)๊ณผ ๋น„์ „ ๋ชจ๋ธ(CLIP ViT-L/14)์„ ํšจ๊ณผ์ ์œผ๋กœ ์—ฐ๊ฒฐํ•ด์š”. ์ด๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋ฉฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คฌ์Šต๋‹ˆ๋‹ค. ์ฃผ์š” ๊ตฌ์„ฑ ์š”์†Œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์•„์š”.

 

3.2.1. Vision Encoder (CLIP ๊ธฐ๋ฐ˜)

Vision Encoder๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ด๋ฅผ ์‹œ๊ฐ์  ํŠน์ง•์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์—ญํ• ์„ ํ•ด์š”. LLaVA์—์„œ๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ CLIP ๋ชจ๋ธ์˜ ViT-L/14๋ฅผ ์‚ฌ์šฉํ–ˆ์–ด์š”. ์ด ๋ชจ๋ธ์€ ์ž…๋ ฅ ์ด๋ฏธ์ง€ ๋ฅผ ๋ฐ›์•„ ์‹œ๊ฐ์  ํŠน์ง• ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉฐ, ์ด ๊ณผ์ •์—์„œ ์ด๋ฏธ์ง€๋ฅผ grid ํ˜•ํƒœ์˜ ๋น„์ฃผ์–ผ ํ† ํฐ์œผ๋กœ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. Vision Encoder๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ์ƒํƒœ๋กœ frozen๋˜์–ด ์žˆ์œผ๋ฉฐ, ํ•™์Šต ๊ณผ์ •์—์„œ ๊ฐ€์ค‘์น˜๊ฐ€ ์—…๋ฐ์ดํŠธ๋˜์ง€ ์•Š์•„์š”. ์ด๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ํ•™์Šต ํšจ์œจ์„ฑ์„ ๋†’์˜€์–ด์š”.

 

3.2.2. Projection Layer

Projection Layer๋Š” CLIP์—์„œ ์ƒ์„ฑ๋œ ๋น„์ฃผ์–ผ ํŠน์ง• ๋ฅผ LLM(Vicuna)์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์–ธ์–ด ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์œผ๋กœ ๋ณ€ํ™˜ํ•ด์š”. ์ด ์„ ํ˜• ๋ ˆ์ด์–ด๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ์ด๋ฏธ์ง€ ํŠน์ง•์„ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์— ๋งž์ถฐ ๋งคํ•‘ํ•˜๋Š” ์—ญํ• ์„ ํ•˜๋ฉฐ, ๋‹ค์Œ ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.

 

 

์—ฌ๊ธฐ์„œ ๋Š” ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜์ธ ํˆฌ์˜ ํ–‰๋ ฌ์ด๊ณ , ๋Š” ์–ธ์–ด ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์—์„œ ์‹œ๊ฐ์  ํŠน์ง•์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋น„์ฃผ์–ผ ํ† ํฐ์ด์—์š”. Projection Layer๋Š” ๊ฒฝ๋Ÿ‰ ์„ค๊ณ„๋กœ ๋น ๋ฅธ ํ•™์Šต๊ณผ ๋ฐ์ดํ„ฐ ์‹คํ—˜์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์žฅ์ ์„ ์ œ๊ณตํ–ˆ์–ด์š”.

 

3.2.3. Language Decoder (Vicuna ๊ธฐ๋ฐ˜)

LLaVA์˜ Language Decoder๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ Vicuna๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, GPT ๊ณ„์—ด์˜ ์–ธ์–ด ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์–ด์š”. Vicuna๋Š” ๊ฐ•๋ ฅํ•œ ์ธ์ŠคํŠธ๋Ÿญ์…˜ ์ถ”๋ก  ์„ฑ๋Šฅ์„ ํ†ตํ•ด ์ด๋ฏธ์ง€์—์„œ ์ „๋‹ฌ๋ฐ›์€ ์‹œ๊ฐ์  ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ž์—ฐ์Šค๋Ÿฌ์šด ํ…์ŠคํŠธ ์‘๋‹ต์„ ์ƒ์„ฑํ•ด์š”. Projection Layer์—์„œ ์ „๋‹ฌ๋œ ๋น„์ฃผ์–ผ ํ† ํฐ ์™€ ํ…์ŠคํŠธ ์ž…๋ ฅ์„ ๋™์ผํ•œ ์‹œํ€€์Šค๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, "์ด๋ฏธ์ง€ ์„ค๋ช…: "๊ณผ ๊ฐ™์€ ํ…์ŠคํŠธ์™€ ๋ฅผ ๊ฒฐํ•ฉํ•ด ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์‘๋‹ต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์–ด์š”.

 

์ด ๋ชจ๋ธ์€ ์–ธ์–ด ํ† ํฐ๊ณผ ๋น„์ฃผ์–ผ ํ† ํฐ์„ ๋™์ผํ•œ ์‹œํ€€์Šค๋กœ ์ฒ˜๋ฆฌํ•˜๋ฉด์„œ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด์˜ ํ†ตํ•ฉ์„ ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•ด์š”. ์ด๋ฅผ ํ†ตํ•ด ํ…์ŠคํŠธ ์ƒ์„ฑ๋ฟ ์•„๋‹ˆ๋ผ, ์งˆ๋ฌธ-์‘๋‹ต์ด๋‚˜ ๋ณต์žกํ•œ ์ถ”๋ก  ์ž‘์—…์—์„œ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ–ˆ์–ด์š”.

 

3.3. ํ•™์Šต ๊ณผ์ • 

LLaVA์˜ ํ•™์Šต ๊ณผ์ •์€ Pre-training๊ณผ Fine-tuning์˜ ๋‘ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์–ด์š”. ์ด ์ ‘๊ทผ๋ฒ•์€ ์‚ฌ์ „ ํ•™์Šต๋œ Vision Encoder์™€ LLM์„ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•˜๋ฉฐ, ํ•™์Šต ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ–ˆ๋‹ต๋‹ˆ๋‹ค.

 

3.3.1. Pre-training

์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” Vision Encoder์™€ LLM ๊ฐ„์˜ ๊ธฐ๋ณธ์ ์ธ ํ˜ธํ™˜์„ฑ์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด, ํ•„ํ„ฐ๋ง๋œ 59๋งŒ ๊ฐœ์˜ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ํŽ˜์–ด(CC3M)๋ฅผ ์‚ฌ์šฉํ–ˆ์–ด์š”. ์ด ๋‹จ๊ณ„์—์„œ Projection Layer๋งŒ ํ•™์Šต๋˜๋ฉฐ, Vision Encoder์™€ LLM์€ ๋ชจ๋‘ frozen๋œ ์ƒํƒœ๋กœ ์œ ์ง€๋ผ์š”.

 

์ด ๊ณผ์ •์—์„œ ์ž…๋ ฅ ์ด๋ฏธ์ง€ ๋ฅผ ์‹œ๊ฐ์  ํŠน์ง• ๋กœ ๋ณ€ํ™˜ํ•œ ๋’ค, Projection Layer๋ฅผ ํ†ตํ•ด ์–ธ์–ด ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘ํ–ˆ์–ด์š”. ์งˆ๋ฌธ๊ณผ ๋‹ต๋ณ€ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ด LLM์ด ์ด๋ฏธ์ง€ ์ •๋ณด๋ฅผ ์–ธ์–ด์ ์œผ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šตํ–ˆ๋‹ต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์งˆ๋ฌธ "์ด ์ด๋ฏธ์ง€์— ๋ฌด์—‡์ด ๋ณด์ด๋‚˜์š”?"์— ๋Œ€ํ•ด ์บก์…˜ "๊ฒ€์€ SUV๊ฐ€ ์ง์„ ์‹ฃ๊ณ  ์žˆ๋Š” ๋ชจ์Šต"์„ ์ •๋‹ต์œผ๋กœ ์‚ฌ์šฉํ–ˆ์–ด์š”. ์ด ๋‹จ๊ณ„๋Š” LLaVA๊ฐ€ ์ด๋ฏธ์ง€ ์ •๋ณด๋ฅผ ์–ธ์–ด ์ž„๋ฒ ๋”ฉ๊ณผ ์ •๋ ฌ์‹œํ‚ค๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ท„์–ด์š”.

 

3.3.2. Fine-tuning

Fine-tuning ๋‹จ๊ณ„์—์„œ๋Š” GPT๋กœ ์ƒ์„ฑํ•œ ์„ธ ๊ฐ€์ง€ ์œ ํ˜•์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ(๋Œ€ํ™”ํ˜• ๋ฐ์ดํ„ฐ, ์ƒ์„ธ ๋ฌ˜์‚ฌ, ๋ณต์žกํ•œ ์ถ”๋ก )๋กœ ๊ตฌ์„ฑ๋œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ์…‹(158,000๊ฐœ)์„ ํ™œ์šฉํ•ด LLaVA๋ฅผ ์ •๋ฐ€ํ•˜๊ฒŒ ํ•™์Šตํ–ˆ์–ด์š”. Fine-tuning ๊ณผ์ •์—์„œ๋Š” Projection Layer์™€ LLM(Vicuna)์˜ ๊ฐ€์ค‘์น˜๋ฅผ ํ•จ๊ป˜ ์—…๋ฐ์ดํŠธํ•˜๋ฉฐ, ๋ชจ๋ธ์ด ์‹œ๊ฐ์  ์ •๋ณด์™€ ํ…์ŠคํŠธ๋ฅผ ๊ธด๋ฐ€ํžˆ ํ†ตํ•ฉํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ํ•™์Šตํ–ˆ๋‹ต๋‹ˆ๋‹ค.

 

Fine-tuning ๋‹จ๊ณ„์—์„œ๋Š” ๋Œ€ํ™”ํ˜• ๋ฐ์ดํ„ฐ, ์ƒ์„ธ ๋ฌ˜์‚ฌ ๋ฐ์ดํ„ฐ, ๋ณต์žกํ•œ ์ถ”๋ก  ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ๋ชจ๋ธ์˜ ๋‹ค์–‘ํ•œ ์ž‘์—… ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ํ•™์Šต์‹œ์ผฐ์–ด์š”. ๋Œ€ํ™”ํ˜• ๋ฐ์ดํ„ฐ๋Š” ๋ฉ€ํ‹ฐํ„ด ๋Œ€ํ™”๋ฅผ ํ•™์Šตํ•ด ์‚ฌ์šฉ์ž ์งˆ๋ฌธ์— ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์‘๋‹ตํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ–ˆ๊ณ , ์ƒ์„ธ ๋ฌ˜์‚ฌ ๋ฐ์ดํ„ฐ๋Š” ์ด๋ฏธ์ง€์˜ ์‹œ๊ฐ์  ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ํ…์ŠคํŠธ๋กœ ํ‘œํ˜„ํ•˜๋„๋ก ๋ชจ๋ธ์„ ํ•™์Šตํ–ˆ์–ด์š”. ๋˜ํ•œ, ๋ณต์žกํ•œ ์ถ”๋ก  ๋ฐ์ดํ„ฐ๋Š” ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€์˜ ๋งฅ๋ฝ์„ ์ดํ•ดํ•˜๊ณ  ์‹ฌํ™”๋œ ๋…ผ๋ฆฌ์  ์งˆ๋ฌธ์— ๋‹ต๋ณ€ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ํ•™์Šตํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ต๋‹ˆ๋‹ค.

 

์ด๋Ÿฌํ•œ Fine-tuning ์ „๋žต์€ LLaVA๊ฐ€ ์‚ฌ์šฉ์ž ์ง€์‹œ์— ๋”ฐ๋ผ ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ๋…ผ๋ฆฌ์ ์ธ ์‘๋‹ต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ์ค‘์š”ํ•œ ํ•™์Šต ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.

 

4. ์‹คํ—˜ ๊ฒฐ๊ณผ

 

LLaVA๋Š” ๋‹ค์–‘ํ•œ ํ‰๊ฐ€์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ๋กœ์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์–ด์š”. COCO ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์—์„œ๋Š” 90๊ฐœ์˜ ์งˆ๋ฌธ์„ ํ™œ์šฉํ•ด ๋ชจ๋ธ์˜ ์ง€์‹œ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ–ˆ์œผ๋ฉฐ, ์„ธ ๊ฐ€์ง€ ์งˆ๋ฌธ ์œ ํ˜• ๋ชจ๋‘์—์„œ GPT-4์— ๋น„ํ•ด 85.1%์˜ ์ƒ๋Œ€ ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ–ˆ์–ด์š”. ์ด๋Š” LLaVA๊ฐ€ ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ์งˆ๋ฌธ์— ๋Œ€ํ•ด ์ผ๊ด€๋˜๊ฒŒ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋ณด์—ฌ์คฌ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

In-the-Wild ํ‰๊ฐ€์—์„œ๋Š” ์‹ค๋‚ด์™ธ ์ด๋ฏธ์ง€, ๋ฐˆ, ์Šค์ผ€์น˜ ๋“ฑ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์˜ 24๊ฐœ ์ด๋ฏธ์ง€์™€ ์งˆ๋ฌธ์œผ๋กœ ๋ชจ๋ธ์„ ํ…Œ์ŠคํŠธํ–ˆ์–ด์š”. ์ด ํ‰๊ฐ€์—์„œ LLaVA๋Š” BLIP-2 ๋Œ€๋น„ 29%, OpenFlamingo ๋Œ€๋น„ 48% ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์‹œ๊ฐ์  ํ‘œํ˜„๊ณผ ๋ฌธ๋งฅ์—์„œ๋„ ๊ฐ•๋ ฅํ•œ ์ ์‘๋ ฅ์„ ๋ณด์—ฌ์คฌ์–ด์š”. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” LLaVA๊ฐ€ ๊ธฐ์กด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์„ ๋„˜์–ด์„œ๋Š” ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Œ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

 

๋˜ํ•œ, Science QA ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ณผํ•™ ์งˆ๋ฌธ ์‘๋‹ต์—์„œ 90.92%์˜ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ ์ƒˆ๋กœ์šด SOTA(State-of-the-Art) ์„ฑ๋Šฅ(92.53%)์— ๊ทผ์ ‘ํ–ˆ์–ด์š”. ์ด๋Š” LLaVA๊ฐ€ ๊ณผํ•™์  ์ถ”๋ก ์„ ํฌํ•จํ•œ ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ์—์„œ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค๋Š” ๊ฒƒ์„ ์ž…์ฆํ–ˆ์–ด์š”.

 

5. ๊ฒฐ๋ก 

LLaVA๋Š” ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ํ†ตํ•ฉ์ ์œผ๋กœ ์ดํ•ดํ•˜๋ฉฐ, ์‚ฌ์šฉ์ž์˜ ์ง€์‹œ์— ๋”ฐ๋ผ ์ž์—ฐ์Šค๋Ÿฌ์šด ์‘๋‹ต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ์ฐจ์›์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI ๋ชจ๋ธ์ด์—์š”. GPT-4๋ฅผ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ๊ณผ ํšจ๊ณผ์ ์ธ ํŠœ๋‹ ์ „๋žต์„ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž‘์—…์—์„œ ๋†’์€ ์ •ํ™•๋„์™€ ์œ ์—ฐ์„ฑ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI์˜ ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์—ˆ์–ด์š”.

 

LLaVA์˜ ๊ฐ•์ ์€ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ๊ณผ ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•œ๋‹ค๋Š” ์ ์ด์—์š”. ํŠนํžˆ, COCO ๋ฐ์ดํ„ฐ์…‹๊ณผ In-the-Wild ํ‰๊ฐ€, ๊ทธ๋ฆฌ๊ณ  Science QA ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ž…์ฆ๋œ ๊ฒฐ๊ณผ๋Š” ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ๊ณผ ์‹ค์šฉ์„ฑ์„ ์ž˜ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋ฏธ์ง€์˜ ๊ณ ํ•ด์ƒ๋„ ์„ธ๋ถ€ ์ •๋ณด ์ฒ˜๋ฆฌ๋‚˜ ์ง€์‹ ๋ฒ”์œ„์™€ ๊ฐ™์€ ๋ถ€๋ถ„์—์„œ๋Š” ์—ฌ์ „ํžˆ ๊ฐœ์„ ์˜ ์—ฌ์ง€๊ฐ€ ์žˆ์–ด์š”. ์ด๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI ๋ชจ๋ธ์ด ์•ž์œผ๋กœ ๋” ๊นŠ๊ณ  ์„ธ๋ฐ€ํ•œ ์ •๋ณด๋ฅผ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋„๋ก ๋ฐœ์ „ํ•  ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๋ฐ˜์‘ํ˜•