๐ก LLaVA
1. ์ฐ๊ตฌ ์ฃผ์ ์ ์ฃผ์ ๊ธฐ์ฌ
์ด ์ฐ๊ตฌ๋ ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ํจ๊ป ์ดํดํ๊ณ ์ฒ๋ฆฌํ ์ ์๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ LLaVA๋ฅผ ์ ์ํ๊ณ ์์ด์. ํนํ Visual Instruction Tuning์ ํตํด ๋ฉํฐ๋ชจ๋ฌ ์์ ์์ ์ฌ์ฉ์์ ์ง์๋ฅผ ๋ฐ๋ฅด๊ณ , ๋ณต์กํ ์ด๋ฏธ์ง์ ํ ์คํธ ๊ธฐ๋ฐ ์์ ์ ์ํํ ์ ์๋๋ก ๋ชจ๋ธ์ ์ค๊ณํ์ด์. ๊ธฐ์กด์ ์ด๋ฏธ์ง-ํ ์คํธ ํ์ด ๋ฐ์ดํฐ(์: COCO)๋ฅผ ํ์ฉํ ํ์ต์์ ํ ๋ฐ ๋ ๋์๊ฐ, GPT-4๋ฅผ ํ์ฉํด ์ด๋ฏธ์ง ์ค๋ช ์บก์ ์ ๋ฐํ์ผ๋ก ์ง๋ฌธ๊ณผ ๋ต๋ณ ํ์์ ์๋ก์ด ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ต๋๋ค.
- ์๋ก์ด ๋ฐ์ดํฐ์ ์์ฑ ๋ฐฉ๋ฒ: GPT-4๋ฅผ ํ์ฉํด ๊ธฐ์กด ์ด๋ฏธ์ง-ํ ์คํธ ํ์ด๋ฅผ ๋ฉํฐ๋ชจ๋ฌ ์ง์-์๋ต ๋ฐ์ดํฐ๋ก ์๋ ๋ณํํ๋ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ ๊ฐ๋ฐํ์ด์. ์ด๋ฅผ ํตํด ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ ์์ ์ ํ์ฉ ๊ฐ๋ฅํ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํ๋ต๋๋ค.
- ์๋ก์ด ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ ์ ์: CLIP ๊ธฐ๋ฐ์ ๋น์ ์ธ์ฝ๋์ Vicuna ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ ์ฐ๊ฒฐํด LLaVA ๋ชจ๋ธ์ ์ค๊ณํ์ด์. ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ๊น์ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค.
- ๋ฉํฐ๋ชจ๋ฌ ์์ ์์ ๋ชจ๋ธ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ LLaVA-Bench๋ฅผ ์ ๊ณตํด์. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ ๋์ ์ผ๋ก ํ๊ฐํ ์ ์์์ด์.
2. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋ํฅ
๊ธฐ์กด ๋ฉํฐ๋ชจ๋ฌ ์ฐ๊ตฌ๋ ์ฃผ๋ก ๊ฐ๊ฐ์ ์์ (์: ์ด๋ฏธ์ง ๋ถ๋ฅ, ์บก์ ์์ฑ)์ ๋ณ๋์ ๋ชจ๋ธ๋ก ํด๊ฒฐํ๋ ๋ฐ ์ด์ ์ ๋ง์ท์ผ๋ฉฐ, ์ธ์ด๋ ๋ณด์กฐ์ ์ธ ์ญํ (์: ์ด๋ฏธ์ง๋ฅผ ์ค๋ช )๋ก ์ฌ์ฉ๋์์ด์. ํ์ง๋ง ์ต๊ทผ GPT-4์ ๊ฐ์ LLM์ด ๋ฑ์ฅํ๋ฉด์, ์ธ์ด๋ฅผ ๋ณดํธ์ ์ธํฐํ์ด์ค๋ก ํ์ฉํด ๋ค์ํ ์์ ์ ๋จ์ผ ๋ชจ๋ธ๋ก ์ฒ๋ฆฌํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์คฌ๋ต๋๋ค.
- LLM ํ๋: ChatGPT์ LLaMA ๊ฐ์ ํ ์คํธ ๊ธฐ๋ฐ LLM์์ Instruction Tuning์ด ์ผ๋ฐ์ ์ธ ์์ ์ํ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํค๋ ๋ชจ์ต์ ๋ณด์ฌ์คฌ์ด์. ์ด๋ LLM์ ๋ค์ํ ํ์คํฌ์ ์ ์ฉํ ์ ์๋ ๊ฐ๋ ฅํ ๋๊ตฌ๋ก ์๋ฆฌ ์ก๊ฒ ํ๋ต๋๋ค.
- ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ ๊ฐ๋ฐ: ๊ธฐ์กด์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ(์: BLIP-2, Flamingo, OpenFlamingo)์ ๋ฉํฐ๋ชจ๋ฌ ์์ ์์ ์๋ฏธ ์๋ ์ฑ๊ณผ๋ฅผ ๋ณด์์ง๋ง, ๋๋ถ๋ถ ๋น์ -์ธ์ด ์ง์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ํ๋์ด ๋ถ์กฑํด์ ์์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๊ณ๋ฅผ ๋ณด์์ด์.
- LLaVA๋ ๋น์ -์ธ์ด ์ง์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ๋ชจ๋ธ์ ํ๋ํ๊ณ , ๊ธฐ์กด ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ์์ ์ผ๋ฐํ๋ฅผ ๋ชฉํ๋ก ํ์ด์. ์ด๋ ๋จ์ํ ์ด๋ฏธ์ง๋ฅผ ์ค๋ช ํ๊ฑฐ๋ ํ ์คํธ๋ฅผ ์์ฑํ๋ ์์ค์ ๋์ด, ์ฌ์ฉ์์ ์ง์๋ฅผ ์ํํ๊ณ ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ ํ์คํฌ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํ ์ ๊ทผ์ด์์.
3. ์ฃผ์ ์ ์
3.1. ๋ฐ์ดํฐ ์์ฑ
LLaVA๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด GPT-4์ ChatGPT๋ฅผ ํ์ฉํด Vision-Language Instruction-following ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ด์. ์ด ๊ณผ์ ์์ ๊ธฐ์กด์ ์ด๋ฏธ์ง-ํ ์คํธ ํ์ด ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๋ค์ํ ์ง๋ฌธ๊ณผ ๋ต๋ณ ํ์์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์๋ ์์ฑํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ต๋๋ค.
3.1.1. ํ์ต ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ๋ฒ
LLaVA๋ ๋ฉํฐ๋ชจ๋ฌ ํ์ต์ ์ํด GPT-4๋ฅผ ํ์ฉํด ๊ธฐ์กด ์ด๋ฏธ์ง-ํ ์คํธ ํ์ด ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๋ํํ ๋ฐ์ดํฐ(Conversation), ์์ธ ๋ฌ์ฌ(Detailed Description), ๋ณต์กํ ์ถ๋ก (Complex Reasoning)์ด๋ผ๋ ์ธ ๊ฐ์ง ์ ํ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ด์. ๊ฐ ์ ํ์ ์๋ก ๋ค๋ฅธ ์์ค์ ํ ์คํธ-์ด๋ฏธ์ง ์ดํด์ ์ฒ๋ฆฌ๋ฅผ ์๊ตฌํด์.
1) ๋ํํ ๋ฐ์ดํฐ (Conversation)
๋ํํ ๋ฐ์ดํฐ๋ ์ฌ์ฉ์์ AI ๊ฐ์ ์ํธ์์ฉ์ ๋ชจ๋ฐฉํ์ฌ ์ง๋ฌธ๊ณผ ๋ต๋ณ์ ํํ๋ก ๊ตฌ์ฑ๋์์ด์. ์๋ฅผ ๋ค์ด, ์ฌ์ฉ์๊ฐ ์ด๋ฏธ์ง๋ฅผ ๋ณด๋ฉด์ "์ด ์ฌ์ง ์์ ์๋ ๋๋ฌผ์ ๋ฌด์์ธ๊ฐ์?"๋ผ๊ณ ๋ฌป๋๋ค๋ฉด, ๋ชจ๋ธ์ "์ฌ์ง ์์๋ ํ ๋ง๋ฆฌ์ ๊ณ ์์ด๊ฐ ์์ต๋๋ค."๋ผ๋ ์๋ต์ ์์ฑํ๋๋ก ํ์ตํฉ๋๋ค. ์ด ๋ฐ์ดํฐ๋ AI๊ฐ ์ฌ์ฉ์์ ์ง๋ฌธ์ ์์ฐ์ค๋ฝ๊ฒ ์๋ตํ ์ ์๋ ๋ฅ๋ ฅ์ ํค์ฐ๋ ๋ฐ ๋์์ ์ค์.
- ์ง๋ฌธ: "์ด ์ด๋ฏธ์ง์์ ์ฌ๋์ด ๋ฌด์์ ํ๊ณ ์๋์?"
- ๋ต๋ณ: "์ฌ๋๋ค์ด SUV์ ์ง์ ์ฃ๊ณ ์๋ ๋ชจ์ต์ ๋๋ค."
2) ์์ธ ๋ฌ์ฌ(Detailed Description)
์์ธ ๋ฌ์ฌ๋ ์ด๋ฏธ์ง๋ฅผ ๊ฐ๋ฅํ ํ ์์ธํ ๋ฌ์ฌํ๋ ์์ ํ ๋ฐ์ดํฐ๋ก ๊ตฌ์ฑ๋์์ด์. ๋ชจ๋ธ์ด ์ด๋ฏธ์ง์ ๋ชจ๋ ์๊ฐ์ ์์๋ฅผ ์ธ์ํ๊ณ ์ด๋ฅผ ํ
์คํธ๋ก ์ค๋ช
ํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค. ์๋ฅผ ๋ค์ด, ๋จ์ํ "์ฌ๋๋ค์ด SUV ์์ ์ ์๋ค"๋ ๋ฌ์ฌ์์ ๋ ๋์๊ฐ, "๊ฒ์์ SUV ์์์ ์ธ ์ฌ๋์ด ์๋ก ์ด์ผ๊ธฐ๋ฅผ ๋๋๋ฉฐ ์ง์ ์ ๋ฆฌํ๊ณ ์๋ค"์ ๊ฐ์ ๊ตฌ์ฒด์ ์ธ ์ค๋ช
์ ์์ฑํ๋๋ก ํ์ตํ์ด์.
- ์์ ๋ฌ์ฌ: "์ฌ์ง์๋ ๊ฒ์์ SUV๊ฐ ์๊ณ , ์ธ ๋ช ์ ์ฌ๋์ด ์ง์ ์ ๋ฆฌํ๊ณ ์์ต๋๋ค. ์ฐจ๋ ์์๋ ์ปค๋ค๋ ์ฌํ ๊ฐ๋ฐฉ๊ณผ ์์ ํธ๋๋ฐฑ์ด ๋์ฌ ์์ผ๋ฉฐ, ํ๋์ ๋ง์ ์ํ์ ๋๋ค."
3) ๋ณต์กํ ์ถ๋ก (Complex Reasoning)
๋ณต์กํ ์ถ๋ก ๋ฐ์ดํฐ๋ ๋จ์ํ ์ด๋ฏธ์ง๋ฅผ ๋ฌ์ฌํ๋ ๋ฐ ๊ทธ์น์ง ์๊ณ , ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋
ผ๋ฆฌ์ ์ฌ๊ณ ์ ์ด์ ๋ฅผ ์๊ตฌํ๋ ์ง๋ฌธ๊ณผ ๋ต๋ณ์ผ๋ก ๊ตฌ์ฑ๋์์ด์. ์ด ๋ฐ์ดํฐ๋ AI๊ฐ ์ถ๋ก ์ ํตํด ์๋ต์ ์์ฑํ๋ ๋ฅ๋ ฅ์ ํ์ตํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, "์ด ์ฌ๋๋ค์ด ์ฌํ์ ๋ ๋ ์ค๋น๋ฅผ ํ๊ณ ์๋ ์ด์ ๋ ๋ฌด์์ธ๊ฐ์?"๋ผ๋ ์ง๋ฌธ์ "์ง์ SUV์ ์ฃ๋ ๋ชจ์ต์ผ๋ก ๋ณด์, ๊ฐ์กฑ ์ฌํ์ ์ค๋นํ๋ ๊ฒ ๊ฐ์ต๋๋ค."์ ๊ฐ์ ์๋ต์ ์์ฑํ ์ ์๋๋ก ํ๋ จํ์ด์.
- ์ง๋ฌธ: "์ด ์ฌ์ง์์ ์ฌ๋๋ค์ด ์ด๋ค ๊ฐ์ ์ ๋๋ผ๊ณ ์์๊น์?"
- ๋ต๋ณ: "์ฌ๋๋ค์ด ํจ๊ป ๋ํ๋ฅผ ๋๋๋ฉฐ ์๊ณ ์๋ ๋ชจ์ต์ผ๋ก ๋ณด์, ๊ธ์ ์ ์ด๊ณ ํ๋ณตํ ๊ฐ์ ์ ๋๋ผ๊ณ ์๋ ๊ฒ ๊ฐ์ต๋๋ค."
3.1.2. ์ ํ ์คํธ ๋ฐ์ดํฐ๋ง์ ์ฌ์ฉํ์๊น?
LLaVA๋ ํ ์คํธ ๊ธฐ๋ฐ ์บก์ ๊ณผ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ ๋ณด๋ฅผ ํ์ฉํด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋๋ฐ, ์ด๋ฅผ ์ ํํ ์ด์ ๋ ํ ์คํธ ์ ์ฉ ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ์ ํ๊ณผ ๋น์ฉ ํจ์จ์ฑ ๋๋ฌธ์ด์์. GPT-4์ ChatGPT๋ ํ ์คํธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ก, ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ์ง์ ์ฒ๋ฆฌํ ์ ์์ด์ ์ด๋ฏธ์ง๋ฅผ ํ ์คํธ๋ก ๋ณํํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ผ ํ์ด์. ์๋ฅผ ๋ค์ด, ์ด๋ฏธ์ง๋ฅผ "A black SUV surrounded by luggage"์ ๊ฐ์ ํ ์คํธ ์บก์ ํํ๋ก ํํํ๊ฑฐ๋, "์ฌ๋, ๊ฐ๋ฐฉ, ์ฐจ๋ ๋ฑ์ ์์น์ ๋ฒ์"๋ฅผ ์ซ์๋ก ํ์ํ ๋ฐ์ด๋ฉ ๋ฐ์ค ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ต๋๋ค.
๋ํ, ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ํฌํจํ ํ์ต ๋ฐ์ดํฐ์ ์ ์์์ ์ผ๋ก ์์ฑํ๋ ๊ฒ์ ๋น์ฉ์ด ๋งค์ฐ ํฌ๊ณ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ ค์. ๋ฐ๋ฉด, ๊ธฐ์กด ํ ์คํธ ๊ธฐ๋ฐ ์ด๋ฏธ์ง ์ค๋ช ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ฉด ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ณ ์ ๋ ดํ๊ฒ ์ฆ๊ฐํ ์ ์์์ฃ . GPT-4๋ ํ ์คํธ ๊ธฐ๋ฐ ์ ๋ ฅ๋ง์ผ๋ก๋ ๋ฐ์ด๋ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ฐํํ ์ ์๊ธฐ ๋๋ฌธ์, ์บก์ ์ด๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ ๋ณด๋ง์ผ๋ก๋ ๋ ผ๋ฆฌ์ ์ด๊ณ ์์ธํ ์ง๋ฌธ-์๋ต ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด๋ผ ์ ์์์ด์.
3.1.3. ์ ์๊ฐ ๊ฐ์กฐํ ํฌ์ธํธ
์ด ๋ ผ๋ฌธ์์๋ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ๋ฒ๋ก ์ ์ค์ฉ์ฑ๊ณผ ํจ์จ์ฑ์ ๊ฐ์กฐํ์ด์. ์ด๋ฏธ์ง๋ฅผ ํฌํจํ์ง ์๊ณ ๋ ๊ธฐ์กด์ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์์์ ๋ณด์ฌ์คฌ์ฃ . ํนํ, GPT-4์ ๊ฐ๋ ฅํ ์ธ์ด ์ฒ๋ฆฌ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ํตํด ๋จ์ ์บก์ ๋ง์ผ๋ก๋ ๊ณ ํ์ง์ ์ง๋ฌธ-์๋ต ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด๋์ด์.
๋ํ, ํ ์คํธ๋ง์ ์ฌ์ฉํ ๋ฐ์ดํฐ ์ฆ๊ฐ ๋ฐฉ๋ฒ์ ๋ฐ์ดํฐ ๋ค์์ฑ๊ณผ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋์ด๋ ๋ฐ ์ ๋ฆฌํ์ด์. ๋ค์ํ ์บก์ ๋ฐ์ดํฐ์ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ ๋ณด๋ฅผ ํ์ฉํด ๋ ๋ง์ ์ ํ์ ์ง๋ฌธ-์๋ต ๋ฐ์ดํฐ๋ฅผ ์๋์ผ๋ก ์์ฑํ ์ ์์์ฃ . ๋ง์ง๋ง์ผ๋ก, ์ ์๋ค์ ํ ์คํธ ๊ธฐ๋ฐ ํ์ต์ ์ค์ฉ์ฑ์ ์ ์ฆํ๋ฉด์๋, ํฅํ ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ํจ๊ป ํ์ฉํ๋ ๋ฐฉ์์ผ๋ก ๋ฐ์ ํ ๊ฐ๋ฅ์ฑ์ ์ด์ด๋์์ด์. ํ์ฌ๋ ํ ์คํธ ์ค์ฌ์ผ๋ก ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ง๋ง, ๋ ๋ณต์กํ ์๊ฐ ์ ๋ณด ํตํฉ์ ๋ฏธ๋ ์ฐ๊ตฌ ๊ณผ์ ๋ก ๋จ์ ์์ต๋๋ค.
3.2. Model Architecture
LLaVA์ ๋ชจ๋ธ ์ํคํ ์ฒ๋ ๊ฐ๋จํ๋ฉด์๋ ๊ฐ๋ ฅํ๊ฒ ์ค๊ณ๋์ด, ์ฌ์ ํ์ต๋ LLM(Vicuna)๊ณผ ๋น์ ๋ชจ๋ธ(CLIP ViT-L/14)์ ํจ๊ณผ์ ์ผ๋ก ์ฐ๊ฒฐํด์. ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์ํธ์์ฉ์ ํจ์จ์ ์ผ๋ก ์ํํ๋ฉฐ ๋ฉํฐ๋ชจ๋ฌ ์์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ต๋๋ค. ์ฃผ์ ๊ตฌ์ฑ ์์๋ ๋ค์๊ณผ ๊ฐ์์.
3.2.1. Vision Encoder (CLIP ๊ธฐ๋ฐ)
Vision Encoder๋ ์ด๋ฏธ์ง๋ฅผ ์ดํดํ๊ณ ์ด๋ฅผ ์๊ฐ์ ํน์ง์ผ๋ก ๋ณํํ๋ ์ญํ ์ ํด์. LLaVA์์๋ ์ฌ์ ํ์ต๋ CLIP ๋ชจ๋ธ์ ViT-L/14๋ฅผ ์ฌ์ฉํ์ด์. ์ด ๋ชจ๋ธ์ ์ ๋ ฅ ์ด๋ฏธ์ง ๋ฅผ ๋ฐ์ ์๊ฐ์ ํน์ง ๋ก ๋ณํํ๋ฉฐ, ์ด ๊ณผ์ ์์ ์ด๋ฏธ์ง๋ฅผ grid ํํ์ ๋น์ฃผ์ผ ํ ํฐ์ผ๋ก ๋ํ๋ ๋๋ค. Vision Encoder๋ ์ฌ์ ํ์ต๋ ์ํ๋ก frozen๋์ด ์์ผ๋ฉฐ, ํ์ต ๊ณผ์ ์์ ๊ฐ์ค์น๊ฐ ์ ๋ฐ์ดํธ๋์ง ์์์. ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง ์ฒ๋ฆฌ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ํ์ต ํจ์จ์ฑ์ ๋์์ด์.
3.2.2. Projection Layer
Projection Layer๋ CLIP์์ ์์ฑ๋ ๋น์ฃผ์ผ ํน์ง ๋ฅผ LLM(Vicuna)์ด ์ดํดํ ์ ์๋ ์ธ์ด ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ๋ณํํด์. ์ด ์ ํ ๋ ์ด์ด๋ ์ฌ์ ํ์ต๋ ์ด๋ฏธ์ง ํน์ง์ ์ธ์ด ๋ชจ๋ธ์ ๋จ์ด ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ๋ง์ถฐ ๋งคํํ๋ ์ญํ ์ ํ๋ฉฐ, ๋ค์ ์์์ผ๋ก ํํ๋ฉ๋๋ค.
์ฌ๊ธฐ์ ๋ ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์์ธ ํฌ์ ํ๋ ฌ์ด๊ณ , ๋ ์ธ์ด ์๋ฒ ๋ฉ ๊ณต๊ฐ์์ ์๊ฐ์ ํน์ง์ ๋ํ๋ด๋ ๋น์ฃผ์ผ ํ ํฐ์ด์์. Projection Layer๋ ๊ฒฝ๋ ์ค๊ณ๋ก ๋น ๋ฅธ ํ์ต๊ณผ ๋ฐ์ดํฐ ์คํ์ ๋ฐ๋ณต์ ์ผ๋ก ์ํํ ์ ์๋ ์ฅ์ ์ ์ ๊ณตํ์ด์.
3.2.3. Language Decoder (Vicuna ๊ธฐ๋ฐ)
LLaVA์ Language Decoder๋ ์ฌ์ ํ์ต๋ Vicuna๋ฅผ ์ฌ์ฉํ๋ฉฐ, GPT ๊ณ์ด์ ์ธ์ด ๋ชจ๋ธ๊ณผ ์ ์ฌํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ด์. Vicuna๋ ๊ฐ๋ ฅํ ์ธ์คํธ๋ญ์ ์ถ๋ก ์ฑ๋ฅ์ ํตํด ์ด๋ฏธ์ง์์ ์ ๋ฌ๋ฐ์ ์๊ฐ์ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ์์ฐ์ค๋ฌ์ด ํ ์คํธ ์๋ต์ ์์ฑํด์. Projection Layer์์ ์ ๋ฌ๋ ๋น์ฃผ์ผ ํ ํฐ ์ ํ ์คํธ ์ ๋ ฅ์ ๋์ผํ ์ํ์ค๋ก ๊ฒฐํฉํ์ฌ ํ์ตํฉ๋๋ค. ์๋ฅผ ๋ค์ด, "์ด๋ฏธ์ง ์ค๋ช : "๊ณผ ๊ฐ์ ํ ์คํธ์ ๋ฅผ ๊ฒฐํฉํด ์ง๋ฌธ์ ๋ํ ์๋ต์ ์์ฑํ ์ ์์ด์.
์ด ๋ชจ๋ธ์ ์ธ์ด ํ ํฐ๊ณผ ๋น์ฃผ์ผ ํ ํฐ์ ๋์ผํ ์ํ์ค๋ก ์ฒ๋ฆฌํ๋ฉด์, ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด์ ํตํฉ์ ํจ๊ณผ์ ์ผ๋ก ์ํํด์. ์ด๋ฅผ ํตํด ํ ์คํธ ์์ฑ๋ฟ ์๋๋ผ, ์ง๋ฌธ-์๋ต์ด๋ ๋ณต์กํ ์ถ๋ก ์์ ์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ์ด์.
3.3. ํ์ต ๊ณผ์
LLaVA์ ํ์ต ๊ณผ์ ์ Pre-training๊ณผ Fine-tuning์ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋์ด ์์ด์. ์ด ์ ๊ทผ๋ฒ์ ์ฌ์ ํ์ต๋ Vision Encoder์ LLM์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ฉฐ, ํ์ต ํจ์จ์ฑ์ ๊ทน๋ํํ๋ต๋๋ค.
3.3.1. Pre-training
์ฒซ ๋ฒ์งธ ๋จ๊ณ์์๋ Vision Encoder์ LLM ๊ฐ์ ๊ธฐ๋ณธ์ ์ธ ํธํ์ฑ์ ํ์ตํ๊ธฐ ์ํด, ํํฐ๋ง๋ 59๋ง ๊ฐ์ ์ด๋ฏธ์ง-ํ ์คํธ ํ์ด(CC3M)๋ฅผ ์ฌ์ฉํ์ด์. ์ด ๋จ๊ณ์์ Projection Layer๋ง ํ์ต๋๋ฉฐ, Vision Encoder์ LLM์ ๋ชจ๋ frozen๋ ์ํ๋ก ์ ์ง๋ผ์.
์ด ๊ณผ์ ์์ ์ ๋ ฅ ์ด๋ฏธ์ง ๋ฅผ ์๊ฐ์ ํน์ง ๋ก ๋ณํํ ๋ค, Projection Layer๋ฅผ ํตํด ์ธ์ด ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ๋งคํํ์ด์. ์ง๋ฌธ๊ณผ ๋ต๋ณ ๋ฐ์ดํฐ๋ฅผ ์์ฑํด LLM์ด ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ์ธ์ด์ ์ผ๋ก ์ดํดํ ์ ์๋๋ก ํ์ตํ๋ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ง๋ฌธ "์ด ์ด๋ฏธ์ง์ ๋ฌด์์ด ๋ณด์ด๋์?"์ ๋ํด ์บก์ "๊ฒ์ SUV๊ฐ ์ง์ ์ฃ๊ณ ์๋ ๋ชจ์ต"์ ์ ๋ต์ผ๋ก ์ฌ์ฉํ์ด์. ์ด ๋จ๊ณ๋ LLaVA๊ฐ ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ์ธ์ด ์๋ฒ ๋ฉ๊ณผ ์ ๋ ฌ์ํค๋ ๋ฐ ์ด์ ์ ๋ง์ท์ด์.
3.3.2. Fine-tuning
Fine-tuning ๋จ๊ณ์์๋ GPT๋ก ์์ฑํ ์ธ ๊ฐ์ง ์ ํ์ ํ์ต ๋ฐ์ดํฐ(๋ํํ ๋ฐ์ดํฐ, ์์ธ ๋ฌ์ฌ, ๋ณต์กํ ์ถ๋ก )๋ก ๊ตฌ์ฑ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์ (158,000๊ฐ)์ ํ์ฉํด LLaVA๋ฅผ ์ ๋ฐํ๊ฒ ํ์ตํ์ด์. Fine-tuning ๊ณผ์ ์์๋ Projection Layer์ LLM(Vicuna)์ ๊ฐ์ค์น๋ฅผ ํจ๊ป ์ ๋ฐ์ดํธํ๋ฉฐ, ๋ชจ๋ธ์ด ์๊ฐ์ ์ ๋ณด์ ํ ์คํธ๋ฅผ ๊ธด๋ฐํ ํตํฉํ ์ ์๋ ๋ฅ๋ ฅ์ ํ์ตํ๋ต๋๋ค.
Fine-tuning ๋จ๊ณ์์๋ ๋ํํ ๋ฐ์ดํฐ, ์์ธ ๋ฌ์ฌ ๋ฐ์ดํฐ, ๋ณต์กํ ์ถ๋ก ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ๋ชจ๋ธ์ ๋ค์ํ ์์ ์ํ ๋ฅ๋ ฅ์ ํ์ต์์ผฐ์ด์. ๋ํํ ๋ฐ์ดํฐ๋ ๋ฉํฐํด ๋ํ๋ฅผ ํ์ตํด ์ฌ์ฉ์ ์ง๋ฌธ์ ์์ฐ์ค๋ฝ๊ฒ ์๋ตํ๋ ๋ฅ๋ ฅ์ ๊ฐํํ๊ณ , ์์ธ ๋ฌ์ฌ ๋ฐ์ดํฐ๋ ์ด๋ฏธ์ง์ ์๊ฐ์ ์ธ๋ถ ์ ๋ณด๋ฅผ ํ ์คํธ๋ก ํํํ๋๋ก ๋ชจ๋ธ์ ํ์ตํ์ด์. ๋ํ, ๋ณต์กํ ์ถ๋ก ๋ฐ์ดํฐ๋ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง์ ๋งฅ๋ฝ์ ์ดํดํ๊ณ ์ฌํ๋ ๋ ผ๋ฆฌ์ ์ง๋ฌธ์ ๋ต๋ณํ ์ ์๋ ๋ฅ๋ ฅ์ ํ์ตํ๋๋ก ์ค๊ณ๋์๋ต๋๋ค.
์ด๋ฌํ Fine-tuning ์ ๋ต์ LLaVA๊ฐ ์ฌ์ฉ์ ์ง์์ ๋ฐ๋ผ ์์ฐ์ค๋ฝ๊ณ ๋ ผ๋ฆฌ์ ์ธ ์๋ต์ ์์ฑํ ์ ์๋๋ก ์ค๊ณ๋ ์ค์ํ ํ์ต ๋จ๊ณ์ ๋๋ค.
4. ์คํ ๊ฒฐ๊ณผ
LLaVA๋ ๋ค์ํ ํ๊ฐ์์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ๋ก์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ์ ์ฆํ์ด์. COCO ๋ฐ์ดํฐ์ ๊ธฐ๋ฐ ํ๊ฐ์์๋ 90๊ฐ์ ์ง๋ฌธ์ ํ์ฉํด ๋ชจ๋ธ์ ์ง์ ์ํ ๋ฅ๋ ฅ์ ํ๊ฐํ์ผ๋ฉฐ, ์ธ ๊ฐ์ง ์ง๋ฌธ ์ ํ ๋ชจ๋์์ GPT-4์ ๋นํด 85.1%์ ์๋ ์ ์๋ฅผ ๊ธฐ๋กํ์ด์. ์ด๋ LLaVA๊ฐ ๋ค์ํ ์ ํ์ ์ง๋ฌธ์ ๋ํด ์ผ๊ด๋๊ฒ ๋์ ์ ํ๋๋ฅผ ๋ณด์ฌ์คฌ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
In-the-Wild ํ๊ฐ์์๋ ์ค๋ด์ธ ์ด๋ฏธ์ง, ๋ฐ, ์ค์ผ์น ๋ฑ ๋ค์ํ ๋๋ฉ์ธ์ 24๊ฐ ์ด๋ฏธ์ง์ ์ง๋ฌธ์ผ๋ก ๋ชจ๋ธ์ ํ ์คํธํ์ด์. ์ด ํ๊ฐ์์ LLaVA๋ BLIP-2 ๋๋น 29%, OpenFlamingo ๋๋น 48% ๋ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ฉฐ, ๋ค์ํ ์๊ฐ์ ํํ๊ณผ ๋ฌธ๋งฅ์์๋ ๊ฐ๋ ฅํ ์ ์๋ ฅ์ ๋ณด์ฌ์คฌ์ด์. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ LLaVA๊ฐ ๊ธฐ์กด ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋์ด์๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์์์ ๋ํ๋ ๋๋ค.
๋ํ, Science QA ๋ฐ์ดํฐ์ ์์๋ ๋ฉํฐ๋ชจ๋ฌ ๊ณผํ ์ง๋ฌธ ์๋ต์์ 90.92%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ฉฐ ์๋ก์ด SOTA(State-of-the-Art) ์ฑ๋ฅ(92.53%)์ ๊ทผ์ ํ์ด์. ์ด๋ LLaVA๊ฐ ๊ณผํ์ ์ถ๋ก ์ ํฌํจํ ๋ณต์กํ ๋ฌธ์ ํด๊ฒฐ์์๋ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ฆํ์ด์.
5. ๊ฒฐ๋ก
LLaVA๋ ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ํตํฉ์ ์ผ๋ก ์ดํดํ๋ฉฐ, ์ฌ์ฉ์์ ์ง์์ ๋ฐ๋ผ ์์ฐ์ค๋ฌ์ด ์๋ต์ ์์ฑํ ์ ์๋ ์๋ก์ด ์ฐจ์์ ๋ฉํฐ๋ชจ๋ฌ AI ๋ชจ๋ธ์ด์์. GPT-4๋ฅผ ํ์ฉํ ๋ฐ์ดํฐ ์์ฑ๊ณผ ํจ๊ณผ์ ์ธ ํ๋ ์ ๋ต์ ํตํด ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ ์์ ์์ ๋์ ์ ํ๋์ ์ ์ฐ์ฑ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ฉํฐ๋ชจ๋ฌ AI์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด์์ด์.
LLaVA์ ๊ฐ์ ์ ๋ค์ํ ๋๋ฉ์ธ๊ณผ ์์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ๋ค๋ ์ ์ด์์. ํนํ, COCO ๋ฐ์ดํฐ์ ๊ณผ In-the-Wild ํ๊ฐ, ๊ทธ๋ฆฌ๊ณ Science QA ๋ฐ์ดํฐ์ ์์ ์ ์ฆ๋ ๊ฒฐ๊ณผ๋ ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ์ค์ฉ์ฑ์ ์ ๋ณด์ฌ์ค๋๋ค. ํ์ง๋ง ์ด๋ฏธ์ง์ ๊ณ ํด์๋ ์ธ๋ถ ์ ๋ณด ์ฒ๋ฆฌ๋ ์ง์ ๋ฒ์์ ๊ฐ์ ๋ถ๋ถ์์๋ ์ฌ์ ํ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์์ด์. ์ด๋ ๋ฉํฐ๋ชจ๋ฌ AI ๋ชจ๋ธ์ด ์์ผ๋ก ๋ ๊น๊ณ ์ธ๋ฐํ ์ ๋ณด๋ฅผ ๋ค๋ฃฐ ์ ์๋๋ก ๋ฐ์ ํ ๊ฐ๋ฅ์ฑ์ ์์ฌํฉ๋๋ค.