
[๋
ผ๋ฌธ ๋ฆฌ๋ทฐ] Visual Instruction Tuning | LLaVA Model
ยท
๐ Research/Multi-modal
๐ก LLaVA 1. ์ฐ๊ตฌ ์ฃผ์ ์ ์ฃผ์ ๊ธฐ์ฌ ์ด ์ฐ๊ตฌ๋ ํ
์คํธ์ ์ด๋ฏธ์ง๋ฅผ ํจ๊ป ์ดํดํ๊ณ ์ฒ๋ฆฌํ ์ ์๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ LLaVA๋ฅผ ์ ์ํ๊ณ ์์ด์. ํนํ Visual Instruction Tuning์ ํตํด ๋ฉํฐ๋ชจ๋ฌ ์์
์์ ์ฌ์ฉ์์ ์ง์๋ฅผ ๋ฐ๋ฅด๊ณ , ๋ณต์กํ ์ด๋ฏธ์ง์ ํ
์คํธ ๊ธฐ๋ฐ ์์
์ ์ํํ ์ ์๋๋ก ๋ชจ๋ธ์ ์ค๊ณํ์ด์. ๊ธฐ์กด์ ์ด๋ฏธ์ง-ํ
์คํธ ํ์ด ๋ฐ์ดํฐ(์: COCO)๋ฅผ ํ์ฉํ ํ์ต์์ ํ ๋ฐ ๋ ๋์๊ฐ, GPT-4๋ฅผ ํ์ฉํด ์ด๋ฏธ์ง ์ค๋ช
์บก์
์ ๋ฐํ์ผ๋ก ์ง๋ฌธ๊ณผ ๋ต๋ณ ํ์์ ์๋ก์ด ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ต๋๋ค.์๋ก์ด ๋ฐ์ดํฐ์
์์ฑ ๋ฐฉ๋ฒ: GPT-4๋ฅผ ํ์ฉํด ๊ธฐ์กด ์ด๋ฏธ์ง-ํ
์คํธ ํ์ด๋ฅผ ๋ฉํฐ๋ชจ๋ฌ ์ง์-์๋ต ๋ฐ์ดํฐ๋ก ์๋ ๋ณํํ๋ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ ๊ฐ๋ฐํ์ด์. ์ด๋ฅผ ํตํด ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ ์์
์ ํ์ฉ ๊ฐ๋ฅ..