๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
728x90

๐Ÿ› Research58

[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] Visual Instruction Tuning | LLaVA Model ๐Ÿ’ก LLaVA 1. ์—ฐ๊ตฌ ์ฃผ์ œ์™€ ์ฃผ์š” ๊ธฐ์—ฌ ์ด ์—ฐ๊ตฌ๋Š” ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ํ•จ๊ป˜ ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ LLaVA๋ฅผ ์ œ์•ˆํ•˜๊ณ  ์žˆ์–ด์š”. ํŠนํžˆ Visual Instruction Tuning์„ ํ†ตํ•ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž‘์—…์—์„œ ์‚ฌ์šฉ์ž์˜ ์ง€์‹œ๋ฅผ ๋”ฐ๋ฅด๊ณ , ๋ณต์žกํ•œ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ชจ๋ธ์„ ์„ค๊ณ„ํ–ˆ์–ด์š”. ๊ธฐ์กด์˜ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ํŽ˜์–ด ๋ฐ์ดํ„ฐ(์˜ˆ: COCO)๋ฅผ ํ™œ์šฉํ•œ ํ•™์Šต์—์„œ ํ•œ ๋ฐœ ๋” ๋‚˜์•„๊ฐ€, GPT-4๋ฅผ ํ™œ์šฉํ•ด ์ด๋ฏธ์ง€ ์„ค๋ช… ์บก์…˜์„ ๋ฐ”ํƒ•์œผ๋กœ ์งˆ๋ฌธ๊ณผ ๋‹ต๋ณ€ ํ˜•์‹์˜ ์ƒˆ๋กœ์šด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ–ˆ๋‹ต๋‹ˆ๋‹ค.์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ ๋ฐฉ๋ฒ•: GPT-4๋ฅผ ํ™œ์šฉํ•ด ๊ธฐ์กด ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ํŽ˜์–ด๋ฅผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ง€์‹œ-์‘๋‹ต ๋ฐ์ดํ„ฐ๋กœ ์ž๋™ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ฐœ๋ฐœํ–ˆ์–ด์š”. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž‘์—…์— ํ™œ์šฉ ๊ฐ€๋Šฅ.. 2024. 12. 4.
[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models ๐Ÿ’ก BLIP-21. ์—ฐ๊ตฌ ์ฃผ์ œ์™€ ์ฃผ์š” ๊ธฐ์—ฌ BLIP-2 ๋…ผ๋ฌธ์€ Multi-modal Vision Language Pre-training(VLP)์— ๋Œ€ํ•œ ๋น„์šฉ ํšจ์œจ์ ์ธ ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์„ ์ œ์•ˆํ–ˆ์–ด์š”. ๊ธฐ์กด์˜ ํฐ ๋ชจ๋ธ์„ end-to-end ๋กœ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ์‹์˜ ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ด๋ฏธ ํ•™์Šต๋œ ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”์™€ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ๊ณ ์ •(frozen)ํ•œ ์ฑ„๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ณ ์•ˆํ–ˆ์–ด์š”. Querying Transformer(Q-Former): Modality Gap(์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ๊ฐ„์˜ ์ฐจ์ด)๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ค„์ด๊ธฐ ์œ„ํ•œ ๊ฒฝ๋Ÿ‰ ๋ชจ๋“ˆ์„ ์ œ์•ˆํ–ˆ์–ด์š”.Two-stage Pre-training: ๊ธฐ์กด ๋ชจ๋ธ์˜ ๊ฐ•์ ์„ ๊ฒฐํ•ฉํ•œ Representation Learning๊ณผ Generative Learning ์ „๋žต.. 2024. 12. 4.
[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation ๐Ÿ’ก BLIP1. ์—ฐ๊ตฌ ์ฃผ์ œ์™€ ์ฃผ์š” ๊ธฐ์—ฌ BLIP๋Š” Vision-Language Pre-training(VLP)์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ๊ฐ„์˜ ์ดํ•ด ๊ธฐ๋ฐ˜ ์ž‘์—…๊ณผ ์ƒ์„ฑ ๊ธฐ๋ฐ˜ ์ž‘์—…์„ ๋ชจ๋‘ ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์–ด์š”.๊ธฐ์กด VLP ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ฐœ์„ ํ–ˆ์–ด์š”.์ดํ•ด ๊ธฐ๋ฐ˜(์˜ˆ: ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๊ฒ€์ƒ‰) ๋˜๋Š” ์ƒ์„ฑ ๊ธฐ๋ฐ˜(์˜ˆ: ์ด๋ฏธ์ง€ ์บก์…˜ ์ƒ์„ฑ) ์ž‘์—…์— ํŠนํ™”๋œ ๊ธฐ์กด ๋ชจ๋ธ์˜ ๋‹จ์ ์„ ๋ณด์™„.์›น์—์„œ ์ˆ˜์ง‘๋œ ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํ•™์Šต ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘ ๋ฐฉ๋ฒ• ์ œ์•ˆ.BLIP๋Š” SOTA ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•˜๋ฉฐ ๋‹ค์–‘ํ•œ Vision-Language ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์–ด์š”. 2. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋™ํ–ฅVision-Language Pre-training (VLP)Visio.. 2024. 12. 4.
Transformer์˜ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋” ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ Transformer ๋ชจ๋ธ์€ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋‰˜์–ด์š”.์˜ค๋Š˜์€ ์ด ๋‘ ๋ถ€๋ถ„์ด ๊ฐ๊ฐ ์–ด๋–ค ์—ญํ• ์„ ํ•˜๊ณ , ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅด๊ฒŒ ๋™์ž‘ํ•˜๋Š”์ง€ ์นœ๊ทผํ•˜๊ฒŒ ์„ค๋ช…ํ•ด ๋ณผ๊ฒŒ์š”!๐Ÿ“Œ  ์ธ์ฝ”๋” (Encoder)์—ญํ• : ์ธ์ฝ”๋”๋Š” ์ž…๋ ฅ๋œ ๋ฌธ์žฅ์˜ ์ •๋ณด๋ฅผ ์ „์ฒด์ ์œผ๋กœ ์ดํ•ดํ•˜๋ ค๊ณ  ํ•ด์š”. ์˜ˆ๋ฅผ ๋“ค์–ด, "๋‚˜๋Š” ๋ฐฅ์„ ๋จน์—ˆ๋‹ค"๋ผ๋Š” ๋ฌธ์žฅ์ด ์žˆ์œผ๋ฉด, ์ธ์ฝ”๋”๋Š” ์ด ๋ฌธ์žฅ์˜ ๋ชจ๋“  ๋‹จ์–ด๋“ค์ด ์„œ๋กœ ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๊ณ , ๋ฌธ์žฅ์˜ ์ „์ฒด์ ์ธ ์˜๋ฏธ์™€ ๋งฅ๋ฝ์ด ๋ฌด์—‡์ธ์ง€๋ฅผ ํŒŒ์•…ํ•ด์š”.ํŠน์ง•: ์ธ์ฝ”๋”๋Š” ๋จผ์ € ๊ฐ ๋‹จ์–ด๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•œ ํ›„, ๊ฐ ๋‹จ์–ด๋“ค์ด ์„œ๋กœ ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๋Š”์ง€ ํŒŒ์•…ํ•ด์š”. ์ด๋ ‡๊ฒŒ ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ์—ฐ์‚ฐ์„ ๊ฑฐ์น˜๋ฉด, ๋ฌธ์žฅ์˜ ์˜๋ฏธ๋ฅผ ๋” ๊นŠ๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์–ด์š”.๊ตฌ์กฐ: ์ธ์ฝ”๋”๋Š” Self-Attention๊ณผ ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ๋ฅผ ์ด์šฉํ•ด์š”. Self-Attent.. 2024. 11. 6.
Transformer Attention ์ดํ•ดํ•˜๊ธฐ: Q, K, V์˜ ์—ญํ• ๊ณผ ๋™์ž‘ ์›๋ฆฌ LLMํ•˜๋ฉด transformer๋ฅผ ๋นผ๋จน์„ ์ˆ˜ ์—†๊ณ , ๊ทธ ํ•ต์‹ฌ ์ค‘ ํ•˜๋‚˜๋Š” ๋ฐ”๋กœ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ธ๋ฐ์š”, ์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ดํ•ดํ•˜๋ฉด ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋‹จ์–ด๋“ค ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๊ณ  ๋ฌธ๋งฅ์„ ํŒŒ์•…ํ•˜๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ์–ด์š”. ํŠนํžˆ, ํŠธ๋žœ์Šคํฌ๋จธ์—์„œ ์‚ฌ์šฉ๋˜๋Š” Query (Q), Key (K), Value (V)๋Š” ์–ดํ…์…˜์ด ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ์ดํ•ดํ•˜๋Š” ๋ฐ ์•„์ฃผ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ด์š”. ์˜ค๋Š˜์€ ์ด ์„ธ ๊ฐ€์ง€ ์š”์†Œ๊ฐ€ ์–ด๋–ป๊ฒŒ ์„œ๋กœ ์ž‘์šฉํ•˜๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”์—์„œ ๊ฐ๊ฐ ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜๋Š”์ง€์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด ๋ณผ๊ฑฐ์˜ˆ์š”. ๐Ÿ“Œ Q, K, V ๊ฐœ๋… ์‚ดํŽด๋ณด๊ธฐ Transformer Attention์—์„œ์˜ Query (Q), Key (K), Value (V)๋Š” ๋‹จ์–ด ๊ฐ„์˜ ์—ฐ๊ด€์„ฑ์„ ํŒŒ์•…ํ•˜๊ณ , ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๋ฝ‘์•„๋‚ด๋Š” ์—ญํ• ์„ ํ•ด์š”. ๊ฐ ๋‹จ์–ด๋Š” ๋ฌธ.. 2024. 11. 6.
Stable Diffusion: ์ด๋ฏธ์ง€ ์ƒ์„ฑ AI ์ดํ•ดํ•˜๊ธฐ AI๋ฅผ ํ™œ์šฉํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๊ธฐ์ˆ ์€ ๋‹จ์ˆœํ•œ ํ”ฝ์…€ ๋‹จ์œ„์˜ ๋ณ€ํ˜•์„ ๋„˜์–ด, ๊ณ ์œ ํ•œ ์˜ˆ์ˆ ์  ์ฐฝ์˜์„ฑ์„ ๋‹ด์•„๋‚ด๋Š” ๋‹จ๊ณ„์— ์ด๋ฅด๋ €๋‹ค. AI๋Š” ์ด์ œ ํ…์ŠคํŠธ์™€ ๊ฐ™์€ ๊ฐ„๋‹จํ•œ ์กฐ๊ฑด์—์„œ๋ถ€ํ„ฐ ๋ณต์žกํ•œ ์ด๋ฏธ์ง€ ๋””ํ…Œ์ผ๊นŒ์ง€, ์‚ฌ์šฉ์ž ์š”๊ตฌ์— ๋งž์ถฐ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ๋ฆ„์˜ ์„ ๋‘์— ์žˆ๋Š” ๊ธฐ์ˆ  ์ค‘ ํ•˜๋‚˜๊ฐ€ Stable Diffusion์ด๋‹ค. ์ด ๋ชจ๋ธ์€ ๊ธฐ์กด์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ๋“ค์ด ๊ฒช๋˜ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์กฐ๊ฑด์—์„œ๋„ ํšจ์œจ์ ์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค. Stable Diffusion์˜ ๊ตฌ์กฐ์™€ ํ•™์Šต ๋ฐฉ์‹์„ ์ดํ•ดํ•˜๋ฉด ์ด๋ฏธ์ง€ ์ƒ์„ฑ AI๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ฐœ์ „ํ•ด์™”๊ณ , ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ๋” ์ฐฝ์˜์ ์ธ ๊ฒฐ๊ณผ๋ฌผ์„ ๋งŒ๋“ค์–ด๋‚ด๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ๋‹ค. Diffusion Model ? Diffusion model์€ ๋ฐ์ดํ„ฐ์— ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด.. 2024. 11. 4.
728x90