Qwen3-VL ํ…Œํฌ๋‹ˆ์ปฌ ๋ฆฌํฌํŠธ ๋ฆฌ๋ทฐ | VLM | MLLM

2026. 1. 10. 16:25ยท๐Ÿ› Research/Multi-modal
๋ฐ˜์‘ํ˜•

 

1. Qwen3-VL ๊ฐœ์š”

1.1 ๋ชฉํ‘œ

Qwen3-VL์€ ๋‹จ์ˆœํžˆ ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์„ ์ˆ˜ ์žˆ๋Š” LLM์ด ์•„๋‹ˆ๋‹ค. ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ๋น„๋””์˜ค๊ฐ€ ์„ž์ธ ์ดˆ์žฅ๋ฌธ ์ปจํ…์ŠคํŠธ ํ™˜๊ฒฝ์—์„œ ์‹ค์ œ ์ถ”๋ก ๊ณผ ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค. ๋ฆฌํฌํŠธ ์ „๋ฐ˜์—์„œ ๊ฐ•์กฐ๋˜๋Š” ํ•ต์‹ฌ ๋ชฉํ‘œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ํ…์ŠคํŠธ ์„ฑ๋Šฅ์„ ํฌ์ƒํ•˜์ง€ ์•Š๋Š” VLM
  • ์ตœ๋Œ€ 256K ํ† ํฐ์˜ ๋„ค์ดํ‹ฐ๋ธŒ ๋กฑ ์ปจํ…์ŠคํŠธ ์ฒ˜๋ฆฌ
  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ reasoning, ๋ฌธ์„œ ์ดํ•ด, ์ฐจํŠธ ํ•ด์„, ์—์ด์ „ํŠธ ์‹œ๋‚˜๋ฆฌ์˜ค ๋Œ€์‘

์ด๋Š” Qwen2.5-VL์ด ์ฃผ๋กœ '์ด๋ฏธ์ง€๋ฅผ ์ž˜ ์ดํ•ดํ•˜๋Š” LLM'์— ์ดˆ์ ์ด ์žˆ์—ˆ๋‹ค๋ฉด, Qwen3-VL์€ ๋ณตํ•ฉ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ™˜๊ฒฝ์—์„œ ์‹ค์ œ๋กœ ์ผํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ๋กœ ํ™•์žฅ๋˜์—ˆ๋‹ค๊ณ  ์ฃผ์žฅํ•œ๋‹ค.

1.2 ๋ชจ๋ธ ๋ผ์ธ์—…๊ณผ ์Šค์ผ€์ผ ์ „๋žต

Qwen3-VL์€ Dense ๋ชจ๋ธ๊ณผ MoE(Mixture of Experts) ๋ชจ๋ธ์„ ํ•จ๊ป˜ ์ œ๊ณตํ•œ๋‹ค.

  • Dense: 2B, 4B, 8B, 32B
  • MoE: 30B-A3B, 235B-A22B

MoE ํ‘œ๊ธฐ์—์„œ A3B, A22B๋Š” ํ† ํฐ๋‹น ํ™œ์„ฑํ™”๋˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ๊ทœ๋ชจ๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด 235B-A22B ๋ชจ๋ธ์€ ์ „์ฒด ์šฉ๋Ÿ‰์€ 235B์ด์ง€๋งŒ, ๊ฐ ํ† ํฐ๋งˆ๋‹ค ์‹ค์ œ๋กœ ๊ณ„์‚ฐ์— ์ฐธ์—ฌํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” 22B ์ˆ˜์ค€์ด๋‹ค. ์ด๋Š” Dense ๋ชจ๋ธ ๋Œ€๋น„ ์ถ”๋ก  ๋น„์šฉ์„ ์ œ์–ดํ•˜๋ฉด์„œ๋„, ๋งค์šฐ ํฐ ๋ชจ๋ธ ์šฉ๋Ÿ‰์„ ํ™•๋ณดํ•˜๊ธฐ ์œ„ํ•œ ์„ ํƒ์ด๋‹ค.

 

*MoE๊ฐ€ ์š”์ฆ˜ ํŠธ๋ Œ๋“œ์ด๋‹ค. ๋‹ค๋ฅธ ๊ธฐ์—…๋“ค๋„ Dense ๊ตฌ์กฐ์™€ MoE ๊ตฌ์กฐ๋ฅผ ํ•จ๊ป˜ ๊ณต๊ฐœํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค.

 

2. ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜

๋ณธ ์žฅ์—์„œ๋Š” Qwen3-VL์˜ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ž…๋ ฅ → ์ธ์ฝ”๋”ฉ → ๊ฒฐํ•ฉ → ์ถ”๋ก ์˜ ํ๋ฆ„์— ๋”ฐ๋ผ ๊ฐ ๋ชจ๋“ˆ ๋‹จ์œ„๋กœ ์ƒ์„ธํžˆ ์„ค๋ช…ํ•œ๋‹ค. 

2.1 ์ „์ฒด ๊ตฌ์กฐ ๊ฐœ์š”

Qwen3-VL์˜ ํ•ต์‹ฌ ์„ค๊ณ„ ์ฒ ํ•™์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด๋ฅผ ๋ณ„๋„์˜ ๋ณด์กฐ ์ž…๋ ฅ์ด ์•„๋‹ˆ๋ผ, LLM์— ์ž…๋ ฅ๋˜๋Š” ํ•˜๋‚˜์˜ ํ† ํฐ ์‹œํ€€์Šค๋กœ ๋งŒ๋“ ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ชจ๋“ˆ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

  1. Text Tokenizer
  2. Vision Encoder
  3. Multimodal Token Assembler (interleaved sequence ๊ตฌ์„ฑ)
  4. Positional / Temporal Encoding (Interleaved-MRoPE, timestamp)
  5. LLM Backbone (Dense ๋˜๋Š” MoE Transformer)
  6. Vision–Language Fusion Module (DeepStack)

2.2 ์ž…๋ ฅ ๋ฐ์ดํ„ฐ ์ธ์ฝ”๋”ฉ

2.2.1 ํ…์ŠคํŠธ ์ž…๋ ฅ

ํ…์ŠคํŠธ๋Š” ๊ธฐ์กด Qwen ๊ณ„์—ด LLM๊ณผ ๋™์ผํ•œ tokenizer๋ฅผ ์‚ฌ์šฉํ•ด subword ํ† ํฐ์œผ๋กœ ๋ณ€ํ™˜๋œ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ ์ค‘์š”ํ•œ ์ ์€, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ์ด๋ผ ํ•˜๋”๋ผ๋„ ํ…์ŠคํŠธ ํ† ํฐ ์ž์ฒด์˜ ๋ถ„ํฌ๋‚˜ ์ฒ˜๋ฆฌ ๋ฐฉ์‹์€ ๋ณ€๊ฒฝํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต ์ดํ›„์—๋„ ํ…์ŠคํŠธ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•œ ๊ธฐ๋ณธ ์ „์ œ์ด๋‹ค.

2.2.2 ์ด๋ฏธ์ง€ ์ž…๋ ฅ

์ด๋ฏธ์ง€๋Š” Vision Encoder(ViT ๊ณ„์—ด)์— ์ž…๋ ฅ๋˜์–ด ํŒจ์น˜ ๋‹จ์œ„ ์‹œ๊ฐ ํ† ํฐ์œผ๋กœ ๋ณ€ํ™˜๋œ๋‹ค.

  • ์ž…๋ ฅ ํ•ด์ƒ๋„๋Š” ๊ณ ์ •๋˜์ง€ ์•Š์œผ๋ฉฐ
  • ์ด๋ฏธ์ง€ ํฌ๊ธฐ์— ๋”ฐ๋ผ ํŒจ์น˜ ์ˆ˜(= vision ํ† ํฐ ์ˆ˜)๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค

์ด๋Š” ๋ฌธ์„œ, ์ฐจํŠธ, UI์ฒ˜๋Ÿผ ์„ธ๋ถ€ ์ •๋ณด๊ฐ€ ์ค‘์š”ํ•œ ์ž…๋ ฅ์„ ์†์‹ค ์—†์ด ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ์„ ํƒ์ด๋‹ค.

 

์ดˆ๊ธฐ ViT๋Š” ํŒจ์น˜ ํฌ๊ธฐ์™€ ์ž…๋ ฅ ์ด๋ฏธ์ง€ ํฌ๊ธฐ๊ฐ€ ๊ณ ์ •๋˜์–ด ํŒจ์น˜(ํ† ํฐ) ๊ฐœ์ˆ˜๋„ ํ•ญ์ƒ ๊ณ ์ •์ด์—ˆ๋‹ค๋ฉด, ์ตœ์‹  VLM์˜ vision encoder๋Š” ํŒจ์น˜ ํฌ๊ธฐ๋งŒ ๊ณ ์ •ํ•œ ์ฑ„ ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ํ•ด์ƒ๋„์™€ aspect ratio๋ฅผ ์œ ์ง€ํ•˜๊ณ , ์ด์— ๋”ฐ๋ผ ์ƒ์„ฑ๋˜๋Š” ์‹œ๊ฐ ํ† ํฐ์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋™์ ์œผ๋กœ ๋ณ€ํ•˜๋„๋ก ์„ค๊ณ„๋œ๋‹ค. ์ด๋Ÿฌํ•œ ์„ค๊ณ„๋Š” variable-length ์ž…๋ ฅ์„ ์ „์ œ๋กœ ํ•œ ํ•™์Šต๊ณผ RoPE ๊ธฐ๋ฐ˜ ์ƒ๋Œ€์  ์œ„์น˜ ์ธ์ฝ”๋”ฉ ๋•๋ถ„์— ๊ฐ€๋Šฅํ•ด์กŒ๋‹ค.

 

2.2.3 ๋น„๋””์˜ค ์ž…๋ ฅ

๋น„๋””์˜ค๋Š” ์ผ์ • ๊ฐ„๊ฒฉ์œผ๋กœ ์ƒ˜ํ”Œ๋ง๋œ ํ”„๋ ˆ์ž„๋“ค์ด Vision Encoder๋ฅผ ๊ฑฐ์ณ ์‹œ๊ฐ ํ† ํฐ์œผ๋กœ ๋ณ€ํ™˜๋œ๋‹ค. ์ดํ›„ ๊ฐ ํ”„๋ ˆ์ž„ ๊ทธ๋ฃน ์•ž์—๋Š” ๋ช…์‹œ์ ์ธ timestamp ํ† ํฐ์ด ์‚ฝ์ž…๋œ๋‹ค.

2.3 Multimodal Token Assembler

Qwen3-VL์€ ํ…์ŠคํŠธ์™€ ์‹œ๊ฐ ํ† ํฐ์„ ๋ถ„๋ฆฌ๋œ ์ž…๋ ฅ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์ง€ ์•Š๋Š”๋‹ค. ๋Œ€์‹  ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ์˜ interleaved ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ๊ตฌ์„ฑํ•œ๋‹ค.

  • [ํ…์ŠคํŠธ ํ† ํฐ] + + [์‹œ๊ฐ ํ† ํฐ]
  • [ํ…์ŠคํŠธ ํ† ํฐ] + + <time=t> + [์‹œ๊ฐ ํ† ํฐ]

์ด ๊ตฌ์กฐ์˜ ์žฅ์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • LLM์ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์ฝ์œผ๋ฉฐ ์ถ”๋ก  ๊ฐ€๋Šฅ
  • “์ด ์ด๋ฏธ์ง€ ์ดํ›„์˜ ์„ค๋ช…”, “์ด ์‹œ์  ์ดํ›„์˜ ์‚ฌ๊ฑด” ๊ฐ™์€ ๋ฌธ๋งฅ์  ํ•ด์„์ด ์ž์—ฐ์Šค๋Ÿฌ์›€

Qwen2.5-VL ๋Œ€๋น„ Qwen3-VL์€ ์ด ์‹œํ€€์Šค๋ฅผ 256K ํ† ํฐ๊นŒ์ง€ ์•ˆ์ •์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค.

2.4 Positional & Temporal Encoding

2.4.1 Interleaved-MRoPE

Qwen2.5-VL์˜ MRoPE๋Š” t/h/w ์ •๋ณด๋ฅผ ๋ถ„๋ฆฌ๋œ ์ฐจ์›์— ๋ฐฐ์น˜ํ–ˆ์œผ๋‚˜, Qwen3-VL์€ ์ด๋ฅผ interleaveํ•œ๋‹ค.

  • ์‹œ๊ฐ„, ๋†’์ด, ๋„ˆ๋น„ ์ •๋ณด๋ฅผ ์ž„๋ฒ ๋”ฉ ์ฐจ์›์˜ ์ „๋ฐ˜์— ๋ถ„์‚ฐ
  • ํŠน์ • ์ถ• ์ •๋ณด๊ฐ€ ์žฅ๊ฑฐ๋ฆฌ์—์„œ ์†Œ์‹ค๋˜๋Š” ๋ฌธ์ œ ์™„ํ™”

์ด ์„ค๊ณ„๋Š” ํŠนํžˆ ์žฅ๋ฌธ ๋ฌธ์„œ์™€ ๊ธด ๋น„๋””์˜ค์—์„œ ์„ฑ๋Šฅ ์ฐจ์ด๋ฅผ ๋งŒ๋“ ๋‹ค.

2.4.2 Timestamp Token

๋น„๋””์˜ค ํ”„๋ ˆ์ž„ ์•ž์— <time=…> ํ˜•ํƒœ์˜ ํ…์ŠคํŠธ ํ† ํฐ์„ ์‚ฝ์ž…ํ•จ์œผ๋กœ์จ, ์‹œ๊ฐ„ ์ •๋ณด๋ฅผ positional encoding์—๋งŒ ์˜์กดํ•˜์ง€ ์•Š๋„๋ก ํ–ˆ๋‹ค.

2.5 Vision–Language Fusion: DeepStack

DeepStack์€ Qwen3-VL ์•„ํ‚คํ…์ฒ˜์˜ ํ•ต์‹ฌ์ธ๋ฐ, ๊ธฐ์กด์—” Vision Encoder์˜ ๋งˆ์ง€๋ง‰ ๋ ˆ์ด์–ด ์ถœ๋ ฅ๋งŒ LLM์— ์ „๋‹ฌํ•˜๋Š” ๋ฐฉ์‹์ด์—ˆ๋‹ค๋ฉด, Qwen3-VL์—์„œ๋Š” ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค.

Vision Encoder
  โ”œโ”€ Fโ‚ (low-level) โ”€→ LLM layer k
  โ”œโ”€ Fโ‚‚ (mid-level) โ”€→ LLM layer k+Δ
  โ”œโ”€ Fโ‚ƒ (high-level) โ”€→ LLM layer k+2Δ
  • Vision Encoder์˜ ์—ฌ๋Ÿฌ ๋ ˆ์ด์–ด ์ถœ๋ ฅ์„ ์ถ”์ถœ
  • LLM์˜ ์—ฌ๋Ÿฌ ๋ ˆ์ด์–ด์— ๋Œ€์‘์‹œ์ผœ residual ํ˜•ํƒœ๋กœ ์ฃผ์ž…

์ด๋กœ ์ธํ•ด LLM์€ ๋‹ค์Œ ์ •๋ณด๋ฅผ ๋™์‹œ์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค. 

  • ์ €์ˆ˜์ค€: ๋ ˆ์ด์•„์›ƒ, ํ…์Šค์ฒ˜, ์ž‘์€ ๊ธ€์”จ
  • ์ค‘๊ฐ„ ์ˆ˜์ค€: ๊ฐ์ฒด, ์˜์—ญ, ๊ตฌ์กฐ
  • ๊ณ ์ˆ˜์ค€: ์˜๋ฏธ, ๊ด€๊ณ„, ์ถ”๋ก  ๋‹จ์„œ

2.6 LLM Backbone: Dense vs MoE

Qwen3-VL์€ ๋‘ ๊ฐ€์ง€ LLM ๋ฐฑ๋ณธ์„ ์ œ๊ณตํ•œ๋‹ค.

2.6.1 Dense Transformer

  • ๋ชจ๋“  ํ† ํฐ์ด ๋™์ผํ•œ FFN ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉ
  • ์†Œํ˜•~์ค‘ํ˜• ๋ชจ๋ธ์— ์ ํ•ฉ
  • ๋‹จ์ˆœ์„ฑ๊ณผ ์•ˆ์ •์„ฑ์ด ์žฅ์ 

2.6.2 MoE Transformer

  • FFN์„ ์—ฌ๋Ÿฌ expert๋กœ ๋ถ„๋ฆฌ
  • Router๊ฐ€ ํ† ํฐ๋ณ„๋กœ ์ƒ์œ„ k๊ฐœ expert๋งŒ ํ™œ์„ฑํ™”

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ™˜๊ฒฝ์—์„œ๋Š” ํ† ํฐ ๋ถ„ํฌ๊ฐ€ ๋งค์šฐ ๋‹ค์–‘ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, MoE๋Š” ์•”๋ฌต์ ์ธ ๊ธฐ๋Šฅ ๋ถ„ํ™”๋ฅผ ์œ ๋„ํ•˜๋ฉฐ ๋Œ€ํ˜• ๋ชจ๋ธ์—์„œ ํŠนํžˆ ํšจ๊ณผ์ ์ด๋‹ค.

 

3. ๋ชจ๋ธ ํ•™์Šต ์ „๋žต

๋ณธ ์žฅ์—์„œ๋Š” Qwen3-VL์ด ์–ด๋–ค ํ•™์Šต ์Šคํ…Œ์ด์ง€๋ฅผ ๊ฑฐ์ณ ์ตœ์ข… ๋ชจ๋ธ์ด ๋˜์—ˆ๋Š”์ง€๋ฅผ ๋‹จ๊ณ„๋ณ„๋กœ ์„ค๋ช…ํ•œ๋‹ค.

3.1 ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ ๊ฐœ์š”

Qwen3-VL์˜ ํ•™์Šต์€ ํฐ ํ‹€์—์„œ ๋‹ค์Œ ๋‹จ๊ณ„๋กœ ์ดํ•ดํ•˜๋ฉด ๋œ๋‹ค.

 

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ pretraining

  • ์ด๋ฏธ์ง€ ์บก์…˜, interleaved ๋ฌธ์„œ, ์ง€์‹/์ถ”๋ก  ๋ฐ์ดํ„ฐ ๋“ฑ์„ ํ†ตํ•ด ๋ฒ”์šฉ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Šฅ๋ ฅ ํ•™์Šต
  • 256K ์ปจํ…์ŠคํŠธ๋ฅผ ๊ณ ๋ คํ•œ ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ๊ณผ ํ•™์Šต ์„ธํŒ…

post-training

  • instruction-following, reasoning ๊ฐ•ํ™”
  • Non-Thinking / Thinking ๋‘ ๊ฐˆ๋ž˜๋กœ ๋ถ„๊ธฐ

์ด๋•Œ Qwen3-VL์€ post-training์— ๋” ๋งŽ์€ ์ž์›์„ ํ• ๋‹นํ•˜์—ฌ ์‹ค์ œ ์‚ฌ์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์ฒด๊ฐ ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ์ „๋žต์„ ์ทจํ•œ๋‹ค.

3.2 ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ์ด ํ•™์Šต์— ๋“ค์–ด๊ฐ€๋Š” ํ˜•ํƒœ

ํ•™์Šต ๋‹จ๊ณ„์—์„œ๋„ ์ž…๋ ฅ์€ ์ถ”๋ก ๊ณผ ๋™์ผํ•˜๊ฒŒ interleaved ํ† ํฐ ์‹œํ€€์Šค๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

  • ์ด๋ฏธ์ง€ ์บก์…˜ ํ•™์Šต: [ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ(๋˜๋Š” ๋นˆ ํ”„๋กฌํ”„ํŠธ) + + ์‹œ๊ฐ ํ† ํฐ + ์ •๋‹ต ์บก์…˜]
  • ๋ฌธ์„œ/์ฑ… ํ•™์Šต: [ํŽ˜์ด์ง€1 ํ…์ŠคํŠธ + ํŽ˜์ด์ง€1 ์ด๋ฏธ์ง€ + ํŽ˜์ด์ง€2 ํ…์ŠคํŠธ + …] ํ˜•ํƒœ๋กœ ๋ฉ€ํ‹ฐํŽ˜์ด์ง€ ์‹œํ€€์Šค ๊ตฌ์„ฑ
  • ๋น„๋””์˜ค ํ•™์Šต: [์งˆ๋ฌธ ํ…์ŠคํŠธ + + <time=…> + ํ”„๋ ˆ์ž„ ์‹œ๊ฐ ํ† ํฐ + ์ •๋‹ต] ํ˜•ํƒœ๋กœ ๊ตฌ์„ฑ

์ฆ‰, ๋ฐ์ดํ„ฐ๋Š” ๋ชจ๋‘ “ํ•˜๋‚˜์˜ ์‹œํ€€์Šค”๋กœ ์ •๊ทœํ™”๋˜์–ด ๋ชจ๋ธ์— ๋“ค์–ด๊ฐ„๋‹ค.

3.3 Token-level loss: Square-Root Reweighting

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต์—์„œ ํ”ํžˆ ์ƒ๊ธฐ๋Š” ๋ฌธ์ œ๋Š” ๋น„์ „ ๋ฐ์ดํ„ฐ ๋น„์ค‘์ด ์ปค์งˆ์ˆ˜๋ก ํ…์ŠคํŠธ ๋Šฅ๋ ฅ์ด ๋–จ์–ด์ง€๋Š” ํ˜„์ƒ์ด๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•ด์•ผ ํ•˜๋Š” ์ •๋‹ต์€ ๊ฒฐ๊ตญ ํ…์ŠคํŠธ ํ† ํฐ์ด์ง€๋งŒ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ์—์„œ๋Š” ์ด๋ฏธ์ง€·๋น„๋””์˜ค์—์„œ ๋‚˜์˜จ ์กฐ๊ฑด ํ† ํฐ(visual tokens)๊ณผ ๊ฐ์ข… ์ œ์–ด ํ† ํฐ์ด ์ปจํ…์ŠคํŠธ๋ฅผ ํฌ๊ฒŒ ํ™•์žฅํ•˜๋ฉด์„œ, ํ•™์Šต ์‹ ํ˜ธ๊ฐ€ ‘์–ธ์–ด ์ž์ฒด’๋ณด๋‹ค ‘์กฐ๊ฑด ํ•ด์„’ ์ชฝ์œผ๋กœ ๊ณผ๋„ํ•˜๊ฒŒ ์ ๋ฆฌ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

 

Qwen3-VL์€ ์ด๋ฅผ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ํ† ํฐ ๋‹จ์œ„๋กœ ํ•™์Šต ์‹ ํ˜ธ์˜ ๊ธฐ์—ฌ๋„๋ฅผ ์žฌ์กฐ์ •ํ•˜๋Š” square-root reweighting์„ ์ ์šฉํ•œ๋‹ค. ์ฆ‰, ํ…์ŠคํŠธ ํ† ํฐ์ด ๋งŒ๋“ค์–ด๋‚ด๋Š” CE loss์˜ ๋น„์ค‘์„ ์ƒ๋Œ€์ ์œผ๋กœ ๊ฐ•ํ™”ํ•˜๊ณ , ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์กฐ๊ฑด์ด ๊ณผ๋„ํ•˜๊ฒŒ ๋งŽ์€ ์ƒ˜ํ”Œ์—์„œ ์–ธ์–ด ํ•™์Šต ์‹ ํ˜ธ๊ฐ€ ํฌ์„๋˜์ง€ ์•Š๋„๋ก ๊ท ํ˜•์„ ๋งž์ถ˜๋‹ค.

 

์ด ์„ค๊ณ„๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋ฉด์„œ๋„ LLM์œผ๋กœ์„œ์˜ ํ…์ŠคํŠธ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•œ ํ•™์Šต ์•ˆ์ •ํ™” ์žฅ์น˜๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

3.4 Thinking vs Non-Thinking: post-training ๋ถ„๊ธฐ

post-training์—์„œ ๋ชจ๋ธ์€ ๋‘ ์œ ํ˜•์œผ๋กœ ๋ถ„๊ธฐ๋œ๋‹ค.

  • Non-Thinking: ๋น ๋ฅด๊ณ  ์‹ค์šฉ์ ์ธ ์‘๋‹ต, ์ผ๋ฐ˜ ์„œ๋น„์Šค ์ง€ํ–ฅ
  • Thinking: ๋‹จ๊ณ„์  ์ถ”๋ก ์„ ์žฅ๋ คํ•˜๋Š” ํ•™์Šต์„ ํ†ตํ•ด ๋ณต์žกํ•œ reasoning์—์„œ ์„ฑ๋Šฅ ๊ฐ•ํ™”

๊ฐ™์€ backbone์ด๋ผ๋„ ํ•™์Šต ๋ชฉํ‘œ(์‘๋‹ต ์Šคํƒ€์ผ, reasoning ์Šคํƒ€์ผ)๋ฅผ ๋‹ค๋ฅด๊ฒŒ ์ฃผ๋ฉด์„œ ์‚ฌ์šฉ์ฒ˜๋ฅผ ๋ถ„๋ฆฌํ•œ ์ „๋žต์ด๋‹ค.

 

4. ๋ฐ์ดํ„ฐ 

4.1 ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ

๋ฆฌํฌํŠธ์˜ ๋ฐ์ดํ„ฐ ํŒŒํŠธ๋Š” ๋‹จ์ˆœํžˆ '์–ด๋–ค ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ๋‹ค'๊ฐ€ ์•„๋‹ˆ๋ผ, ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชจ๋ธ ์ž…๋ ฅ ์‹œํ€€์Šค๋กœ ๋“ค์–ด๊ฐ€๊ธฐ๊นŒ์ง€ ์–ด๋–ค ์ •์ œ·๋ณ€ํ™˜ ๊ณผ์ •์„ ๊ฑฐ์น˜๋Š”์ง€๊ฐ€ ํ•ต์‹ฌ์ด๋‹ค. ํฐ ํ๋ฆ„์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  1. ์›์ฒœ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘(์›น ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ, ๋ฌธ์„œ, ์ฑ…, ๋น„๋””์˜ค, ์ง€์‹/์ถ”๋ก  ๋ฐ์ดํ„ฐ)
  2. ์ •์ œ/ํ•„ํ„ฐ๋ง(ํ’ˆ์งˆ/๋„๋ฉ”์ธ/์œ ํ•ด์„ฑ/์ค‘๋ณต)
  3. ์žฌ๊ตฌ์„ฑ(์žฌ์บก์…”๋‹, ๋ฌธ์„œ ํŒŒ์‹ฑ ๋ฐ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ •๋ ฌ, ๋กฑ์ปจํ…์ŠคํŠธ ์‹œํ€€์Šค ๊ตฌ์„ฑ)
  4. ์ตœ์ข… ์‹œํ€€์Šคํ™”(interleaved ํ† ํฐ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜)
  5. ํ•™์Šต ํˆฌ์ž…(ํ† ํฐ ๋‹จ์œ„ ์†์‹ค๋กœ ์ตœ์ ํ™”)

4.2 ์ด๋ฏธ์ง€ ์บก์…˜ ๋ฐ์ดํ„ฐ

Qwen3-VL์€ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ์„ ๊ทธ๋Œ€๋กœ ์“ฐ์ง€ ์•Š๊ณ , Qwen2.5-VL ๊ธฐ๋ฐ˜ ์žฌ์บก์…”๋‹ ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ์บก์…˜ ํ’ˆ์งˆ์„ ํฌ๊ฒŒ ๋Œ์–ด์˜ฌ๋ฆฐ๋‹ค.

  • ์›๋ณธ์˜ ์งง๊ณ  ๋ถˆ์™„์ „ํ•œ ํ…์ŠคํŠธ๋ฅผ ๊ทธ๋Œ€๋กœ ํ•™์Šตํ•˜๋ฉด, ๋ชจ๋ธ์ด ‘๋Œ€์ถฉ ๋งž๋Š”’ ๋ฌ˜์‚ฌ์— ์ต์ˆ™ํ•ด์ง€๊ธฐ ์‰ฝ๋‹ค.
  • ์žฌ์บก์…”๋‹์€ ๊ฐ์ฒด ์†์„ฑ, ๊ณต๊ฐ„ ๋ฐฐ์น˜, ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ๋ณด๊ฐ•ํ•˜์—ฌ ๋” ํ•™์Šต ๊ฐ€์น˜๊ฐ€ ๋†’์€ ํ…์ŠคํŠธ๋ฅผ ๋งŒ๋“ ๋‹ค.

๋˜ํ•œ ์ค‘๋ณต ์ œ๊ฑฐ๋Š” ์ด๋ฏธ์ง€๊ฐ€ ์•„๋‹ˆ๋ผ “์žฌ์บก์…”๋‹๋œ ํ…์ŠคํŠธ ์˜๋ฏธ” ๊ธฐ์ค€์œผ๋กœ ์ˆ˜ํ–‰ํ•˜์—ฌ ์‹œ๊ฐ ๋‹ค์–‘์„ฑ์„ ์ตœ๋Œ€ํ•œ ๋ณด์กดํ•œ๋‹ค.

4.3 Interleaved ๋ฌธ์„œ/์›น ๋ฐ์ดํ„ฐ

์›น์—์„œ ์ˆ˜์ง‘ํ•œ interleaved ๋ฌธ์„œ์—๋Š” ๊ด‘๊ณ , ํ™๋ณด, ํด๋ฆญ๋ฒ ์ดํŠธ ๊ฐ™์€ ์ €๊ฐ€์น˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์„ž์ด๊ธฐ ์‰ฝ๋‹ค. Qwen3-VL์€ ๊ฒฝ๋Ÿ‰ Qwen ๊ธฐ๋ฐ˜ ์Šค์ฝ”์–ด๋Ÿฌ๋กœ ๋„๋ฉ”์ธ ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ณ , ํŠน์ • ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์ œ์™ธํ•œ๋‹ค.

์ด ๊ณผ์ •์˜ ์˜์˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ๋ชจ๋ธ์ด '์ •๋ณด ๋ฐ€๋„ ๋†’์€ ๋ฌธ์„œ'์— ๋” ๋งŽ์ด ๋…ธ์ถœ๋œ๋‹ค.
  • ์žฅ๋ฌธ ๋ฌธ์„œ ์ดํ•ด, ๋ฌธ์„œ QA, ๊ฒ€์ƒ‰ํ˜• ์งˆ์˜์— ํ•„์š”ํ•œ ์–ธ์–ด ์Šต๊ด€์ด ๊ฐ•ํ™”๋œ๋‹ค.

4.4 Book ์Šค์ผ€์ผ ๋ฐ์ดํ„ฐ

์ฑ… ๋‹จ์œ„ ๋ฐ์ดํ„ฐ๋Š” ๋‹จ์ˆœํžˆ ํŽ˜์ด์ง€๋ฅผ ๋…๋ฆฝ ์ƒ˜ํ”Œ๋กœ ์“ฐ์ง€ ์•Š๊ณ , ์—ฌ๋Ÿฌ ํŽ˜์ด์ง€๋ฅผ ์ˆœ์„œ๋Œ€๋กœ ์ด์–ด ๋ถ™์—ฌ ์ตœ๋Œ€ 256K ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ๊ตฌ์„ฑํ•œ๋‹ค.

์ด๋•Œ ๋ฌด์ž‘์ • ๊ธธ๊ฒŒ ๋ถ™์ด๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ,

  • ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์ •๋ ฌ์ด ์ถฉ๋ถ„ํžˆ ๋†’์€์ง€
  • ์ด๋ฏธ์ง€/ํ…์ŠคํŠธ ๋น„์œจ์ด ์ตœ์†Œ ๊ธฐ์ค€์„ ๋งŒ์กฑํ•˜๋Š”์ง€
  • ์ˆœ์ˆ˜ ํ…์ŠคํŠธ ๊ตฌ๊ฐ„์ด ๊ณผ๋„ํ•˜๊ฒŒ ๊ธธ์ง€ ์•Š์€์ง€

๊ฐ™์€ ํ’ˆ์งˆ ๊ธฐ์ค€์„ ๊ฐ•ํ•˜๊ฒŒ ์ ์šฉํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์„ค๊ณ„๋Š” “๊ธด ๋ฌธ์„œ๋ฅผ ๋๊นŒ์ง€ ์ฝ๊ณ , ์•ž์—์„œ ๋ณธ ํ‘œ/๊ทธ๋ฆผ์„ ๋’ค์—์„œ ๋‹ค์‹œ ์ฐธ์กฐ”ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•œ ๊ฒƒ์ด๋‹ค.

4.5 Spatial Understanding

Qwen3-VL์€ ๋‹จ์ˆœํžˆ bounding box๋ฅผ ๋งž์ถ”๋Š” ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•˜๋‹ค๊ณ  ๋ณธ๋‹ค. ๊ทธ๋ž˜์„œ Spatial Understanding ๋ฐ์ดํ„ฐ๋Š” ๋‹ค์Œ์„ ํฌํ•จํ•œ๋‹ค.

  • Relation: “์ปต์ด ๋…ธํŠธ๋ถ ์™ผ์ชฝ์— ์žˆ๋‹ค” ๊ฐ™์€ ์ƒ๋Œ€์  ํ‘œํ˜„
  • Affordance: graspable, pressable, sittable ๊ฐ™์€ ํ–‰๋™ ๊ฐ€๋Šฅ์„ฑ
  • Action-conditioned: “๋ชจ๋‹ˆํ„ฐ ๋’ค ์ฑ…์„ ๊บผ๋‚ด๋ ค๋ฉด ๋ฌด์—‡์„ ๋จผ์ € ์˜ฎ๊ฒจ์•ผ ํ•˜๋‚˜” ๊ฐ™์€ ํ”Œ๋ž˜๋‹ ์งˆ๋ฌธ

ํ•ต์‹ฌ์€ ‘์ ˆ๋Œ€ ์ขŒํ‘œ’๊ฐ€ ์•„๋‹ˆ๋ผ ๋Œ€์ƒ ๊ฐ„ ๊ด€๊ณ„๋กœ ๊ณต๊ฐ„์„ ๊ธฐ์ˆ ํ•˜๊ฒŒ ํ•˜์—ฌ, ํ•ด์ƒ๋„๋‚˜ ์ดฌ์˜ ์กฐ๊ฑด์ด ๋‹ฌ๋ผ๋„ ์ผ๋ฐ˜ํ™”๋˜๋Š” ์ถ”๋ก ์„ ์œ ๋„ํ•˜๋Š” ์ ์ด๋‹ค.

4.6 3D Grounding: ๋‹จ์•ˆ ์ด๋ฏธ์ง€์—์„œ 9-DoF 3D bbox

3D Grounding ๋ฐ์ดํ„ฐ๋Š” ๋‹จ์ผ ์‹œ์  ์ด๋ฏธ์ง€ + ์ž์—ฐ์–ด ์ง€์‹œ + 9-DoF 3D bbox(JSON)๋ฅผ ํ•™์Šต ํ˜•ํƒœ๋กœ ๊ตฌ์„ฑํ•œ๋‹ค.

์‹ค์ œ ๋ฐ์ดํ„ฐ๋Š” ์„ผ์„œ/์†Œ์Šค๊ฐ€ ๋‹ค์–‘ํ•ด ์นด๋ฉ”๋ผ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋‹ค๋ฅด๊ณ  ๋…ธ์ด์ฆˆ๋„ ์กด์žฌํ•˜๋ฏ€๋กœ,

  • ๊ณผ๋„ํ•œ ๊ฐ€๋ฆผ/๋ถ€์ •ํ™• ๋ผ๋ฒจ์„ ํ•„ํ„ฐ๋ง
  • ๊ฐ€์ƒ ์นด๋ฉ”๋ผ ์ขŒํ‘œ๊ณ„๋กœ ํ†ต์ผ
  • ๋” ํ’๋ถ€ํ•œ ํ…์ŠคํŠธ ์งˆ์˜๋ฅผ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ์ƒ์„ธ ์บก์…˜์„ ํ•ฉ์„ฑ

๊ฐ™์€ ์ •์ œ ๊ณผ์ •์„ ๊ฑฐ์นœ๋‹ค.

4.7 ์š”์•ฝ

Qwen3-VL์˜ ๋ฐ์ดํ„ฐ ์ „๋žต์€ ๋‹จ์ˆœํžˆ ๊ทœ๋ชจ ๊ฒฝ์Ÿ์ด ์•„๋‹ˆ๋ผ,

  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด๋ฅผ ‘ํ•œ ์ค„์˜ ์‹œํ€€์Šค’๋กœ ์ •๊ทœํ™”ํ•˜๊ณ 
  • long-context๊ฐ€ ์˜๋ฏธ ์žˆ๊ฒŒ ์ž‘๋™ํ•˜๋„๋ก ์ƒ˜ํ”Œ์„ ๊ตฌ์„ฑํ•˜๋ฉฐ
  • ๋ฌธ์„œ/์ฐจํŠธ/๊ณต๊ฐ„/๋น„๋””์˜ค ๊ฐ™์€ ์‹ค์ œ ์‚ฌ์šฉ์ฒ˜๋ฅผ ๋ฐ์ดํ„ฐ ๋‹จ๊ณ„์—์„œ ๋ฐ˜์˜

ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ •๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค.

 

5. Qwen2.5-VL๊ณผ์˜ ํ•ต์‹ฌ ์ฐจ์ด ์ •๋ฆฌ

Qwen3-VL์€ Qwen2.5-VL ๋Œ€๋น„ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐœ์„ ๋๋‹ค.

  • Interleaved-MRoPE๋กœ ์žฅ๋ฌธ/์žฅ๋น„๋””์˜ค์—์„œ ์œ„์น˜ ํ‘œํ˜„ ์•ˆ์ •ํ™”
  • DeepStack์œผ๋กœ ๋ฉ€ํ‹ฐ๋ ˆ๋ฒจ ์‹œ๊ฐ ํŠน์ง•์„ LLM ๋ ˆ์ด์–ด์— ์ง์ ‘ ์ฃผ์ž…
  • ๋น„๋””์˜ค ์‹œ๊ฐ„ ํ‘œํ˜„์„ timestamp ํ† ํฐ์œผ๋กœ ๋ช…์‹œํ™”
  • ์ขŒํ‘œ๊ณ„๋ฅผ [0, 1000] ์ •๊ทœํ™”๋กœ ํ†ต์ผํ•˜์—ฌ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์‚ฌ์šฉ์„ฑ ๊ฐ•ํ™”
  • ํ† ํฐ ๋‹จ์œ„ ์†์‹ค๊ณผ ์žฌ์บก์…”๋‹/๋กฑ์ปจํ…์ŠคํŠธ ์‹œํ€€์Šค ๊ตฌ์„ฑ์œผ๋กœ “ํ…์ŠคํŠธ ์„ฑ๋Šฅ ์œ ์ง€ + ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ฐ•ํ™””๋ฅผ ๋™์‹œ์— ๋‹ฌ์„ฑ

 

6. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ๋ถ„์„

6.1 Qwen2.5-VL ๋ฐ ๊ธฐ์กด VLM ๋Œ€๋น„ ์„ฑ๋Šฅ ์ฐจ์ด

๋ฆฌํฌํŠธ ์ „๋ฐ˜์—์„œ ๊ณตํ†ต์ ์œผ๋กœ ๋‚˜ํƒ€๋‚˜๋Š” ๊ฒฝํ–ฅ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ๋‹จ์ˆœ ์ด๋ฏธ์ง€ ์ดํ•ด ํƒœ์Šคํฌ์—์„œ๋Š” Qwen2.5-VL๊ณผ์˜ ๊ฒฉ์ฐจ๊ฐ€ ํฌ์ง€ ์•Š๋‹ค.
  • ๋ฐ˜๋ฉด, long-context, ๋ฌธ์„œ ๊ธฐ๋ฐ˜ reasoning, ์ฐจํŠธ/ํ‘œ ํ•ด์„, ๋น„๋””์˜ค ์ดํ•ด์—์„œ๋Š” Qwen3-VL์ด ์ผ๊ด€๋˜๊ฒŒ ์šฐ์œ„์— ์žˆ๋‹ค.

์ด๋Š” Qwen3-VL์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ํŠน์ • ๋ฒค์น˜๋งˆํฌ ํŠœ๋‹์ด ์•„๋‹ˆ๋ผ,

  • Interleaved-MRoPE์— ์˜ํ•œ ์žฅ๋ฌธ ์•ˆ์ •์„ฑ
  • DeepStack์— ์˜ํ•œ ๋ฉ€ํ‹ฐ๋ ˆ๋ฒจ ์‹œ๊ฐ ์ •๋ณด ํ™œ์šฉ
  • ๋ฐ์ดํ„ฐ ๋‹จ๊ณ„์—์„œ์˜ long-context ์‹œํ€€์Šค ๊ตฌ์„ฑ

๊ฐ™์€ ๊ตฌ์กฐ์  ๋ณ€ํ™”์—์„œ ๊ธฐ์ธํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค. ํŠนํžˆ ๋ฌธ์„œ QA, ์ฐจํŠธ ์ดํ•ด, OCR ๊ธฐ๋ฐ˜ reasoning ํƒœ์Šคํฌ์—์„œ๋Š” ๋‹จ์ˆœํžˆ “๊ธ€์ž๋ฅผ ์ฝ๋Š”์ง€”๊ฐ€ ์•„๋‹ˆ๋ผ ์•„๋ž˜์™€ ๊ฐ™์€ ๋Šฅ๋ ฅ์—์„œ ์ฐจ์ด๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

  • ๋ ˆ์ด์•„์›ƒ์„ ๊ธฐ์–ตํ•˜๊ณ 
  • ์•ž์—์„œ ๋ณธ ์ •๋ณด๋ฅผ ๋’ค์—์„œ ๋‹ค์‹œ ์ฐธ์กฐํ•˜๋ฉฐ
  • ์‹œ๊ฐ ์ •๋ณด์™€ ํ…์ŠคํŠธ๋ฅผ ๊ฒฐํ•ฉํ•ด ์ถ”๋ก 

 

6.2 ๋ชจ๋ธ ์Šค์ผ€์ผ๋ณ„ ์„ฑ๋Šฅ ์ฐจ์ด

Qwen3-VL์€ 2B๋ถ€ํ„ฐ 235B-A22B๊นŒ์ง€ ๋งค์šฐ ๋„“์€ ์Šค์ผ€์ผ์„ ์ œ๊ณตํ•˜๋ฉฐ, ์Šค์ผ€์ผ ์ฆ๊ฐ€์— ๋”ฐ๋ผ ์„ฑ๋Šฅ ํ–ฅ์ƒ ์–‘์ƒ๋„ ๋น„๊ต์  ๋ช…ํ™•ํ•˜๋‹ค.

  • ์†Œํ˜• ๋ชจ๋ธ(2B, 4B)
    • ๊ธฐ๋ณธ์ ์ธ ์ด๋ฏธ์ง€ ์บก์…˜, ๋‹จ์ˆœ QA ์ค‘์‹ฌ
    • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ์€ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅํ•˜์ง€๋งŒ ๋ณต์žกํ•œ reasoning์€ ์ œํ•œ์ 
  • ์ค‘ํ˜• ๋ชจ๋ธ(8B, 32B)
    • ๋ฌธ์„œ QA, ์ฐจํŠธ ์ดํ•ด, ๋ณตํ•ฉ ์งˆ์˜์—์„œ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๊ฐœ์„ 
    • long-context ์ž…๋ ฅ์—์„œ ์•ˆ์ •์„ฑ์ด ์ฒด๊ฐ๋˜๊ธฐ ์‹œ์ž‘
  • MoE ๋Œ€ํ˜• ๋ชจ๋ธ(30B-A3B, 235B-A22B)
    • reasoning, STEM, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ agent ๋ฒค์น˜๋งˆํฌ์—์„œ ๋‘๋“œ๋Ÿฌ์ง„ ์„ฑ๋Šฅ ํ–ฅ์ƒ
    • Dense ๋ชจ๋ธ ๋Œ€๋น„ ๊ณ„์‚ฐ๋Ÿ‰ ์ฆ๊ฐ€๋ฅผ ์–ต์ œํ•˜๋ฉด์„œ๋„ ํ‘œํ˜„๋ ฅ์€ ํฌ๊ฒŒ ํ™•์žฅ

ํŠนํžˆ MoE ๋ชจ๋ธ์€ "๋ชจ๋ธ ์šฉ๋Ÿ‰ ๋Œ€๋น„ ์„ฑ๋Šฅ" ๊ด€์ ์—์„œ ํšจ์œจ์ด ๋†’๋‹ค. ์ด๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ† ํฐ ๋ถ„ํฌ๊ฐ€ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ expert specialization์ด ํšจ๊ณผ์ ์œผ๋กœ ์ž‘๋™ํ•˜๊ณ  ์žˆ์Œ์„ ๊ฐ„์ ‘์ ์œผ๋กœ ๋ณด์—ฌ์ค€๋‹ค.


 

Qwen3-VL ํ…Œํฌ๋‹ˆ์ปฌ ๋ฆฌํฌํŠธ๋Š” ์ตœ์‹  VLM์ด ์–ด๋–ค ๋ฌธ์ œ๋ฅผ ์ธ์‹ํ•˜๊ณ , ์ด๋ฅผ ์–ด๋–ค ์•„ํ‚คํ…์ฒ˜์™€ ํ•™์Šต ์ „๋žต์œผ๋กœ ํ’€์–ด๊ฐ€๊ณ  ์žˆ๋Š”์ง€๋ฅผ ๋น„๊ต์  ์ƒ์„ธํ•˜๊ฒŒ ๋ณด์—ฌ์ค€๋‹ค. ๋‹ค์–‘ํ•œ ์Šค์ผ€์ผ์˜ ๋ชจ๋ธ์ด ํ•จ๊ป˜ ๊ณต๊ฐœ๋˜์–ด ์žˆ์–ด ์—ฐ๊ตฌ์™€ ์‹ค๋ฌด ์–‘์ชฝ ๋ชจ๋‘์—์„œ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ๋„ ๋†’๋‹ค. 

๋ฐ˜์‘ํ˜•

'๐Ÿ› Research > Multi-modal' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] Visual Instruction Tuning | LLaVA Model  (1) 2024.12.04
[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models  (0) 2024.12.04
[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation  (0) 2024.12.04
[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] Learning Transferable Visual Models From Natural Language Supervision / CLIP / Multi-modal network  (0) 2022.02.26
'๐Ÿ› Research/Multi-modal' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€
  • [๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] Visual Instruction Tuning | LLaVA Model
  • [๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  • [๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  • [๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] Learning Transferable Visual Models From Natural Language Supervision / CLIP / Multi-modal network
๋ญ…์ฆค
๋ญ…์ฆค
AI ๊ธฐ์ˆ  ๋ธ”๋กœ๊ทธ
    ๋ฐ˜์‘ํ˜•
  • ๋ญ…์ฆค
    moovzi’s Doodle
    ๋ญ…์ฆค
  • ์ „์ฒด
    ์˜ค๋Š˜
    ์–ด์ œ
  • ๊ณต์ง€์‚ฌํ•ญ

    • โœจ About Me
    • ๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ (213)
      • ๐Ÿ“– Fundamentals (34)
        • Computer Vision (9)
        • 3D vision & Graphics (6)
        • AI & ML (16)
        • NLP (2)
        • etc. (1)
      • ๐Ÿ› Research (75)
        • Deep Learning (7)
        • Perception (19)
        • OCR (7)
        • Multi-modal (5)
        • Image•Video Generation (18)
        • 3D Vision (4)
        • Material • Texture Recognit.. (8)
        • Large-scale Model (7)
        • etc. (0)
      • ๐Ÿ› ๏ธ Engineering (8)
        • Distributed Training & Infe.. (5)
        • AI & ML ์ธ์‚ฌ์ดํŠธ (3)
      • ๐Ÿ’ป Programming (92)
        • Python (18)
        • Computer Vision (12)
        • LLM (4)
        • AI & ML (18)
        • Database (3)
        • Distributed Computing (6)
        • Apache Airflow (6)
        • Docker & Kubernetes (14)
        • ์ฝ”๋”ฉ ํ…Œ์ŠคํŠธ (4)
        • C++ (1)
        • etc. (6)
      • ๐Ÿ’ฌ ETC (4)
        • ์ฑ… ๋ฆฌ๋ทฐ (4)
  • ๋งํฌ

    • ๋ฆฌํ‹€๋ฆฌ ํ”„๋กœํ•„ (๋ฉ˜ํ† ๋ง, ๋ฉด์ ‘์ฑ…,...)
    • ใ€Ž๋‚˜๋Š” AI ์—”์ง€๋‹ˆ์–ด์ž…๋‹ˆ๋‹คใ€
    • Instagram
    • Brunch
    • Github
  • ์ธ๊ธฐ ๊ธ€

  • ์ตœ๊ทผ ๋Œ“๊ธ€

  • ์ตœ๊ทผ ๊ธ€

  • hELLOยท Designed By์ •์ƒ์šฐ.v4.10.3
๋ญ…์ฆค
Qwen3-VL ํ…Œํฌ๋‹ˆ์ปฌ ๋ฆฌํฌํŠธ ๋ฆฌ๋ทฐ | VLM | MLLM
์ƒ๋‹จ์œผ๋กœ

ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”