1. Qwen3-VL ๊ฐ์

1.1 ๋ชฉํ
Qwen3-VL์ ๋จ์ํ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์ ์๋ LLM์ด ์๋๋ค. ํ ์คํธ, ์ด๋ฏธ์ง, ๋น๋์ค๊ฐ ์์ธ ์ด์ฅ๋ฌธ ์ปจํ ์คํธ ํ๊ฒฝ์์ ์ค์ ์ถ๋ก ๊ณผ ๋ฌธ์ ํด๊ฒฐ์ ์ํํ ์ ์๋ ๋ฉํฐ๋ชจ๋ฌ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ๋ชฉํ๋ก ํ๋ค. ๋ฆฌํฌํธ ์ ๋ฐ์์ ๊ฐ์กฐ๋๋ ํต์ฌ ๋ชฉํ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ํ ์คํธ ์ฑ๋ฅ์ ํฌ์ํ์ง ์๋ VLM
- ์ต๋ 256K ํ ํฐ์ ๋ค์ดํฐ๋ธ ๋กฑ ์ปจํ ์คํธ ์ฒ๋ฆฌ
- ๋ฉํฐ๋ชจ๋ฌ reasoning, ๋ฌธ์ ์ดํด, ์ฐจํธ ํด์, ์์ด์ ํธ ์๋๋ฆฌ์ค ๋์
์ด๋ Qwen2.5-VL์ด ์ฃผ๋ก '์ด๋ฏธ์ง๋ฅผ ์ ์ดํดํ๋ LLM'์ ์ด์ ์ด ์์๋ค๋ฉด, Qwen3-VL์ ๋ณตํฉ ๋ฉํฐ๋ชจ๋ฌ ํ๊ฒฝ์์ ์ค์ ๋ก ์ผํ ์ ์๋ ๋ชจ๋ธ๋ก ํ์ฅ๋์๋ค๊ณ ์ฃผ์ฅํ๋ค.
1.2 ๋ชจ๋ธ ๋ผ์ธ์ ๊ณผ ์ค์ผ์ผ ์ ๋ต
Qwen3-VL์ Dense ๋ชจ๋ธ๊ณผ MoE(Mixture of Experts) ๋ชจ๋ธ์ ํจ๊ป ์ ๊ณตํ๋ค.
- Dense: 2B, 4B, 8B, 32B
- MoE: 30B-A3B, 235B-A22B
MoE ํ๊ธฐ์์ A3B, A22B๋ ํ ํฐ๋น ํ์ฑํ๋๋ ํ๋ผ๋ฏธํฐ ๊ท๋ชจ๋ฅผ ์๋ฏธํ๋ค. ์๋ฅผ ๋ค์ด 235B-A22B ๋ชจ๋ธ์ ์ ์ฒด ์ฉ๋์ 235B์ด์ง๋ง, ๊ฐ ํ ํฐ๋ง๋ค ์ค์ ๋ก ๊ณ์ฐ์ ์ฐธ์ฌํ๋ ํ๋ผ๋ฏธํฐ๋ 22B ์์ค์ด๋ค. ์ด๋ Dense ๋ชจ๋ธ ๋๋น ์ถ๋ก ๋น์ฉ์ ์ ์ดํ๋ฉด์๋, ๋งค์ฐ ํฐ ๋ชจ๋ธ ์ฉ๋์ ํ๋ณดํ๊ธฐ ์ํ ์ ํ์ด๋ค.
*MoE๊ฐ ์์ฆ ํธ๋ ๋์ด๋ค. ๋ค๋ฅธ ๊ธฐ์ ๋ค๋ Dense ๊ตฌ์กฐ์ MoE ๊ตฌ์กฐ๋ฅผ ํจ๊ป ๊ณต๊ฐํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
2. ๋ชจ๋ธ ์ํคํ ์ฒ

๋ณธ ์ฅ์์๋ Qwen3-VL์ ๋ชจ๋ธ ์ํคํ ์ฒ๋ฅผ ์ ๋ ฅ → ์ธ์ฝ๋ฉ → ๊ฒฐํฉ → ์ถ๋ก ์ ํ๋ฆ์ ๋ฐ๋ผ ๊ฐ ๋ชจ๋ ๋จ์๋ก ์์ธํ ์ค๋ช ํ๋ค.
2.1 ์ ์ฒด ๊ตฌ์กฐ ๊ฐ์
Qwen3-VL์ ํต์ฌ ์ค๊ณ ์ฒ ํ์ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด๋ฅผ ๋ณ๋์ ๋ณด์กฐ ์ ๋ ฅ์ด ์๋๋ผ, LLM์ ์ ๋ ฅ๋๋ ํ๋์ ํ ํฐ ์ํ์ค๋ก ๋ง๋ ๋ค๋ ๊ฒ์ด๋ค.
์ ์ฒด ํ์ดํ๋ผ์ธ์ ๋ค์๊ณผ ๊ฐ์ ๋ชจ๋๋ก ๊ตฌ์ฑ๋๋ค.
- Text Tokenizer
- Vision Encoder
- Multimodal Token Assembler (interleaved sequence ๊ตฌ์ฑ)
- Positional / Temporal Encoding (Interleaved-MRoPE, timestamp)
- LLM Backbone (Dense ๋๋ MoE Transformer)
- Vision–Language Fusion Module (DeepStack)
2.2 ์ ๋ ฅ ๋ฐ์ดํฐ ์ธ์ฝ๋ฉ
2.2.1 ํ ์คํธ ์ ๋ ฅ
ํ ์คํธ๋ ๊ธฐ์กด Qwen ๊ณ์ด LLM๊ณผ ๋์ผํ tokenizer๋ฅผ ์ฌ์ฉํด subword ํ ํฐ์ผ๋ก ๋ณํ๋๋ค. ์ด ๋จ๊ณ์์ ์ค์ํ ์ ์, ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ์ด๋ผ ํ๋๋ผ๋ ํ ์คํธ ํ ํฐ ์์ฒด์ ๋ถํฌ๋ ์ฒ๋ฆฌ ๋ฐฉ์์ ๋ณ๊ฒฝํ์ง ์๋๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ๋ฉํฐ๋ชจ๋ฌ ํ์ต ์ดํ์๋ ํ ์คํธ ์ฑ๋ฅ์ ์ ์งํ๊ธฐ ์ํ ๊ธฐ๋ณธ ์ ์ ์ด๋ค.
2.2.2 ์ด๋ฏธ์ง ์ ๋ ฅ
์ด๋ฏธ์ง๋ Vision Encoder(ViT ๊ณ์ด)์ ์ ๋ ฅ๋์ด ํจ์น ๋จ์ ์๊ฐ ํ ํฐ์ผ๋ก ๋ณํ๋๋ค.
- ์ ๋ ฅ ํด์๋๋ ๊ณ ์ ๋์ง ์์ผ๋ฉฐ
- ์ด๋ฏธ์ง ํฌ๊ธฐ์ ๋ฐ๋ผ ํจ์น ์(= vision ํ ํฐ ์)๊ฐ ๋ฌ๋ผ์ง๋ค
์ด๋ ๋ฌธ์, ์ฐจํธ, UI์ฒ๋ผ ์ธ๋ถ ์ ๋ณด๊ฐ ์ค์ํ ์ ๋ ฅ์ ์์ค ์์ด ์ฒ๋ฆฌํ๊ธฐ ์ํ ์ ํ์ด๋ค.
์ด๊ธฐ ViT๋ ํจ์น ํฌ๊ธฐ์ ์ ๋ ฅ ์ด๋ฏธ์ง ํฌ๊ธฐ๊ฐ ๊ณ ์ ๋์ด ํจ์น(ํ ํฐ) ๊ฐ์๋ ํญ์ ๊ณ ์ ์ด์๋ค๋ฉด, ์ต์ VLM์ vision encoder๋ ํจ์น ํฌ๊ธฐ๋ง ๊ณ ์ ํ ์ฑ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํด์๋์ aspect ratio๋ฅผ ์ ์งํ๊ณ , ์ด์ ๋ฐ๋ผ ์์ฑ๋๋ ์๊ฐ ํ ํฐ์ ๊ฐ์๊ฐ ๋์ ์ผ๋ก ๋ณํ๋๋ก ์ค๊ณ๋๋ค. ์ด๋ฌํ ์ค๊ณ๋ variable-length ์ ๋ ฅ์ ์ ์ ๋ก ํ ํ์ต๊ณผ RoPE ๊ธฐ๋ฐ ์๋์ ์์น ์ธ์ฝ๋ฉ ๋๋ถ์ ๊ฐ๋ฅํด์ก๋ค.
2.2.3 ๋น๋์ค ์ ๋ ฅ
๋น๋์ค๋ ์ผ์ ๊ฐ๊ฒฉ์ผ๋ก ์ํ๋ง๋ ํ๋ ์๋ค์ด Vision Encoder๋ฅผ ๊ฑฐ์ณ ์๊ฐ ํ ํฐ์ผ๋ก ๋ณํ๋๋ค. ์ดํ ๊ฐ ํ๋ ์ ๊ทธ๋ฃน ์์๋ ๋ช ์์ ์ธ timestamp ํ ํฐ์ด ์ฝ์ ๋๋ค.
2.3 Multimodal Token Assembler
Qwen3-VL์ ํ ์คํธ์ ์๊ฐ ํ ํฐ์ ๋ถ๋ฆฌ๋ ์ ๋ ฅ์ผ๋ก ์ฒ๋ฆฌํ์ง ์๋๋ค. ๋์ ๋ค์๊ณผ ๊ฐ์ ํํ์ interleaved ํ ํฐ ์ํ์ค๋ฅผ ๊ตฌ์ฑํ๋ค.
- [ํ ์คํธ ํ ํฐ] + + [์๊ฐ ํ ํฐ]
- [ํ ์คํธ ํ ํฐ] + + <time=t> + [์๊ฐ ํ ํฐ]
์ด ๊ตฌ์กฐ์ ์ฅ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- LLM์ด ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด๋ฅผ ์์ฐจ์ ์ผ๋ก ์ฝ์ผ๋ฉฐ ์ถ๋ก ๊ฐ๋ฅ
- “์ด ์ด๋ฏธ์ง ์ดํ์ ์ค๋ช ”, “์ด ์์ ์ดํ์ ์ฌ๊ฑด” ๊ฐ์ ๋ฌธ๋งฅ์ ํด์์ด ์์ฐ์ค๋ฌ์
Qwen2.5-VL ๋๋น Qwen3-VL์ ์ด ์ํ์ค๋ฅผ 256K ํ ํฐ๊น์ง ์์ ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋๋ก ์ค๊ณ๋์๋ค.
2.4 Positional & Temporal Encoding
2.4.1 Interleaved-MRoPE
Qwen2.5-VL์ MRoPE๋ t/h/w ์ ๋ณด๋ฅผ ๋ถ๋ฆฌ๋ ์ฐจ์์ ๋ฐฐ์นํ์ผ๋, Qwen3-VL์ ์ด๋ฅผ interleaveํ๋ค.
- ์๊ฐ, ๋์ด, ๋๋น ์ ๋ณด๋ฅผ ์๋ฒ ๋ฉ ์ฐจ์์ ์ ๋ฐ์ ๋ถ์ฐ
- ํน์ ์ถ ์ ๋ณด๊ฐ ์ฅ๊ฑฐ๋ฆฌ์์ ์์ค๋๋ ๋ฌธ์ ์ํ
์ด ์ค๊ณ๋ ํนํ ์ฅ๋ฌธ ๋ฌธ์์ ๊ธด ๋น๋์ค์์ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ง๋ ๋ค.
2.4.2 Timestamp Token
๋น๋์ค ํ๋ ์ ์์ <time=…> ํํ์ ํ ์คํธ ํ ํฐ์ ์ฝ์ ํจ์ผ๋ก์จ, ์๊ฐ ์ ๋ณด๋ฅผ positional encoding์๋ง ์์กดํ์ง ์๋๋ก ํ๋ค.
2.5 Vision–Language Fusion: DeepStack
DeepStack์ Qwen3-VL ์ํคํ ์ฒ์ ํต์ฌ์ธ๋ฐ, ๊ธฐ์กด์ Vision Encoder์ ๋ง์ง๋ง ๋ ์ด์ด ์ถ๋ ฅ๋ง LLM์ ์ ๋ฌํ๋ ๋ฐฉ์์ด์๋ค๋ฉด, Qwen3-VL์์๋ ์๋์ ๊ฐ์ ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
Vision Encoder
โโ Fโ (low-level) โ→ LLM layer k
โโ Fโ (mid-level) โ→ LLM layer k+Δ
โโ Fโ (high-level) โ→ LLM layer k+2Δ
- Vision Encoder์ ์ฌ๋ฌ ๋ ์ด์ด ์ถ๋ ฅ์ ์ถ์ถ
- LLM์ ์ฌ๋ฌ ๋ ์ด์ด์ ๋์์์ผ residual ํํ๋ก ์ฃผ์
์ด๋ก ์ธํด LLM์ ๋ค์ ์ ๋ณด๋ฅผ ๋์์ ํ์ฉํ ์ ์๋ค๊ณ ํ๋ค.
- ์ ์์ค: ๋ ์ด์์, ํ ์ค์ฒ, ์์ ๊ธ์จ
- ์ค๊ฐ ์์ค: ๊ฐ์ฒด, ์์ญ, ๊ตฌ์กฐ
- ๊ณ ์์ค: ์๋ฏธ, ๊ด๊ณ, ์ถ๋ก ๋จ์
2.6 LLM Backbone: Dense vs MoE
Qwen3-VL์ ๋ ๊ฐ์ง LLM ๋ฐฑ๋ณธ์ ์ ๊ณตํ๋ค.
2.6.1 Dense Transformer
- ๋ชจ๋ ํ ํฐ์ด ๋์ผํ FFN ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉ
- ์ํ~์คํ ๋ชจ๋ธ์ ์ ํฉ
- ๋จ์์ฑ๊ณผ ์์ ์ฑ์ด ์ฅ์
2.6.2 MoE Transformer
- FFN์ ์ฌ๋ฌ expert๋ก ๋ถ๋ฆฌ
- Router๊ฐ ํ ํฐ๋ณ๋ก ์์ k๊ฐ expert๋ง ํ์ฑํ
๋ฉํฐ๋ชจ๋ฌ ํ๊ฒฝ์์๋ ํ ํฐ ๋ถํฌ๊ฐ ๋งค์ฐ ๋ค์ํ๊ธฐ ๋๋ฌธ์, MoE๋ ์๋ฌต์ ์ธ ๊ธฐ๋ฅ ๋ถํ๋ฅผ ์ ๋ํ๋ฉฐ ๋ํ ๋ชจ๋ธ์์ ํนํ ํจ๊ณผ์ ์ด๋ค.
3. ๋ชจ๋ธ ํ์ต ์ ๋ต
๋ณธ ์ฅ์์๋ Qwen3-VL์ด ์ด๋ค ํ์ต ์คํ ์ด์ง๋ฅผ ๊ฑฐ์ณ ์ต์ข ๋ชจ๋ธ์ด ๋์๋์ง๋ฅผ ๋จ๊ณ๋ณ๋ก ์ค๋ช ํ๋ค.
3.1 ํ์ต ํ์ดํ๋ผ์ธ ๊ฐ์

Qwen3-VL์ ํ์ต์ ํฐ ํ์์ ๋ค์ ๋จ๊ณ๋ก ์ดํดํ๋ฉด ๋๋ค.
๋ฉํฐ๋ชจ๋ฌ pretraining
- ์ด๋ฏธ์ง ์บก์ , interleaved ๋ฌธ์, ์ง์/์ถ๋ก ๋ฐ์ดํฐ ๋ฑ์ ํตํด ๋ฒ์ฉ ๋ฉํฐ๋ชจ๋ฌ ๋ฅ๋ ฅ ํ์ต
- 256K ์ปจํ ์คํธ๋ฅผ ๊ณ ๋ คํ ๋ฐ์ดํฐ ๊ตฌ์ฑ๊ณผ ํ์ต ์ธํ
post-training
- instruction-following, reasoning ๊ฐํ
- Non-Thinking / Thinking ๋ ๊ฐ๋๋ก ๋ถ๊ธฐ
์ด๋ Qwen3-VL์ post-training์ ๋ ๋ง์ ์์์ ํ ๋นํ์ฌ ์ค์ ์ฌ์ฉ ์๋๋ฆฌ์ค์์ ์ฒด๊ฐ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ ์ ๋ต์ ์ทจํ๋ค.
3.2 ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ์ด ํ์ต์ ๋ค์ด๊ฐ๋ ํํ
ํ์ต ๋จ๊ณ์์๋ ์ ๋ ฅ์ ์ถ๋ก ๊ณผ ๋์ผํ๊ฒ interleaved ํ ํฐ ์ํ์ค๋ก ๊ตฌ์ฑ๋๋ค.
- ์ด๋ฏธ์ง ์บก์ ํ์ต: [ํ ์คํธ ํ๋กฌํํธ(๋๋ ๋น ํ๋กฌํํธ) + + ์๊ฐ ํ ํฐ + ์ ๋ต ์บก์ ]
- ๋ฌธ์/์ฑ ํ์ต: [ํ์ด์ง1 ํ ์คํธ + ํ์ด์ง1 ์ด๋ฏธ์ง + ํ์ด์ง2 ํ ์คํธ + …] ํํ๋ก ๋ฉํฐํ์ด์ง ์ํ์ค ๊ตฌ์ฑ
- ๋น๋์ค ํ์ต: [์ง๋ฌธ ํ ์คํธ + + <time=…> + ํ๋ ์ ์๊ฐ ํ ํฐ + ์ ๋ต] ํํ๋ก ๊ตฌ์ฑ
์ฆ, ๋ฐ์ดํฐ๋ ๋ชจ๋ “ํ๋์ ์ํ์ค”๋ก ์ ๊ทํ๋์ด ๋ชจ๋ธ์ ๋ค์ด๊ฐ๋ค.
3.3 Token-level loss: Square-Root Reweighting
๋ฉํฐ๋ชจ๋ฌ ํ์ต์์ ํํ ์๊ธฐ๋ ๋ฌธ์ ๋ ๋น์ ๋ฐ์ดํฐ ๋น์ค์ด ์ปค์ง์๋ก ํ ์คํธ ๋ฅ๋ ฅ์ด ๋จ์ด์ง๋ ํ์์ด๋ค. ์ด๋ ๋ชจ๋ธ์ด ์์ธกํด์ผ ํ๋ ์ ๋ต์ ๊ฒฐ๊ตญ ํ ์คํธ ํ ํฐ์ด์ง๋ง, ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ์์๋ ์ด๋ฏธ์ง·๋น๋์ค์์ ๋์จ ์กฐ๊ฑด ํ ํฐ(visual tokens)๊ณผ ๊ฐ์ข ์ ์ด ํ ํฐ์ด ์ปจํ ์คํธ๋ฅผ ํฌ๊ฒ ํ์ฅํ๋ฉด์, ํ์ต ์ ํธ๊ฐ ‘์ธ์ด ์์ฒด’๋ณด๋ค ‘์กฐ๊ฑด ํด์’ ์ชฝ์ผ๋ก ๊ณผ๋ํ๊ฒ ์ ๋ฆฌ๊ธฐ ๋๋ฌธ์ด๋ค.
Qwen3-VL์ ์ด๋ฅผ ์ํํ๊ธฐ ์ํด ํ ํฐ ๋จ์๋ก ํ์ต ์ ํธ์ ๊ธฐ์ฌ๋๋ฅผ ์ฌ์กฐ์ ํ๋ square-root reweighting์ ์ ์ฉํ๋ค. ์ฆ, ํ ์คํธ ํ ํฐ์ด ๋ง๋ค์ด๋ด๋ CE loss์ ๋น์ค์ ์๋์ ์ผ๋ก ๊ฐํํ๊ณ , ๋ฉํฐ๋ชจ๋ฌ ์กฐ๊ฑด์ด ๊ณผ๋ํ๊ฒ ๋ง์ ์ํ์์ ์ธ์ด ํ์ต ์ ํธ๊ฐ ํฌ์๋์ง ์๋๋ก ๊ท ํ์ ๋ง์ถ๋ค.
์ด ์ค๊ณ๋ ๋ฉํฐ๋ชจ๋ฌ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ฉด์๋ LLM์ผ๋ก์์ ํ ์คํธ ์ฑ๋ฅ์ ์ ์งํ๊ธฐ ์ํ ํ์ต ์์ ํ ์ฅ์น๋ก ๋ณผ ์ ์๋ค.
3.4 Thinking vs Non-Thinking: post-training ๋ถ๊ธฐ
post-training์์ ๋ชจ๋ธ์ ๋ ์ ํ์ผ๋ก ๋ถ๊ธฐ๋๋ค.
- Non-Thinking: ๋น ๋ฅด๊ณ ์ค์ฉ์ ์ธ ์๋ต, ์ผ๋ฐ ์๋น์ค ์งํฅ
- Thinking: ๋จ๊ณ์ ์ถ๋ก ์ ์ฅ๋ คํ๋ ํ์ต์ ํตํด ๋ณต์กํ reasoning์์ ์ฑ๋ฅ ๊ฐํ
๊ฐ์ backbone์ด๋ผ๋ ํ์ต ๋ชฉํ(์๋ต ์คํ์ผ, reasoning ์คํ์ผ)๋ฅผ ๋ค๋ฅด๊ฒ ์ฃผ๋ฉด์ ์ฌ์ฉ์ฒ๋ฅผ ๋ถ๋ฆฌํ ์ ๋ต์ด๋ค.
4. ๋ฐ์ดํฐ
4.1 ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ
๋ฆฌํฌํธ์ ๋ฐ์ดํฐ ํํธ๋ ๋จ์ํ '์ด๋ค ๋ฐ์ดํฐ๊ฐ ๋ง๋ค'๊ฐ ์๋๋ผ, ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ธ ์ ๋ ฅ ์ํ์ค๋ก ๋ค์ด๊ฐ๊ธฐ๊น์ง ์ด๋ค ์ ์ ·๋ณํ ๊ณผ์ ์ ๊ฑฐ์น๋์ง๊ฐ ํต์ฌ์ด๋ค. ํฐ ํ๋ฆ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ์์ฒ ๋ฐ์ดํฐ ์์ง(์น ์ด๋ฏธ์ง-ํ ์คํธ, ๋ฌธ์, ์ฑ , ๋น๋์ค, ์ง์/์ถ๋ก ๋ฐ์ดํฐ)
- ์ ์ /ํํฐ๋ง(ํ์ง/๋๋ฉ์ธ/์ ํด์ฑ/์ค๋ณต)
- ์ฌ๊ตฌ์ฑ(์ฌ์บก์ ๋, ๋ฌธ์ ํ์ฑ ๋ฐ ํ ์คํธ-์ด๋ฏธ์ง ์ ๋ ฌ, ๋กฑ์ปจํ ์คํธ ์ํ์ค ๊ตฌ์ฑ)
- ์ต์ข ์ํ์คํ(interleaved ํ ํฐ ์ํ์ค๋ก ๋ณํ)
- ํ์ต ํฌ์ (ํ ํฐ ๋จ์ ์์ค๋ก ์ต์ ํ)
4.2 ์ด๋ฏธ์ง ์บก์ ๋ฐ์ดํฐ
Qwen3-VL์ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ๊ทธ๋๋ก ์ฐ์ง ์๊ณ , Qwen2.5-VL ๊ธฐ๋ฐ ์ฌ์บก์ ๋ ๋ชจ๋ธ์ ํ์ฉํด ์บก์ ํ์ง์ ํฌ๊ฒ ๋์ด์ฌ๋ฆฐ๋ค.
- ์๋ณธ์ ์งง๊ณ ๋ถ์์ ํ ํ ์คํธ๋ฅผ ๊ทธ๋๋ก ํ์ตํ๋ฉด, ๋ชจ๋ธ์ด ‘๋์ถฉ ๋ง๋’ ๋ฌ์ฌ์ ์ต์ํด์ง๊ธฐ ์ฝ๋ค.
- ์ฌ์บก์ ๋์ ๊ฐ์ฒด ์์ฑ, ๊ณต๊ฐ ๋ฐฐ์น, ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ๋ณด๊ฐํ์ฌ ๋ ํ์ต ๊ฐ์น๊ฐ ๋์ ํ ์คํธ๋ฅผ ๋ง๋ ๋ค.
๋ํ ์ค๋ณต ์ ๊ฑฐ๋ ์ด๋ฏธ์ง๊ฐ ์๋๋ผ “์ฌ์บก์ ๋๋ ํ ์คํธ ์๋ฏธ” ๊ธฐ์ค์ผ๋ก ์ํํ์ฌ ์๊ฐ ๋ค์์ฑ์ ์ต๋ํ ๋ณด์กดํ๋ค.
4.3 Interleaved ๋ฌธ์/์น ๋ฐ์ดํฐ
์น์์ ์์งํ interleaved ๋ฌธ์์๋ ๊ด๊ณ , ํ๋ณด, ํด๋ฆญ๋ฒ ์ดํธ ๊ฐ์ ์ ๊ฐ์น ๋ฐ์ดํฐ๊ฐ ์์ด๊ธฐ ์ฝ๋ค. Qwen3-VL์ ๊ฒฝ๋ Qwen ๊ธฐ๋ฐ ์ค์ฝ์ด๋ฌ๋ก ๋๋ฉ์ธ ๋ถ๋ฅ๋ฅผ ์ํํ๊ณ , ํน์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ ์ธํ๋ค.
์ด ๊ณผ์ ์ ์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋ชจ๋ธ์ด '์ ๋ณด ๋ฐ๋ ๋์ ๋ฌธ์'์ ๋ ๋ง์ด ๋ ธ์ถ๋๋ค.
- ์ฅ๋ฌธ ๋ฌธ์ ์ดํด, ๋ฌธ์ QA, ๊ฒ์ํ ์ง์์ ํ์ํ ์ธ์ด ์ต๊ด์ด ๊ฐํ๋๋ค.
4.4 Book ์ค์ผ์ผ ๋ฐ์ดํฐ
์ฑ ๋จ์ ๋ฐ์ดํฐ๋ ๋จ์ํ ํ์ด์ง๋ฅผ ๋ ๋ฆฝ ์ํ๋ก ์ฐ์ง ์๊ณ , ์ฌ๋ฌ ํ์ด์ง๋ฅผ ์์๋๋ก ์ด์ด ๋ถ์ฌ ์ต๋ 256K ํ ํฐ ์ํ์ค๋ฅผ ๊ตฌ์ฑํ๋ค.
์ด๋ ๋ฌด์์ ๊ธธ๊ฒ ๋ถ์ด๋ ๊ฒ์ด ์๋๋ผ,
- ์ด๋ฏธ์ง-ํ ์คํธ ์ ๋ ฌ์ด ์ถฉ๋ถํ ๋์์ง
- ์ด๋ฏธ์ง/ํ ์คํธ ๋น์จ์ด ์ต์ ๊ธฐ์ค์ ๋ง์กฑํ๋์ง
- ์์ ํ ์คํธ ๊ตฌ๊ฐ์ด ๊ณผ๋ํ๊ฒ ๊ธธ์ง ์์์ง
๊ฐ์ ํ์ง ๊ธฐ์ค์ ๊ฐํ๊ฒ ์ ์ฉํ๋ค. ์ด๋ฌํ ์ค๊ณ๋ “๊ธด ๋ฌธ์๋ฅผ ๋๊น์ง ์ฝ๊ณ , ์์์ ๋ณธ ํ/๊ทธ๋ฆผ์ ๋ค์์ ๋ค์ ์ฐธ์กฐ”ํ๋ ๋ฅ๋ ฅ์ ํ์ต์ํค๊ธฐ ์ํ ๊ฒ์ด๋ค.
4.5 Spatial Understanding
Qwen3-VL์ ๋จ์ํ bounding box๋ฅผ ๋ง์ถ๋ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๋ถ์กฑํ๋ค๊ณ ๋ณธ๋ค. ๊ทธ๋์ Spatial Understanding ๋ฐ์ดํฐ๋ ๋ค์์ ํฌํจํ๋ค.
- Relation: “์ปต์ด ๋ ธํธ๋ถ ์ผ์ชฝ์ ์๋ค” ๊ฐ์ ์๋์ ํํ
- Affordance: graspable, pressable, sittable ๊ฐ์ ํ๋ ๊ฐ๋ฅ์ฑ
- Action-conditioned: “๋ชจ๋ํฐ ๋ค ์ฑ ์ ๊บผ๋ด๋ ค๋ฉด ๋ฌด์์ ๋จผ์ ์ฎ๊ฒจ์ผ ํ๋” ๊ฐ์ ํ๋๋ ์ง๋ฌธ
ํต์ฌ์ ‘์ ๋ ์ขํ’๊ฐ ์๋๋ผ ๋์ ๊ฐ ๊ด๊ณ๋ก ๊ณต๊ฐ์ ๊ธฐ์ ํ๊ฒ ํ์ฌ, ํด์๋๋ ์ดฌ์ ์กฐ๊ฑด์ด ๋ฌ๋ผ๋ ์ผ๋ฐํ๋๋ ์ถ๋ก ์ ์ ๋ํ๋ ์ ์ด๋ค.
4.6 3D Grounding: ๋จ์ ์ด๋ฏธ์ง์์ 9-DoF 3D bbox
3D Grounding ๋ฐ์ดํฐ๋ ๋จ์ผ ์์ ์ด๋ฏธ์ง + ์์ฐ์ด ์ง์ + 9-DoF 3D bbox(JSON)๋ฅผ ํ์ต ํํ๋ก ๊ตฌ์ฑํ๋ค.
์ค์ ๋ฐ์ดํฐ๋ ์ผ์/์์ค๊ฐ ๋ค์ํด ์นด๋ฉ๋ผ ํ๋ผ๋ฏธํฐ๊ฐ ๋ค๋ฅด๊ณ ๋ ธ์ด์ฆ๋ ์กด์ฌํ๋ฏ๋ก,
- ๊ณผ๋ํ ๊ฐ๋ฆผ/๋ถ์ ํ ๋ผ๋ฒจ์ ํํฐ๋ง
- ๊ฐ์ ์นด๋ฉ๋ผ ์ขํ๊ณ๋ก ํต์ผ
- ๋ ํ๋ถํ ํ ์คํธ ์ง์๋ฅผ ๋ง๋ค๊ธฐ ์ํด ์์ธ ์บก์ ์ ํฉ์ฑ
๊ฐ์ ์ ์ ๊ณผ์ ์ ๊ฑฐ์น๋ค.
4.7 ์์ฝ
Qwen3-VL์ ๋ฐ์ดํฐ ์ ๋ต์ ๋จ์ํ ๊ท๋ชจ ๊ฒฝ์์ด ์๋๋ผ,
- ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด๋ฅผ ‘ํ ์ค์ ์ํ์ค’๋ก ์ ๊ทํํ๊ณ
- long-context๊ฐ ์๋ฏธ ์๊ฒ ์๋ํ๋๋ก ์ํ์ ๊ตฌ์ฑํ๋ฉฐ
- ๋ฌธ์/์ฐจํธ/๊ณต๊ฐ/๋น๋์ค ๊ฐ์ ์ค์ ์ฌ์ฉ์ฒ๋ฅผ ๋ฐ์ดํฐ ๋จ๊ณ์์ ๋ฐ์
ํ๋ ๋ฐฉ์์ผ๋ก ์ ๋ฆฌํ ์ ์๋ค.
5. Qwen2.5-VL๊ณผ์ ํต์ฌ ์ฐจ์ด ์ ๋ฆฌ
Qwen3-VL์ Qwen2.5-VL ๋๋น ๋ค์๊ณผ ๊ฐ์ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ ๋๋ค.
- Interleaved-MRoPE๋ก ์ฅ๋ฌธ/์ฅ๋น๋์ค์์ ์์น ํํ ์์ ํ
- DeepStack์ผ๋ก ๋ฉํฐ๋ ๋ฒจ ์๊ฐ ํน์ง์ LLM ๋ ์ด์ด์ ์ง์ ์ฃผ์
- ๋น๋์ค ์๊ฐ ํํ์ timestamp ํ ํฐ์ผ๋ก ๋ช ์ํ
- ์ขํ๊ณ๋ฅผ [0, 1000] ์ ๊ทํ๋ก ํต์ผํ์ฌ ๋ค์ด์คํธ๋ฆผ ์ฌ์ฉ์ฑ ๊ฐํ
- ํ ํฐ ๋จ์ ์์ค๊ณผ ์ฌ์บก์ ๋/๋กฑ์ปจํ ์คํธ ์ํ์ค ๊ตฌ์ฑ์ผ๋ก “ํ ์คํธ ์ฑ๋ฅ ์ ์ง + ๋ฉํฐ๋ชจ๋ฌ ๊ฐํ”๋ฅผ ๋์์ ๋ฌ์ฑ
6. ์คํ ๊ฒฐ๊ณผ ๋ฐ ๋ถ์
6.1 Qwen2.5-VL ๋ฐ ๊ธฐ์กด VLM ๋๋น ์ฑ๋ฅ ์ฐจ์ด
๋ฆฌํฌํธ ์ ๋ฐ์์ ๊ณตํต์ ์ผ๋ก ๋ํ๋๋ ๊ฒฝํฅ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋จ์ ์ด๋ฏธ์ง ์ดํด ํ์คํฌ์์๋ Qwen2.5-VL๊ณผ์ ๊ฒฉ์ฐจ๊ฐ ํฌ์ง ์๋ค.
- ๋ฐ๋ฉด, long-context, ๋ฌธ์ ๊ธฐ๋ฐ reasoning, ์ฐจํธ/ํ ํด์, ๋น๋์ค ์ดํด์์๋ Qwen3-VL์ด ์ผ๊ด๋๊ฒ ์ฐ์์ ์๋ค.
์ด๋ Qwen3-VL์ ์ฑ๋ฅ ํฅ์์ด ํน์ ๋ฒค์น๋งํฌ ํ๋์ด ์๋๋ผ,
- Interleaved-MRoPE์ ์ํ ์ฅ๋ฌธ ์์ ์ฑ
- DeepStack์ ์ํ ๋ฉํฐ๋ ๋ฒจ ์๊ฐ ์ ๋ณด ํ์ฉ
- ๋ฐ์ดํฐ ๋จ๊ณ์์์ long-context ์ํ์ค ๊ตฌ์ฑ
๊ฐ์ ๊ตฌ์กฐ์ ๋ณํ์์ ๊ธฐ์ธํจ์ ์์ฌํ๋ค. ํนํ ๋ฌธ์ QA, ์ฐจํธ ์ดํด, OCR ๊ธฐ๋ฐ reasoning ํ์คํฌ์์๋ ๋จ์ํ “๊ธ์๋ฅผ ์ฝ๋์ง”๊ฐ ์๋๋ผ ์๋์ ๊ฐ์ ๋ฅ๋ ฅ์์ ์ฐจ์ด๊ฐ ๋ฐ์ํ๋ค.
- ๋ ์ด์์์ ๊ธฐ์ตํ๊ณ
- ์์์ ๋ณธ ์ ๋ณด๋ฅผ ๋ค์์ ๋ค์ ์ฐธ์กฐํ๋ฉฐ
- ์๊ฐ ์ ๋ณด์ ํ ์คํธ๋ฅผ ๊ฒฐํฉํด ์ถ๋ก
6.2 ๋ชจ๋ธ ์ค์ผ์ผ๋ณ ์ฑ๋ฅ ์ฐจ์ด
Qwen3-VL์ 2B๋ถํฐ 235B-A22B๊น์ง ๋งค์ฐ ๋์ ์ค์ผ์ผ์ ์ ๊ณตํ๋ฉฐ, ์ค์ผ์ผ ์ฆ๊ฐ์ ๋ฐ๋ผ ์ฑ๋ฅ ํฅ์ ์์๋ ๋น๊ต์ ๋ช ํํ๋ค.
- ์ํ ๋ชจ๋ธ(2B, 4B)
- ๊ธฐ๋ณธ์ ์ธ ์ด๋ฏธ์ง ์บก์ , ๋จ์ QA ์ค์ฌ
- ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ์ ์ฒ๋ฆฌ ๊ฐ๋ฅํ์ง๋ง ๋ณต์กํ reasoning์ ์ ํ์
- ์คํ ๋ชจ๋ธ(8B, 32B)
- ๋ฌธ์ QA, ์ฐจํธ ์ดํด, ๋ณตํฉ ์ง์์์ ์ฑ๋ฅ์ด ํฌ๊ฒ ๊ฐ์
- long-context ์ ๋ ฅ์์ ์์ ์ฑ์ด ์ฒด๊ฐ๋๊ธฐ ์์
- MoE ๋ํ ๋ชจ๋ธ(30B-A3B, 235B-A22B)
- reasoning, STEM, ๋ฉํฐ๋ชจ๋ฌ agent ๋ฒค์น๋งํฌ์์ ๋๋๋ฌ์ง ์ฑ๋ฅ ํฅ์
- Dense ๋ชจ๋ธ ๋๋น ๊ณ์ฐ๋ ์ฆ๊ฐ๋ฅผ ์ต์ ํ๋ฉด์๋ ํํ๋ ฅ์ ํฌ๊ฒ ํ์ฅ
ํนํ MoE ๋ชจ๋ธ์ "๋ชจ๋ธ ์ฉ๋ ๋๋น ์ฑ๋ฅ" ๊ด์ ์์ ํจ์จ์ด ๋๋ค. ์ด๋ ๋ฉํฐ๋ชจ๋ฌ ํ ํฐ ๋ถํฌ๊ฐ ๋ค์ํ ํ๊ฒฝ์์ expert specialization์ด ํจ๊ณผ์ ์ผ๋ก ์๋ํ๊ณ ์์์ ๊ฐ์ ์ ์ผ๋ก ๋ณด์ฌ์ค๋ค.
Qwen3-VL ํ ํฌ๋์ปฌ ๋ฆฌํฌํธ๋ ์ต์ VLM์ด ์ด๋ค ๋ฌธ์ ๋ฅผ ์ธ์ํ๊ณ , ์ด๋ฅผ ์ด๋ค ์ํคํ ์ฒ์ ํ์ต ์ ๋ต์ผ๋ก ํ์ด๊ฐ๊ณ ์๋์ง๋ฅผ ๋น๊ต์ ์์ธํ๊ฒ ๋ณด์ฌ์ค๋ค. ๋ค์ํ ์ค์ผ์ผ์ ๋ชจ๋ธ์ด ํจ๊ป ๊ณต๊ฐ๋์ด ์์ด ์ฐ๊ตฌ์ ์ค๋ฌด ์์ชฝ ๋ชจ๋์์ ํ์ฉ ๊ฐ๋ฅ์ฑ๋ ๋๋ค.