https://arxiv.org/abs/2508.18265
1. Introduction
InternVL3.5๋ OpenGVLab์ด 2025๋ 8์ ๊ณต๊ฐํ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ๊ฐ์ ํ ์คํ์์ค ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ๋ก, Qwen ์๋ฆฌ์ฆ ๋ค์์ผ๋ก ์์ฃผ ๋ฑ์ฅํ๋ ๋ชจ๋ธ์ด ์๋๊น ์ถ๋ค.
๊ธฐ์กด ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ ํฅ์์ ์ง์คํ์ง๋ง, ์ถ๋ก ์๋์ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ ์๋์ ์ผ๋ก ์ํํ๋ค. InternVL3.5๋ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ๋์์ ๊ฐ์ ํ๋ ๊ฒ์ด ์ค์ฉ์ ๋ฐฐํฌ์ ํ์์ ์์ ๋ณด์ฌ์ค๋ค. ํนํ ์ถ๋ก ์๋ ์ฝ 4๋ฐฐ ํฅ์์ ์ค์๊ฐ ์์ฉ์์ ํฐ ์ฐจ์ด๋ฅผ ๋ง๋ ๋ค.
๊ธฐ์กด InternVL3๋ ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ ์์ ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, ์ถ๋ก ์๋์ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ ์ธก๋ฉด์์ ๊ฐ์ ์ด ํ์ํ๋ค. ํนํ ๋๊ท๋ชจ ๋ชจ๋ธ์ ๋ฐฐํฌํ ๋๋ ๋จ์ผ GPU์ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ด ํฐ ๋ฌธ์ ์๋ค. ๋ํ ๋ชจ๋ ์ด๋ฏธ์ง๋ฅผ ๋์ผํ ํด์๋๋ก ์ฒ๋ฆฌํ๋ ๊ฒ์ ๋นํจ์จ์ ์ด๋ค. ๋ฌธ์์ ๋ฐฐ๊ฒฝ ๋ถ๋ถ์ ๋ฎ์ ํด์๋๋ก ์ถฉ๋ถํ์ง๋ง, ํ ์คํธ๊ฐ ์๋ ๋ถ๋ถ์ ๋์ ํด์๋๊ฐ ํ์ํ๋ค. ๊ธฐ์กด ๋ฐฉ์์ ๋ชจ๋ ์ด๋ฏธ์ง๋ฅผ ๋์ผํ ํด์๋๋ก ์ฒ๋ฆฌํ์ฌ ๋ถํ์ํ ๊ณ์ฐ์ ์ํํ๋ค.
ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ํธ๋ ์ด๋์คํ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ํต์ฌ ๊ณผ์ ๋ค. GUI interaction์ด๋ embodied agency ๊ฐ์ ์ค์๊ฐ ์์ฉ์์๋ ์ถ๋ก ์๋๊ฐ ์ฌ์ฉ์ ๊ฒฝํ์ ๊ฒฐ์ ํ๋ค. ์ฌ์ฉ์๊ฐ GUI ์์๋ฅผ ํด๋ฆญํ๋ผ๊ณ ์์ฒญํ์ ๋, ๋ชจ๋ธ์ด ๋ช ์ด์ฉ ๊ฑธ๋ ค์ ์๋ตํ๋ค๋ฉด ์ค์ฉ์ ์ด์ง ์๋ค. InternVL3.5๋ ์ด ๋ฌธ์ ๋ฅผ ์ธ ๊ฐ์ง ๊ธฐ์ ๋ก ํด๊ฒฐํ๋ค.
2. Technical Approach

InternVL3.5๋ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ๊ฐ์ ํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ํต์ฌ ๊ธฐ์ ์ ์ ์ํ๋ค.
2.1. Cascade Reinforcement Learning
Cascade RL์ ๋ ๋จ๊ณ ํ์ต ํ๋ ์์ํฌ๋ก, ๋จผ์ Offline RL๋ก ์์ ์ ์ธ ์๋ ด์ ๋ฌ์ฑํ ํ Online RL๋ก ์ ๋ฐํ ์ ๋ ฌ์ ์ํํ๋ค. ์ด coarse-to-fine ์ ๋ต์ ์ถ๋ก ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํค๋ฉด์๋ ํ์ต ์์ ์ฑ์ ์ ์งํ๋ค.
Stage 1: Offline RL (Mixed Preference Optimization)
- ๋ชฉ์ : ์์ ์ ์ธ ์๋ ด ๋ฌ์ฑ
- ๋ฐฉ๋ฒ: Mixed Preference Optimization (MPO) ์ฌ์ฉ
- Loss Fuction:
- Preference loss: ์ธ๊ฐ ์ ํธ๋ ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ต
- Quality loss: ์๋ต ํ์ง ํ๊ฐ
- Generation loss: ์์ฑ ๋ฅ๋ ฅ ํฅ์
- ํจ๊ณผ: ์ด๊ธฐ ๋จ๊ณ์์ ์์ ์ ์ธ ์ ์ฑ ํ์ต
Stage 2: Online RL (Group Sequence Policy Optimization)
- ๋ชฉ์ : ์ ๋ฐํ ์ ๋ ฌ ์ํ
- ๋ฐฉ๋ฒ: GSPO (Group Sequence Policy Optimization) ์๊ณ ๋ฆฌ์ฆ
- ํต์ฌ ๋ฉ์ปค๋์ฆ:
- ์ฌ๋ฌ ํ๋ณด ์๋ต ์์ฑ
- ๊ฐ ํ๋ณด์ ์ ๊ทํ๋ advantage ๊ณ์ฐ
- Advantage ๊ธฐ๋ฐ ์ ์ฑ ์ ์
- ํจ๊ณผ: ๋ชจ๋ธ์ด ์์ฑํ ์๋ต์ ์ง์ ํ์ฉํ์ฌ ์ ์ฑ ๊ฐ์
์ธ๋ถ์ฌํญ
- Coarse-to-fine ์ ๋ต: coarse ์ ๋ ฌ → ์ ๋ฐํ ์ ๋ ฌ
- ํ์ต ์์ ์ฑ: Offline RL๋ก ์ด๊ธฐ ์์ ์ฑ ํ๋ณด ํ Online RL ์ ์ฉ
- Advantage ์ ๊ทํ: ์ฌ๋ฌ ํ๋ณด ๊ฐ ๋น๊ต๋ฅผ ํตํ ์์ ์ ํ์ต
- ์ฑ๋ฅ ํฅ์: MMMU, MathVista ๊ฐ์ ์ถ๋ก ์์ ์์ ์ต๋ +16.0% ์ฑ๋ฅ ํฅ์
2.2. Visual Resolution Router (ViR)
Visual Resolution Router (ViR)๋ ์ฑ๋ฅ ์ ํ ์์ด ๋์ ์ผ๋ก ์๊ฐ ํ ํฐ ํด์๋๋ฅผ ์กฐ์ ํ๋ค. ๊ฐ ์ด๋ฏธ์ง ํจ์น๋ฅผ ํ๊ฐํ์ฌ ์์ถ๋ฅ ์ ๊ฒฐ์ ํ๋ฉฐ, ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ณต์ก๋์ ๋ฐ๋ผ ์ ์ ํ ํด์๋๋ฅผ ์ ํํ๋ค.
ํต์ฌ ์์ด๋์ด
- ์ด๋ฏธ์ง์ ๋ชจ๋ ์์ญ์ด ๋์ผํ ํด์๋๋ฅผ ํ์๋ก ํ์ง ์์
- semanticํ๊ฒ ์ค์ํ ์์ญ(ํ ์คํธ, ๊ฐ์ฒด)์ ๋์ ํด์๋ ์ ์ง
- ๋ ์ค์ํ ์์ญ(๋ฐฐ๊ฒฝ)์ ๋ฎ์ ํด์๋๋ก ์์ถ
์ธ๋ถ์ฌํญ
- Patch ํ๊ฐ: ๊ฐ ์ด๋ฏธ์ง patch์ ์ค์๋ ํ๊ฐ
- ๋์ ์์ถ: ์ค์๋์ ๋ฐ๋ผ ์์ถ๋ฅ ๊ฒฐ์
- ๋ ์ค์ํ patch๋ ์ต๋ 64 token๊น์ง ์์ถ
- ์ค์ํ patch๋ ์ต๋ 256 token๊น์ง ๋ณด์กด
- ์ฑ๋ฅ ๋ณด์กด: ์์ถ ๊ณผ์ ์์ ์ค์ํ ์ ๋ณด ์์ค ์ต์ํ
ViR๋ ๋ฌธ์ ๋ฐ OCR ์์ ์์ token ์๋ฅผ ์ฝ 50% ๊ฐ์์ํค๋ฉด์๋ ์ธก์ ๊ฐ๋ฅํ ์ฑ๋ฅ ์ ํ ์์ด ์ฒ๋ฆฌํ ์ ์๊ฒ ํด์ค๋ค. ์ด๋ ๊ณ์ฐ ๋น์ฉ์ ๋ํญ ๊ฐ์์ํจ๋ค. ํนํ ๋ฌธ์ ์ฒ๋ฆฌ์์ ํจ๊ณผ์ ์ด๋ฉฐ, ํ ์คํธ ์์ญ์ ๊ณ ํด์๋๋ก ๋ณด์กดํ๊ณ ๋ฐฐ๊ฒฝ์ ์ ํด์๋๋ก ์์ถํ์ฌ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ํ๋ณดํ๋ค.
2.3. Decoupled Vision-Language Deployment (DvD)
Decoupled Vision-Language Deployment (DvD)๋ Vision encoder์ LLM์ ์๋ก ๋ค๋ฅธ GPU์ ๋ถ๋ฆฌ ๋ฐฐ์นํ์ฌ ๊ณ์ฐ ๋ถํ๋ฅผ ๊ท ํ์๊ฒ ๋ถ์ฐ์ํจ๋ค. ์ด๋ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ด ์๋ ํ๊ฒฝ์์๋ ๋๊ท๋ชจ ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ๋ฐฐํฌํ ์ ์๊ฒ ํด์ค๋ค.
ํต์ฌ ์์ด๋์ด
- Vision encoder์ LLM์ ๊ณ์ฐ ๋ถํ๊ฐ ๋ค๋ฆ
- ๋จ์ผ GPU์ ๋ชจ๋ ๋ฐฐ์นํ๋ฉด ๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ ๋๋ ๋นํจ์จ์ ๋ฆฌ์์ค ์ฌ์ฉ
- ์๋ก ๋ค๋ฅธ GPU์ ๋ถ๋ฆฌ ๋ฐฐ์นํ์ฌ ๋ถํ ๊ท ํ
์ธ๋ถ์ฌํญ
- Vision Encoder ๋ฐฐ์น: ๋ณ๋ GPU์ ๋ฐฐ์น
- ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ ์์ ์ํ
- ์๊ฐ ํ ํฐ ์์ฑ
- LLM ๋ฐฐ์น: ๋ค๋ฅธ GPU์ ๋ฐฐ์น
- ์๊ฐ token๊ณผ ํ ์คํธ๋ฅผ ํจ๊ป ์ฒ๋ฆฌ
- ์ต์ข ์๋ต ์์ฑ
- ํต์ ์ต์ ํ: GPU ๊ฐ ๋ฐ์ดํฐ ์ ์ก ์ต์ํ
DvD๋ ์ถ๋ก ์๋๋ฅผ ์ต๋ 4๋ฐฐ ํฅ์์ํค๊ณ throughput์ 2๋ฐฐ ์ฆ๊ฐ์ํจ๋ค. ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ ํ๊ฒฝ์์๋ ๋๊ท๋ชจ ๋ชจ๋ธ์ ๋ฐฐํฌํ ์ ์๊ฒ ํด์ฃผ๋ฉฐ, Vision encoder์ LLM์ ๊ณ์ฐ ๋ถํ๋ฅผ ๊ท ํ์๊ฒ ๋ถ์ฐ์์ผ ๋ฆฌ์์ค ํ์ฉ ํจ์จ์ฑ์ ํฅ์์ํจ๋ค.
3. Experimental Results
InternVL3.5๋ ์ถ๋ก ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ ๋ชจ๋์์ ํฐ ํฅ์์ ๋ณด์๋ค. Cascade RL์ ํตํด MMMU, MathVista ๊ฐ์ ์ถ๋ก ๋ฒค์น๋งํฌ์์ InternVL3 ๋๋น ์ต๋ +16.0% ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค. ์ด๋ ๋ ๋จ๊ณ ํ์ต ์ ๋ต์ด ์ถ๋ก ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํด์ ๋ณด์ฌ์ค๋ค.
ViR๋ฅผ ํตํด token ์๋ฅผ ์ฝ 50% ๊ฐ์์ํค๋ฉด์๋ ์ฑ๋ฅ ์ ํ ์์ด ์ฒ๋ฆฌํ ์ ์์์ผ๋ฉฐ, ์ด๋ ๋ฌธ์๋ OCR ์์ ์์ ํนํ ํจ๊ณผ์ ์ด์๋ค. ๋ ์ค์ํ ์ด๋ฏธ์ง ์์ญ์ ๋ฎ์ resolution์ผ๋ก ์ฒ๋ฆฌํ๊ณ , ํ ์คํธ๋ ์ค์ํ ๊ฐ์ฒด๊ฐ ์๋ ์์ญ์ ๋์ resolution์ผ๋ก ๋ณด์กดํ์ฌ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ํ๋ณดํ๋ค.
DvD๋ฅผ ํตํด ์ถ๋ก ์๋๊ฐ 4๋ฐฐ ํฅ์๋์์ผ๋ฉฐ, throughput๋ 2๋ฐฐ ์ฆ๊ฐํ๋ค. ์ด๋ Vision encoder์ LLM์ ๋ค๋ฅธ GPU์ ๋ถ๋ฆฌ ๋ฐฐ์นํจ์ผ๋ก์จ ๊ณ์ฐ ๋ถํ๋ฅผ ๊ท ํ์๊ฒ ๋ถ์ฐ์ํจ ๊ฒฐ๊ณผ๋ค. ํนํ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ด ์๋ ํ๊ฒฝ์์๋ ๋๊ท๋ชจ ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ๋ฐฐํฌํ ์ ์๊ฒ ํด์ฃผ์๋ค.
GUI interaction ์์ ์์๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, open-source MLLM ์ค์์ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. ํนํ InternVL3.5-241B-A28B๋ ์ผ๋ฐ ๋ฉํฐ๋ชจ๋ฌ, ์ถ๋ก , ํ ์คํธ, ์์ด์ ํธ ์์ ์์ ์คํ์์ค MLLM ์ค ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, GPT-5 ๊ฐ์ ์์ฉ ๋ชจ๋ธ๊ณผ์ ๊ฒฉ์ฐจ๋ฅผ ์ขํ๋ค.
4. Conclusion
InternVL3.5์ ๊ธฐ์ ์ ํน์ด์ ์ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ๊ฐ์ ํ ์ธ ๊ฐ์ง ํต์ฌ ๊ธฐ์ ์ ์๋ค. Cascade RL์ Offline RL๊ณผ Online RL์ ๋ ๋จ๊ณ ํ์ต์ผ๋ก ์์ ์ ์๋ ด๊ณผ ์ ๋ฐํ ์ ๋ ฌ์ ๋์์ ๋ฌ์ฑํ๋ฉฐ, MMMU, MathVista ๊ฐ์ ์ถ๋ก ์์ ์์ ์ต๋ +16.0% ์ฑ๋ฅ ํฅ์์ ๋ณด์๋ค. ViR๋ ์ด๋ฏธ์ง patch๋ณ๋ก ์ค์๋๋ฅผ ํ๊ฐํ์ฌ ๋์ ์ผ๋ก token ์๋ฅผ ์กฐ์ ํ๋ฉฐ, ๋ฌธ์ ๋ฐ OCR ์์ ์์ token ์๋ฅผ ์ฝ 50% ๊ฐ์์ํค๋ฉด์๋ ์ฑ๋ฅ ์ ํ ์์ด ์ฒ๋ฆฌํ๋ค. DvD๋ Vision encoder์ LLM์ ์๋ก ๋ค๋ฅธ GPU์ ๋ถ๋ฆฌ ๋ฐฐ์นํ์ฌ ์ถ๋ก ์๋๋ฅผ ์ต๋ 4.05๋ฐฐ ํฅ์์ํค๊ณ throughput์ 2๋ฐฐ ์ฆ๊ฐ์์ผฐ๋ค.
ํนํ DvD๋ ๋จ์ผ GPU์ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ ๊ทน๋ณตํ๋ ์๋ก์ด ๋ฐฐํฌ ์ ๋ต์ด๋ฉฐ, ViR๋ ๋ชจ๋ ์ด๋ฏธ์ง๋ฅผ ๋์ผํ resolution์ผ๋ก ์ฒ๋ฆฌํ๋ ๊ธฐ์กด ๋ฐฉ์์ ๋นํจ์จ์ฑ์ ํด๊ฒฐํ๋ ๋์ ํด์๋ ์กฐ์ ๋ฉ์ปค๋์ฆ์ด๋ค.
'๐ Research > Multi-modal' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [MLLM] Gemma 3 ํ ํฌ๋์ปฌ ๋ฆฌํฌํธ ๋ฆฌ๋ทฐ (0) | 2026.02.18 |
|---|---|
| [MLLM] GLM-4.5V ํ ํฌ๋์ปฌ ๋ฆฌํฌํธ ๋ฆฌ๋ทฐ (0) | 2026.02.18 |
| Qwen3-VL ํ ํฌ๋์ปฌ ๋ฆฌํฌํธ ๋ฆฌ๋ทฐ | VLM | MLLM (2) | 2026.01.10 |
| [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Visual Instruction Tuning | LLaVA Model (1) | 2024.12.04 |
| [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (0) | 2024.12.04 |