https://arxiv.org/abs/2507.01006
1. Introduction
GLM-4.5V๋ Zhipu AI์ Tsinghua University๊ฐ 2025๋ 7์ 1์ผ ํ ํฌ๋ฆฌํฌํธ์์ ์๊ฐ๋ RLCS(Reinforcement Learning with Curriculum Sampling)๋ฅผ ํฌํจํ ์ค์ผ์ผ๋ฌ๋ธ ๋ฉํฐ๋ชจ๋ฌ RL ๋ ์ํผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, 2025๋ 8์ 11์ผ๊ฒฝ ๊ณต๊ฐ/๋ฐฐํฌ๋ VLM์ด๋ค. GLM-4.5V๋ GLM-4.5-Air ๊ธฐ๋ฐ(MoE, 106B total / 12B active)์ด๋ฉฐ, RLCS๋ฅผ ํฌํจํ ๋ฉํฐ๋ชจ๋ฌ RL ์คํ(RLVR + RLHF, unified reward system, dynamic sampling expansion ๋ฑ)์ ํตํด ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ ๋ชจ๋ธ์ด๋ค.
๊ธฐ์กด ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ๋ค์ ๋ค์ํ ๋๋ฉ์ธ์์ ํ์ตํ์ง๋ง, ๋ชจ๋ธ์ด ํ์ฌ ์ํ ์ ์๋ ์์ ๊ณผ ์ด๋ ค์ด ์์ ์ ๊ตฌ๋ถํ์ง ์๊ณ ๋์ผํ๊ฒ ํ์ตํ๋ค. RLCS๋ ๋ชจ๋ธ์ ์ญ๋์ ๋ฐ๋ผ ํ์ตํ ํ์คํฌ๋ฅผ ๋์ ์ผ๋ก ์ ํํ์ฌ ํจ์จ์ ์ด๊ณ ์์ ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ์ด๋ curriculum learning์ ์์ด๋์ด๋ฅผ reinforcement learning์ ์ ์ฉํ ๊ฒ์ด๋ค.
๊ธฐ์กด GLM-V ์๋ฆฌ์ฆ๋ ๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฅ๋ ฅ์ ๊พธ์คํ ๋ฐ์ ์์ผ์๋ค. ํ์ง๋ง ๋ณต์กํ ์ถ๋ก ์์ , ํนํ STEM ๋ฌธ์ ๋ ์ฝ๋ฉ ์์ ์์๋ ์ฌ์ ํ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์์๋ค. Multimodal reasoning์ ๋จ์ํ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ํ ์คํธ๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋์ด, ์ด๋ฏธ์ง์ ๋ด์ฉ์ ๋ถ์ํ๊ณ ๋ ผ๋ฆฌ์ ์ผ๋ก ์ถ๋ก ํ๋ ๋ฅ๋ ฅ์ด ํ์ํ๋ค. ์๋ฅผ ๋ค์ด, ์ํ ๋ฌธ์ ์ ๊ทธ๋ํ๋ฅผ ๋ณด๊ณ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ฑฐ๋, ์ฝ๋ ์คํฌ๋ฆฐ์ท์ ๋ณด๊ณ ๋ฒ๊ทธ๋ฅผ ์ฐพ๋ ๊ฒ์ ๋จ์ํ ์ด๋ฏธ์ง ์ค๋ช ๊ณผ๋ ๋ค๋ฅธ ์ถ๋ก ๋ฅ๋ ฅ์ด ํ์ํ๋ค.
Reinforcement Learning์ LLM์์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๋ฐ ํจ๊ณผ์ ์ด์ง๋ง, ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ ์ฉํ ๋๋ ์ฌ๋ฌ ๋๋ฉ์ธ(STEM, ์ฝ๋ฉ, GUI agent ๋ฑ)์์์ ์ฑ๋ฅ์ ๊ท ํ์๊ฒ ํฅ์์ํค๋ ๊ฒ์ด ์ด๋ ต๋ค. ๋ชจ๋ธ์ด ํ ๋๋ฉ์ธ์์๋ ์ ํ์ตํ์ง๋ง ๋ค๋ฅธ ๋๋ฉ์ธ์์๋ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๋ถ๊ท ํ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๋ค. RLCS๋ ์ด ๋ฌธ์ ๋ฅผ curriculum sampling์ผ๋ก ํด๊ฒฐํ๋ค. ๋ชจ๋ธ์ ํ์ฌ ์ญ๋์ ํ๊ฐํ๊ณ , ๊ทธ์ ๋ง๋ ๋์ด๋์ ํ์คํฌ๋ฅผ ์ ํํ์ฌ ์ ์ง์ ์ผ๋ก ์ด๋ ค์ด ์์ ์ผ๋ก ํ์ฅํ๋ ๋ฐฉ์์ด๋ค.
2. Technical Approach

GLM-4.5V์ ํต์ฌ์ Reinforcement Learning with Curriculum Sampling (RLCS)๋ฅผ ํฌํจํ ๋ฉํฐ๋ชจ๋ฌ RL ์คํ์ด๋ค. RLCS๋ multi-domain reinforcement learning์ ํตํด ๋ชจ๋ธ์ ์ญ๋์ ๋ฐ๋ผ ๋์ ์ผ๋ก ํ์คํฌ๋ฅผ ์ ํํ๋ ๋ฐฉ์์ด๋ฉฐ, RLVR + RLHF, unified reward system, dynamic sampling expansion ๋ฑ๊ณผ ํจ๊ป ๋ฉํฐ๋ชจ๋ฌ RL ๋ ์ํผ์ ํ ๊ตฌ์ฑ์์๋ก ์๋ํ๋ค.
2.1. RLCS ํ๋ ์์ํฌ ๊ฐ์
RLCS๋ curriculum learning์ ์์ด๋์ด๋ฅผ reinforcement learning์ ์ ์ฉํ ํ๋ ์์ํฌ๋ค. Curriculum learning์ ์ธ๊ฐ์ด ํ์ตํ ๋ ์ฌ์ด ๋ด์ฉ๋ถํฐ ์์ํ์ฌ ์ ์ง์ ์ผ๋ก ์ด๋ ค์ด ๋ด์ฉ์ผ๋ก ํ์ฅํ๋ ๊ฒ์ฒ๋ผ, model๋ ์ฌ์ด task๋ถํฐ ์์ํ์ฌ ์ ์ง์ ์ผ๋ก ์ด๋ ค์ด task๋ก ํ์ฅํ๋ ํ์ต ์ ๋ต์ด๋ค. ๊ธฐ์กด RL ๋ฐฉ์์ ๋ชจ๋ ๋๋ฉ์ธ๊ณผ ๋์ด๋๋ฅผ ๋์ผํ๊ฒ ํ์ตํ์ง๋ง, RLCS๋ model์ด ํ์ฌ ์ ์ํํ ์ ์๋ task๋ถํฐ ์์ํ์ฌ ์ ์ง์ ์ผ๋ก ์ด๋ ค์ด task๋ก ํ์ฅํ๋ค.
ํต์ฌ ์์ด๋์ด
- Curriculum learning์ ์์ด๋์ด๋ฅผ reinforcement learning์ ์ ์ฉ
- Model์ด ํ์ฌ ์ ์ํํ ์ ์๋ task๋ถํฐ ์์ํ์ฌ ์ ์ง์ ์ผ๋ก ์ด๋ ค์ด task๋ก ํ์ฅ
- Model์ ์ญ๋์ ๋ฐ๋ผ ๋์ ์ผ๋ก ํ์ตํ task ์ ํ
ํ์ต์ ์ฌ๋ฌ ๋จ๊ณ๋ก ์งํ๋๋ค. ์ฒซ์งธ, ๋ค์ํ ์ง์ ์ง์ฝ์ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ก vision foundation model์ ๋๊ท๋ชจ pre-training์ ์งํํ๋ค. ๋์งธ, long-context, ๊ณ ํด์๋, ๋น๋์ค ์ฒ๋ฆฌ๋ฅผ ์ํ continual training์ ์ํํ๋ค. ์ ์งธ, SFT(Supervised Fine-Tuning) ๋จ๊ณ์์ long CoT(Chain-of-Thought) ์คํ์ผ ์ ๋ ฌ์ ์ํํ๋ค. ๋ง์ง๋ง์ผ๋ก RLCS๋ฅผ ํฌํจํ ๋ฉํฐ๋ชจ๋ฌ RL ์คํ(RLVR + RLHF, unified reward system, dynamic sampling expansion ๋ฑ)์ ์ ์ฉํ๋ค. ์ด ๋จ๊ณ์์ model์ ์ญ๋์ ํ๊ฐํ๊ณ ๊ทธ์ ๋ง๋ ๋์ด๋์ task๋ฅผ ์ ํํ์ฌ ์ ์ง์ ์ผ๋ก ์ด๋ ค์ด ์์ ์ผ๋ก ํ์ฅํ๋ค.
ํ์ต ๋จ๊ณ
- Pre-training: ๋ค์ํ ์ง์ ์ง์ฝ์ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ก vision foundation model ์ฌ์ ํ์ต
- Continual Training: long-context, ๊ณ ํด์๋, ๋น๋์ค ์ฒ๋ฆฌ๋ฅผ ์ํ ์ง์์ ํ์ต
- SFT: ๋กฑ CoT ์คํ์ผ ์ ๋ ฌ์ ์ํ Supervised Fine-Tuning
- Multi-modal RL: RLCS๋ฅผ ํฌํจํ RL ์คํ(RLVR + RLHF, unified reward system, dynamic sampling expansion ๋ฑ) ์ ์ฉ
2.2. ๋์ ํ์คํฌ ์ ํ ๋ฉ์ปค๋์ฆ
RLCS์ ํต์ฌ์ model์ด ๊ฐ ๋๋ฉ์ธ(STEM, ์ฝ๋ฉ, GUI agent ๋ฑ)์์์ ์ฑ๋ฅ์ ์ง์์ ์ผ๋ก ํ๊ฐํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ํ์ต ์ ๋ต์ ์กฐ์ ํ๋ ๊ฒ์ด๋ค.
๋๋ฉ์ธ๋ณ ์ฑ๋ฅ ํ๊ฐ
- Model์ด ๊ฐ ๋๋ฉ์ธ(STEM, ์ฝ๋ฉ, GUI agent ๋ฑ)์์์ ์ฑ๋ฅ์ ์ง์์ ์ผ๋ก ํ๊ฐ
- ์ฑ๋ฅ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ํ์ต ์ ๋ต ์กฐ์
Model์ด ์ํ ๋ฌธ์ ๋ ์ ํ์ง๋ง ์ฝ๋ฉ ๋ฌธ์ ๋ ์ด๋ ค์ํ๋ค๋ฉด, ์ฝ๋ฉ task์ ๋์ด๋๋ฅผ ๋ฎ์ถ๊ณ ๋ ๋ง์ ์ฝ๋ฉ ์ํ์ ์ ๊ณตํ ํ, ์ ์ง์ ์ผ๋ก ์ฝ๋ฉ task์ ๋์ด๋๋ฅผ ์ฆ๊ฐ์ํจ๋ค. ๋ฐ๋๋ก ์ฑ๋ฅ์ด ์ข์ ๋๋ฉ์ธ์์๋ ๋ ์ด๋ ค์ด task๋ก ํ์ฅํ์ฌ model์ ๋ฅ๋ ฅ์ ๋์ฑ ํฅ์์ํจ๋ค.
ํ์คํฌ ์ ํ ์ ๋ต
- ์ฑ๋ฅ์ด ์ข์ ๋๋ฉ์ธ: ๋ ์ด๋ ค์ด task๋ก ํ์ฅ
- ์ฑ๋ฅ์ด ๋ฎ์ ๋๋ฉ์ธ: ๋์ด๋๋ฅผ ๋ฎ์ถ๊ฑฐ๋ ๋ ๋ง์ ์ํ ์ ๊ณต
- ์์: Model์ด ์ํ ๋ฌธ์ ๋ ์ ํ์ง๋ง ์ฝ๋ฉ ๋ฌธ์ ๋ ์ด๋ ค์ํ๋ค๋ฉด
- ์ฝ๋ฉ task์ ๋์ด๋๋ฅผ ๋ฎ์ถค
- ๋ ๋ง์ ์ฝ๋ฉ ์ํ ์ ๊ณต
- ์ ์ง์ ์ผ๋ก ์ฝ๋ฉ task์ ๋์ด๋ ์ฆ๊ฐ
์ด๋ฌํ ๋์ ํ์คํฌ ์ ํ์ multi-domain RL์ ํตํด ์ฌ๋ฌ ๋๋ฉ์ธ์์ ๋์์ ํ์ตํ๋ฉด์๋, ๊ฐ ๋๋ฉ์ธ์ ์ฑ๋ฅ์ ๋ฐ๋ผ ๋์ด๋๋ฅผ ์กฐ์ ํ๋ค. ์ด๋ฅผ ํตํด ๋๋ฉ์ธ ๊ฐ ์ฑ๋ฅ ๋ถ๊ท ํ์ ๋ฐฉ์งํ๊ณ , ์ ์ง์ ๋์ด๋ ์ฆ๊ฐ๋ก ํ์ต ์์ ์ฑ์ ํ๋ณดํ๋ค.
์ธ๋ถ์ฌํญ
- Multi-domain RL: ์ฌ๋ฌ ๋๋ฉ์ธ์์ ๋์์ ํ์ต
- ๋์ ๋์ด๋ ์กฐ์ : Model์ ํ์ฌ ์ญ๋์ ๋ฐ๋ผ task ๋์ด๋ ์กฐ์
- ๊ท ํ ํ์ต: ๋๋ฉ์ธ ๊ฐ ์ฑ๋ฅ ๋ถ๊ท ํ ๋ฐฉ์ง
- ์์ ์ ํ์ต: ์ ์ง์ ๋์ด๋ ์ฆ๊ฐ๋ก ํ์ต ์์ ์ฑ ํ๋ณด
2.3. ํ์ต ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ํฅ์
RLCS๋ model์ด ์ด๋ฏธ ์ํ๋ ์์ ์ ์๊ฐ์ ๋ญ๋นํ์ง ์๊ณ , ์ด๋ ค์ด ์์ ์ ์ง์คํ์ฌ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์๊ฒ ํด์ค๋ค. ๋ฉํฐ๋ชจ๋ฌ RL ๋จ๊ณ(RLCS๋ฅผ ํฌํจํ ์ฌ๋ฌ ์์ ํ/์ํ๋ง ๋ ์ํผ ํฌํจ)๊ฐ ์ต๋ +10.6% ์ฑ๋ฅ ํฅ์์ ๋ณด์์ผ๋ฉฐ, ๋ค์ํ ๋๋ฉ์ธ(STEM, ์ฝ๋ฉ, GUI agent, ๋น๋์ค ์ดํด)์์ ๊ท ํ์๊ฒ ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค. ํนํ ์์ model(GLM-4.1V-9B-Thinking)์์๋ ํจ๊ณผ์ ์ผ๋ก ์๋ํ์ฌ, curriculum sampling์ด model์ ์ ์ฌ๋ ฅ์ ํจ์จ์ ์ผ๋ก ๋ฐํํ๊ฒ ํด์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
3. Experimental Results
GLM-4.5V๋ 42๊ฐ ๊ณต๊ฐ benchmark์์ ์คํ์์ค model ์ค SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. STEM ๋ฌธ์ ํด๊ฒฐ์์๋ ์ํ, ๋ฌผ๋ฆฌ, ํํ ๋ฌธ์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ํนํ ๊ทธ๋ํ๋ ๋ค์ด์ด๊ทธ๋จ์ ํฌํจํ ๋ณต์กํ ๋ฌธ์ ์์๋ ์ ํํ ์ถ๋ก ์ ์ํํ ์ ์์๋ค. ์ฝ๋ฉ ์์ ์์๋ ์ด๋ฏธ์ง๋ ๋น๋์ค์์ ์ฝ๋๋ฅผ ์์ฑํ๊ฑฐ๋ ์ฝ๋๋ฅผ ๋ถ์ํ๋ ์์ ์์ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ผ๋ฉฐ, ์คํฌ๋ฆฐ์ท์ ๋ณด๊ณ ์คํ ๊ฐ๋ฅํ ์ฝ๋๋ฅผ ์์ฑํ ์ ์์๋ค.
GUI agent ์์ ์์๋ ์คํฌ๋ฆฐ์ท์ ๋ณด๊ณ GUI ์์๋ฅผ ์ธ์ํ๊ณ ์์ ์ ์ํํ๋ ๋ฅ๋ ฅ์์ closed-source ๋ชจ๋ธ์ธ Gemini-2.5-Flash์ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ด๋ RLCS๋ฅผ ํฌํจํ ๋ฉํฐ๋ชจ๋ฌ RL ์คํ์ด ๋ค์ํ ๋๋ฉ์ธ์์ ๊ท ํ์๊ฒ ์ฑ๋ฅ์ ํฅ์์์ผฐ์์ ๋ณด์ฌ์ค๋ค.
ํนํ GLM-4.1V-9B-Thinking์ ๋จ 9B parameter๋ก๋ 72B parameter์ Qwen2.5-VL-72B๋ณด๋ค 29๊ฐ benchmark์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ, ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๊ท ํ์ ์ ๋ฌ์ฑํ๋ค. ์ด๋ RLCS๋ฅผ ํฌํจํ ๋ฉํฐ๋ชจ๋ฌ RL ์คํ์ด ์์ ๋ชจ๋ธ์์๋ ํจ๊ณผ์ ์ผ๋ก ์๋ํจ์ ๋ณด์ฌ์ฃผ๋ฉฐ, curriculum sampling์ด ๋ชจ๋ธ์ ์ ์ฌ๋ ฅ์ ํจ์จ์ ์ผ๋ก ๋ฐํํ๊ฒ ํด์ค๋ค๋ ๊ฒ์ ์ ์ฆํ๋ค.
4. Conclusion
GLM-4.5V์ ๊ธฐ์ ์ ํน์ด์ ์ RLCS (Reinforcement Learning with Curriculum Sampling)๋ฅผ ํฌํจํ ๋ฉํฐ๋ชจ๋ฌ RL ์คํ์ด๋ค. RLCS๋ curriculum learning์ ์์ด๋์ด๋ฅผ reinforcement learning์ ์ ์ฉํ์ฌ, model์ ์ญ๋์ ๋ฐ๋ผ ๋์ ์ผ๋ก ํ์ตํ task๋ฅผ ์ ํํ๋ ๋ฐฉ์์ด๋ค. ๊ธฐ์กด RL ๋ฐฉ์์ด ๋ชจ๋ ๋๋ฉ์ธ์ ๋์ผํ๊ฒ ํ์ตํ์ฌ ๋ถ๊ท ํ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, RLCS๋ ๋๋ฉ์ธ๋ณ ์ฑ๋ฅ์ ์ง์์ ์ผ๋ก ํ๊ฐํ๊ณ ๊ทธ์ ๋ง๋ ๋์ด๋์ task๋ฅผ ์ ํํ์ฌ ์ ์ง์ ์ผ๋ก ์ด๋ ค์ด ์์ ์ผ๋ก ํ์ฅํ๋ค. RLCS๋ RLVR + RLHF, unified reward system, dynamic sampling expansion ๋ฑ๊ณผ ํจ๊ป ๋ฉํฐ๋ชจ๋ฌ RL ๋ ์ํผ์ ํ ๊ตฌ์ฑ์์๋ก ์๋ํ๋ค.
์ด๋ฅผ ํตํด ๋ฉํฐ๋ชจ๋ฌ RL ๋จ๊ณ(์ฌ๋ฌ ์์ ํ/์ํ๋ง ๋ ์ํผ ํฌํจ)๊ฐ ์ต๋ +10.6% ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ผ๋ฉฐ, ํนํ ์์ model(GLM-4.1V-9B-Thinking)๋ ํฐ model(Qwen2.5-VL-72B) ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ, curriculum sampling์ด model์ ์ ์ฌ๋ ฅ์ ํจ์จ์ ์ผ๋ก ๋ฐํํ๊ฒ ํด์ค๋ค๋ ๊ฒ์ ์ ์ฆํ๋ค.
'๐ Research > Multi-modal' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [MLLM] Gemma 3 ํ ํฌ๋์ปฌ ๋ฆฌํฌํธ ๋ฆฌ๋ทฐ (0) | 2026.02.18 |
|---|---|
| [MLLM] InternVL3.5 ํ ํฌ๋์ปฌ ๋ฆฌํฌํธ ๋ฆฌ๋ทฐ (0) | 2026.02.18 |
| Qwen3-VL ํ ํฌ๋์ปฌ ๋ฆฌํฌํธ ๋ฆฌ๋ทฐ | VLM | MLLM (2) | 2026.01.10 |
| [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Visual Instruction Tuning | LLaVA Model (1) | 2024.12.04 |
| [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (0) | 2024.12.04 |