์์ฆ LLM์์ ์ด์ผ๊ธฐํ๋ MoE(Mixture of Experts)๋ sparse ๋ผ์ฐํ ๊ธฐ๋ฐ์ ์กฐ๊ฑด๋ถ ์ฐ์ฐ ๊ตฌ์กฐ๋ฅผ ์๋ฏธํ๋ค. MoE๋ ๊ณ ์ ์ ์ธ ์์๋ธ·๋ชจ๋๋ฌ ๋คํธ์ํฌ ๊ณ์ด๊ณผ๋ ๊ตฌ๋ถ๋๋ ๊ฐ๋ ์ด๋ฉฐ, ์ค์ ๋ก ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ์ค์ผ์ผ๋ง ์ ๋ต์ผ๋ก ์ ๋ฆฝ๋ ์์ ์ ๋น๊ต์ ์ต๊ทผ์ด๋ค.
LLM์์์ MoE๋ฅผ ๋ณธ๊ฒฉ์ ์ผ๋ก ์ดํดํ๊ธฐ ์ํ ๋ํ์ ๊ธฐ์ค์ ์ ๋ค์ ๋ ์ฐ๊ตฌ์ด๋ค.
- Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
์ด ๋ ผ๋ฌธ์ ํ ํฐ๋ง๋ค top-k expert๋ง ํ์ฑํํ๋ sparsely-gated MoE ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ฉฐ, ๋๊ท๋ชจ ๋ชจ๋ธ์์ ๊ณ์ฐ ๋น์ฉ์ ์ ์ดํ ์ ์์์ ๋ช ํํ ๋ณด์ฌ์ฃผ์๋ค. ์ค๋๋ LLM MoE์ ๊ตฌ์กฐ์ ์ํ์ ํด๋นํ๋ค. - Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Switch Transformer๋ top-1 routing์ด๋ผ๋ ๋จ์ํ ์ค๊ณ๋ฅผ ํตํด MoE๋ฅผ ์ค์ ์ด๋๊ท๋ชจ ๋ชจ๋ธ(์์ฒ์ต~์กฐ ๋จ์ ํ๋ผ๋ฏธํฐ)๋ก ํ์ฅ ๊ฐ๋ฅํจ์ ์ ์ฆํ๋ค. ์ด ๋ ผ๋ฌธ์ ๊ณ๊ธฐ๋ก MoE๋ "์ด๋ก ์ ์์ด๋์ด"๊ฐ ์๋๋ผ ํ์ค์ ์ธ LLM ์ค์ผ์ผ๋ง ๋ฐฉ๋ฒ์ผ๋ก ์๋ฆฌ ์ก์๋ค.
1. MoE๋ ๋ฌด์์ธ๊ฐ?

MoE(Mixture of Experts)๋ ์ฌ๋ฌ ๊ฐ์ ์ ๋ฌธ๊ฐ(Experts) ์ค ์ผ๋ถ๋ง ์ ํํด ๊ณ์ฐ์ ์ํํ๋ ์กฐ๊ฑด๋ถ ์ฐ์ฐ(Conditional Computation) ๊ตฌ์กฐ์ด๋ค. ๋ชจ๋ธ์ ์ ์ฒด ํ๋ผ๋ฏธํฐ ์๋ ๋งค์ฐ ํฌ์ง๋ง, ๊ฐ ํ ํฐ์ด ์ค์ ๋ก ๊ฑฐ์น๋ ์ฐ์ฐ ๊ฒฝ๋ก๋ ์ ํ๋๋ค.
ํต์ฌ์ "MoE๋ ๋ชจ๋ธ์ ์ด ์ฉ๋์ ํค์ฐ๋, ํ ํฐ๋น ๊ณ์ฐ ๋น์ฉ์ ์ต์ ํ๊ธฐ ์ํ ๊ตฌ์กฐ์ด๋ค." ๋ผ๊ณ ๋ณผ ์ ์๋ค.
์๋ฅผ ๋ค์ด Qwen3-VL-235B-A22B-Instruct๋ผ๋ ํ๊ธฐ์์,
- 235B๋ ๋ชจ๋ธ์ด ๋ณด์ ํ ์ ์ฒด ํ๋ผ๋ฏธํฐ ๊ท๋ชจ์ด๊ณ
- A22B(Activated 22B)๋ ํ ๋ฒ์ forward์์ ์ค์ ๋ก ํ์ฑํ๋๋ ํ๋ผ๋ฏธํฐ ๊ท๋ชจ๋ฅผ ์๋ฏธํ๋ค.
์ฆ, 235B ๊ท๋ชจ์ ๋ชจ๋ธ์ด์ง๋ง ๋งค ํ ํฐ๋ง๋ค 235B ์ ์ฒด๋ฅผ ๊ณ์ฐํ์ง๋ ์๋๋ค.
2. ์ Dense ๋ชจ๋ธ๋ง์ผ๋ก๋ ๋ถ์กฑํ๊ฐ?
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๋๋ฆด์๋ก ์ฑ๋ฅ์ด ์ข์์ง๋ ๊ฒฝํฅ์ ๋ณด์ธ๋ค. ๊ทธ๋ฌ๋ Dense ๊ตฌ์กฐ์์๋ ํ๋ผ๋ฏธํฐ ์ ์ฆ๊ฐ๊ฐ ๊ณง๋ฐ๋ก ๊ณ์ฐ๋ ์ฆ๊ฐ๋ก ์ด์ด์ง๋ค. ์ด๋ก ์ธํด ๋ค์๊ณผ ๊ฐ์ ํ๊ณ๊ฐ ๋ฐ์ํ๋ค.
- ํ์ต ๋น์ฉ์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐ
- ์๋น ์ latency์ ๋น์ฉ์ด ์ปค์ง์ง
- ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ์ฒ๋ผ ํ ํฐ ์ ๋ณ๋์ฑ์ด ํฐ ๊ฒฝ์ฐ ๋ถ๋ด์ด ๋์ฑ ์ปค์ง
MoE๋ ์ด๋ฌํ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฑ์ฅํ๋ค. ๊ณ์ฐ ๊ฒฝ๋ก๋ฅผ sparseํ๊ฒ ๋ง๋ค์ด, ๋ชจ๋ธ์ ํฌ์ง๋ง ๊ณ์ฐ์ ๊ฐ๋ณ๊ฒ ๊ฐ์ ธ๊ฐ๋ ๊ฒ์ด ๋ชฉํ์ด๋ค.
3. MoE์ ํต์ฌ ๊ตฌ์ฑ ์์๋ ๋ฌด์์ธ๊ฐ?
MoE ๊ตฌ์กฐ๋ ํฌ๊ฒ ๋ ๊ฐ์ง ๊ตฌ์ฑ ์์๋ก ์ด๋ฃจ์ด์ง๋ค. ์ค์ ๊ณ์ฐ์ ๋ด๋นํ๋ Experts, ๊ทธ๋ฆฌ๊ณ ์ ๋ ฅ์ ๋ฐ๋ผ ๊ณ์ฐ ๊ฒฝ๋ก๋ฅผ ๊ฒฐ์ ํ๋ Router(Gating Network)์ด๋ค.
3.1 Experts
Experts๋ ๋์ผํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ์ฌ๋ฌ ๊ฐ์ ์๋ธ ๋คํธ์ํฌ ์งํฉ์ด๋ค. Transformer ๊ณ์ด ๋ชจ๋ธ์์๋ ์ฃผ๋ก FFN(Feed-Forward Network)์ ์ฌ๋ฌ ๊ฐ ๋ณต์ ํด expert๋ก ์ฌ์ฉํ๋ค.
Dense Transformer์์๋ ํ๋์ FFN์ด ๋ชจ๋ ํ ํฐ์ ์ฒ๋ฆฌํ๋ค. ๋ฐ๋ฉด MoE์์๋ ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ค.
- FFNโ (Expert 1)
- FFNโ (Expert 2)
- …
- FFNโ (Expert N)
๊ฐ expert๋ ๊ตฌ์กฐ์ ์ผ๋ก๋ ๋์ผํ์ง๋ง, ํ๋ผ๋ฏธํฐ๋ ์๋ก ๋ค๋ฅด๋ค. ์ฆ, ์ญํ ๋ถ๋ฆฌ๋ ๊ตฌ์กฐ๊ฐ ์๋๋ผ ํ์ต ๊ณผ์ ์์ ์์ฐ์ค๋ฝ๊ฒ ๋ฐ์ํ๋ค.
ํ์ต์ด ์งํ๋๋ฉด์ ๋ค์๊ณผ ๊ฐ์ ํ์์ด ๊ด์ฐฐ๋๋ค.
- ์ด๋ค expert๋ ๋ฌธ๋ฒ์ ํ ํฐ์ ๊ฐํด์ง๋ค.
- ์ด๋ค expert๋ ํฌ๊ท ๋จ์ด, ๊ณ ์ ๋ช ์ฌ, ํน์ ์คํ์ผ์ ๋ฏผ๊ฐํด์ง๋ค.
- ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์์๋ ์ด๋ฏธ์ง ํ ํฐ์ด๋ ํน์ ์๊ฐ ํจํด์ ๋ ๋ฐ์ํ๋ expert๊ฐ ๋ํ๋๊ธฐ๋ ํ๋ค.
์ค์ํ ์ ์, expert๊ฐ ๋ช ์์ ์ผ๋ก “์ ๋ฌธํ๋๋๋ก” ์ค๊ณํ์ง ์์๋, Router์ ์ ํ๊ณผ gradient ํ๋ฆ์ ์ํด ์๋ฌต์ ์ธ specialization์ด ํ์ฑ๋๋ค๋ ์ ์ด๋ค. ๋ค๋ง, ์ด ์ ๋ฌธํ๋ ๋ณด์ฅ๋ ํน์ฑ์ด ์๋๋ผ ๋ผ์ฐํ ๊ณผ ํ์ต ์์ ์ฑ์ ํฌ๊ฒ ์์กดํ๋ค. ์๋ชป ์ค๊ณํ๋ฉด ์ผ๋ถ expert๋ ๊ฑฐ์ ์ฌ์ฉ๋์ง ์๋ “์ฃฝ์ expert”๊ฐ ๋๊ธฐ๋ ํ๋ค.
3.2 Router(Gating Network): ๊ฒฝ๋ก๋ฅผ ์ ํํ๋ ํ๋จ์
Router๋ MoE ๊ตฌ์กฐ์์ ๊ฐ์ฅ ์ค์ํ ์ญํ ์ ํ๋ ๊ตฌ์ฑ ์์์ด๋ค. Router์ ์ญํ ์ ๋จ์ํ๋ค.
“์ด ํ ํฐ์ ์ด๋ค expert์๊ฒ ๋ณด๋ด์ผ ํ ๊น?”
Router๋ ์ ๋ ฅ ํ ํฐ์ hidden representation์ ๋ฐ์, ๊ฐ expert์ ๋ํด score ๋๋ probability๋ฅผ ์ถ๋ ฅํ๋ค.
- ์ ๋ ฅ: ํ ํฐ์ hidden state
- ์ถ๋ ฅ: ๊ฐ expert์ ๋ํ ์ ํ ์ ์
์ด ์ ์๋ฅผ ๊ธฐ์ค์ผ๋ก Router๋ top-k expert๋ฅผ ์ ํํ๋ค.
- top-1 routing: ๊ฐ์ฅ ์ ์๊ฐ ๋์ expert ํ๋๋ง ์ ํ
- top-2 routing: ์์ ๋ expert๋ฅผ ์ ํํด ๊ฐ์คํฉ
์ด๋ ์ ํ๋์ง ์์ expert๋ ์์ ํ ๊ณ์ฐ์์ ์ ์ธ๋๋ค. ์ฆ, ํ๋ผ๋ฏธํฐ๋ ์กด์ฌํ์ง๋ง ์ฐ์ฐ์ ์ํ๋์ง ์๋๋ค.
์ด ์ง์ ์ด MoE์ ํต์ฌ์ด๋ค. Router๋ ๋จ์ํ “๊ฐ์ค์น๋ฅผ ์๋ ๋ชจ๋”์ด ์๋๋ผ, ํ ํฐ ๋จ์๋ก ๊ณ์ฐ ๊ฒฝ๋ก ์์ฒด๋ฅผ ๊ฒฐ์ ํ๋ ์ ์ด ์ฅ์น์ด๋ค.
4. MoE๋ ์ค์ ๋ก ์ด๋ป๊ฒ ๋์ํ๋๊ฐ?
MoE๋ Transformer ์ธ๋ถ์ ๋ฐ๋ก ๋ถ๋ ๊ตฌ์กฐ๊ฐ ์๋๋ผ, ๊ธฐ์กด Transformer ๋ธ๋ก ๋ด๋ถ์ FFN์ ๋์ฒดํ๋ ๋ฐฉ์์ผ๋ก ๋์ํ๋ค. ์ด๋ฅผ ์ดํดํ๋ ค๋ฉด ๋จผ์ Dense Transformer์ ํ๋ฆ๋ถํฐ ๋ณด๋ ๊ฒ์ด ์ข๋ค.
Dense Transformer๋ Self-Attention, FFN์ผ๋ก ๊ตฌ์ฑ๋๋๋ฐ ์ด๋ ๋ชจ๋ ํ ํฐ์ด ๋์ผํ FFN์ ํต๊ณผํ๊ฒ ๋์ด ํ ํฐ์ ์๋ฏธ์ ๋ฌด๊ดํ๊ฒ ๊ณ์ฐ ๊ฒฝ๋ก๋ ํญ์ ๋์ผํ๋ค.
MoE์์๋ Attention ๊ตฌ์กฐ๋ ๊ทธ๋๋ก ์ ์ง๋๊ณ , FFN ์์น์ ์ฌ๋ฌ ๊ฐ์ expert๊ฐ ๋ฐฐ์น๋ MoE ๋ ์ด์ด๊ฐ ๋ค์ด๊ฐ๋ค.
MoE-FFN ๋ด๋ถ์์๋ ๋ค์๊ณผ ๊ฐ์ ๋จ๊ณ๊ฐ ์ํ๋๋ค.
- ํ ํฐ์ด Self-Attention์ ๊ฑฐ์ณ hidden representation์ ์ป๋๋ค.
- Router๊ฐ ์ด hidden state๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ expert ์ ์๋ฅผ ๊ณ์ฐํ๋ค.
- Router๋ ์ ์๋ฅผ ๊ธฐ์ค์ผ๋ก top-k expert๋ฅผ ์ ํํ๋ค.
- ์ ํ๋ expert๋ง ํด๋น ํ ํฐ์ ๋ํด FFN ๊ณ์ฐ์ ์ํํ๋ค.
- (top-2 ์ด์์ ๊ฒฝ์ฐ) expert ์ถ๋ ฅ๋ค์ ๊ฐ์คํฉํ๋ค.
- ๊ฒฐ๊ณผ๋ฅผ ๋ค์ Transformer ๋ ์ด์ด๋ก ์ ๋ฌํ๋ค.
์ด ๊ณผ์ ์์ ์ ํ๋์ง ์์ expert๋ ์์ ํ ๊ณ์ฐ์์ ์ ์ธ๋๋ค.
Top-1 routing์ ํ ํฐ ํ๋๊ฐ expert ํ๋๋ง ํต๊ณผํ๋ ๊ฒ์ด๊ณ , Top-2 routing์ ํ ํฐ์ด ๋ expert๋ฅผ ํต๊ณผํ๊ณ ๊ฒฐ๊ณผ๋ฅผ weigted sumํ๋ ๋ฐฉ๋ฒ์ด๋ค.
5. MoE์์ ๊ฐ์ฅ ์ค์ํ ์ด์: ๋ผ์ฐํ ๋ถ๊ท ํ
MoE ๊ตฌ์กฐ์์ ๋ฐ๋์ ๋ง์ฃผ์น๋ ๋ฌธ์ ๋ ํน์ expert๋ก ํ ํฐ์ด ๋ชฐ๋ฆฌ๋ ํ์์ด๋ค. ์ด ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ ๋ถ์์ฉ์ด ์๊ธด๋ค.
- ์ผ๋ถ expert๋ง ๊ณผ๋ํ๊ฒ ํ์ต๋๊ณ ๋๋จธ์ง๋ ๊ฑฐ์ ์ฌ์ฉ๋์ง ์๋๋ค.
- ํน์ GPU ๋๋ ๋ ธ๋์ ๋ณ๋ชฉ์ด ๋ฐ์ํ๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ค์ ๊ตฌํ์์๋ ๋ค์๊ณผ ๊ฐ์ ๊ธฐ๋ฒ์ด ์ฌ์ฉ๋๋ค.
- Load balancing loss๋ฅผ ์ถ๊ฐํด expert ์ฌ์ฉ๋์ ๊ท ๋ฑํ๊ฒ ์ ๋ํ๋ค.
- Capacity factor๋ฅผ ๋์ ํด expert๊ฐ ์ฒ๋ฆฌํ ์ ์๋ ํ ํฐ ์๋ฅผ ์ ํํ๋ค.
- Router ๊ตฌ์กฐ ๋ฐ routing ์ ๋ต์ ๊ฐ์ ํ๋ค.
MoE๋ ๋จ์ํ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ ์๋๋ผ, ๋ผ์ฐํ ๊ณผ ์์คํ ์ค๊ณ๋ฅผ ํจ๊ป ๊ณ ๋ คํด์ผ ํ๋ ๊ตฌ์กฐ์ด๋ค.
6. Activated Parameters
MoE ๋ชจ๋ธ์ ์ดํดํ ๋ Total Parameters์ Activated Parameters์ ๊ตฌ๋ถ์ ๋งค์ฐ ์ค์ํ๋ค.
- Total Parameters: ๋ชจ๋ธ์ด ๋ณด์ ํ ์ ์ฒด ํ๋ผ๋ฏธํฐ
- Activated Parameters: ํ ํฐ ํ๋๊ฐ ์ค์ ๋ก ์ฌ์ฉํ๋ ํ๋ผ๋ฏธํฐ
A22B์ ๊ฐ์ ํ๊ธฐ๋ MoE ๋ชจ๋ธ์ ๊ณ์ฐ ํจ์จ์ ์ง๊ด์ ์ผ๋ก ๋ณด์ฌ์ค๋ค. ๋ชจ๋ธ ์ฉ๋๊ณผ ๊ณ์ฐ ๋น์ฉ์ ๋ถ๋ฆฌํด ์ค๋ช ํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
MoE๋ ํ๋ผ๋ฏธํฐ ๋๋น ์ฑ๋ฅ ํจ์จ์ด ๋ฐ์ด๋๊ณ , ๋ชจ๋ธ ์ฉ๋์ ๋น๊ต์ ์ ์ฐํ๊ฒ ํ์ฅํ ์ ์๋ ๊ตฌ์กฐ์ด๋ค. Dense ๋ชจ๋ธ๋ก๋ ๊ฐ๋นํ๊ธฐ ์ด๋ ค์ด ๊ท๋ชจ์ ๋ชจ๋ธ์ ํ์ค์ ์ธ ๊ณ์ฐ ๋น์ฉ ์์์ ํ์ตํ๊ณ ์๋นํ ์ ์๋ค๋ ์ ์์, MoE๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ์ค์ผ์ผ๋ง์ ์ค์ํ ์ ํ์ง๋ก ์๋ฆฌ ์ก์๋ค.
๋ฌผ๋ก ํ์ต๊ณผ ์๋น ์์คํ ์ ๋ณต์ก๋๊ฐ ํฌ๊ฒ ์ฆ๊ฐํ๋ ์น๋ช ์ ์ธ ๋จ์ ์ด ์กด์ฌํ๋ค. ๋ผ์ฐํ ์์ ์ฑ, expert ๊ฐ ๋ถํ ๋ถ๊ท ํ, ๋ถ์ฐ ํ๊ฒฝ์์์ ํต์ ๋น์ฉ ๋ฑ์ MoE ๋ชจ๋ธ์ ์ค์ ๋ก ์ด์ฉํ ๋ ๋ฐ๋์ ํด๊ฒฐํด์ผ ํ ๋์ ๋ค์ด๋ค. ์ด ๋๋ฌธ์ MoE๋ ๋จ์ํ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ ์๋๋ผ, ์์คํ ์ค๊ณ์ ํจ๊ป ๊ณ ๋ ค๋์ด์ผ ํ๋ ๊ธฐ์ ๋ก ํ๊ฐ๋๋ค.
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ Qwen์ ๋น๋กฏํ ์ฌ๋ฌ ๊ธ๋ก๋ฒ ๋ชจ๋ธ๋ค์ด MoE ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ ๊ทน์ ์ผ๋ก ๊ณต๊ฐํ๊ณ ์๋ค๋ ์ ์, ์ด๋ฌํ ๋ณต์ก์ฑ์ ๊ฐ์ํ ๋งํผ์ ์ค์ง์ ์ธ ์ด์ ์ด ์กด์ฌํจ์ ๋ณด์ฌ์ค๋ค.