MoE(Mixture of Experts) ๊ฐœ๋… ์„ค๋ช…: ๊ฑฐ๋Œ€ ๋ชจ๋ธ์„ sparse ๊ณ„์‚ฐ์œผ๋กœ ํ™•์žฅ

2025. 12. 31. 00:12ยท๐Ÿ› Research/Large-scale Model
๋ฐ˜์‘ํ˜•

์š”์ฆ˜ LLM์—์„œ ์ด์•ผ๊ธฐํ•˜๋Š” MoE(Mixture of Experts)๋Š” sparse ๋ผ์šฐํŒ… ๊ธฐ๋ฐ˜์˜ ์กฐ๊ฑด๋ถ€ ์—ฐ์‚ฐ ๊ตฌ์กฐ๋ฅผ ์˜๋ฏธํ•œ๋‹ค. MoE๋Š” ๊ณ ์ „์ ์ธ ์•™์ƒ๋ธ”·๋ชจ๋“ˆ๋Ÿฌ ๋„คํŠธ์›Œํฌ ๊ณ„์—ด๊ณผ๋Š” ๊ตฌ๋ถ„๋˜๋Š” ๊ฐœ๋…์ด๋ฉฐ, ์‹ค์ œ๋กœ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ์Šค์ผ€์ผ๋ง ์ „๋žต์œผ๋กœ ์ •๋ฆฝ๋œ ์‹œ์ ์€ ๋น„๊ต์  ์ตœ๊ทผ์ด๋‹ค.

LLM์—์„œ์˜ MoE๋ฅผ ๋ณธ๊ฒฉ์ ์œผ๋กœ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ๋Œ€ํ‘œ์  ๊ธฐ์ค€์ ์€ ๋‹ค์Œ ๋‘ ์—ฐ๊ตฌ์ด๋‹ค.

  • Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
    ์ด ๋…ผ๋ฌธ์€ ํ† ํฐ๋งˆ๋‹ค top-k expert๋งŒ ํ™œ์„ฑํ™”ํ•˜๋Š” sparsely-gated MoE ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์—์„œ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ œ์–ดํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ์˜ค๋Š˜๋‚  LLM MoE์˜ ๊ตฌ์กฐ์  ์›ํ˜•์— ํ•ด๋‹นํ•œ๋‹ค.
  • Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
    Switch Transformer๋Š” top-1 routing์ด๋ผ๋Š” ๋‹จ์ˆœํ•œ ์„ค๊ณ„๋ฅผ ํ†ตํ•ด MoE๋ฅผ ์‹ค์ œ ์ดˆ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ(์ˆ˜์ฒœ์–ต~์กฐ ๋‹จ์œ„ ํŒŒ๋ผ๋ฏธํ„ฐ)๋กœ ํ™•์žฅ ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆํ–ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์„ ๊ณ„๊ธฐ๋กœ MoE๋Š” "์ด๋ก ์  ์•„์ด๋””์–ด"๊ฐ€ ์•„๋‹ˆ๋ผ ํ˜„์‹ค์ ์ธ LLM ์Šค์ผ€์ผ๋ง ๋ฐฉ๋ฒ•์œผ๋กœ ์ž๋ฆฌ ์žก์•˜๋‹ค.

 

 

1. MoE๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

MoE(Mixture of Experts)๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ „๋ฌธ๊ฐ€(Experts) ์ค‘ ์ผ๋ถ€๋งŒ ์„ ํƒํ•ด ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์กฐ๊ฑด๋ถ€ ์—ฐ์‚ฐ(Conditional Computation) ๊ตฌ์กฐ์ด๋‹ค. ๋ชจ๋ธ์˜ ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋Š” ๋งค์šฐ ํฌ์ง€๋งŒ, ๊ฐ ํ† ํฐ์ด ์‹ค์ œ๋กœ ๊ฑฐ์น˜๋Š” ์—ฐ์‚ฐ ๊ฒฝ๋กœ๋Š” ์ œํ•œ๋œ๋‹ค.

ํ•ต์‹ฌ์€ "MoE๋Š” ๋ชจ๋ธ์˜ ์ด ์šฉ๋Ÿ‰์€ ํ‚ค์šฐ๋˜, ํ† ํฐ๋‹น ๊ณ„์‚ฐ ๋น„์šฉ์€ ์–ต์ œํ•˜๊ธฐ ์œ„ํ•œ ๊ตฌ์กฐ์ด๋‹ค." ๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

 

์˜ˆ๋ฅผ ๋“ค์–ด Qwen3-VL-235B-A22B-Instruct๋ผ๋Š” ํ‘œ๊ธฐ์—์„œ,

  • 235B๋Š” ๋ชจ๋ธ์ด ๋ณด์œ ํ•œ ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ ๊ทœ๋ชจ์ด๊ณ 
  • A22B(Activated 22B)๋Š” ํ•œ ๋ฒˆ์˜ forward์—์„œ ์‹ค์ œ๋กœ ํ™œ์„ฑํ™”๋˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ๊ทœ๋ชจ๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

์ฆ‰, 235B ๊ทœ๋ชจ์˜ ๋ชจ๋ธ์ด์ง€๋งŒ ๋งค ํ† ํฐ๋งˆ๋‹ค 235B ์ „์ฒด๋ฅผ ๊ณ„์‚ฐํ•˜์ง€๋Š” ์•Š๋Š”๋‹ค.

 

2. ์™œ Dense ๋ชจ๋ธ๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•œ๊ฐ€?

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ๋Š˜๋ฆด์ˆ˜๋ก ์„ฑ๋Šฅ์ด ์ข‹์•„์ง€๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์ธ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Dense ๊ตฌ์กฐ์—์„œ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜ ์ฆ๊ฐ€๊ฐ€ ๊ณง๋ฐ”๋กœ ๊ณ„์‚ฐ๋Ÿ‰ ์ฆ๊ฐ€๋กœ ์ด์–ด์ง„๋‹ค. ์ด๋กœ ์ธํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•œ๊ณ„๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

  • ํ•™์Šต ๋น„์šฉ์ด ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€
  • ์„œ๋น™ ์‹œ latency์™€ ๋น„์šฉ์ด ์ปค์ง„์ง
  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ์ฒ˜๋Ÿผ ํ† ํฐ ์ˆ˜ ๋ณ€๋™์„ฑ์ด ํฐ ๊ฒฝ์šฐ ๋ถ€๋‹ด์ด ๋”์šฑ ์ปค์ง

MoE๋Š” ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋“ฑ์žฅํ–ˆ๋‹ค. ๊ณ„์‚ฐ ๊ฒฝ๋กœ๋ฅผ sparseํ•˜๊ฒŒ ๋งŒ๋“ค์–ด, ๋ชจ๋ธ์€ ํฌ์ง€๋งŒ ๊ณ„์‚ฐ์€ ๊ฐ€๋ณ๊ฒŒ ๊ฐ€์ ธ๊ฐ€๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ด๋‹ค.

 

3. MoE์˜ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋Š” ๋ฌด์—‡์ธ๊ฐ€?

MoE ๊ตฌ์กฐ๋Š” ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ๊ตฌ์„ฑ ์š”์†Œ๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค. ์‹ค์ œ ๊ณ„์‚ฐ์„ ๋‹ด๋‹นํ•˜๋Š” Experts, ๊ทธ๋ฆฌ๊ณ  ์ž…๋ ฅ์— ๋”ฐ๋ผ ๊ณ„์‚ฐ ๊ฒฝ๋กœ๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” Router(Gating Network)์ด๋‹ค. 

3.1 Experts

Experts๋Š” ๋™์ผํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง„ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์„œ๋ธŒ ๋„คํŠธ์›Œํฌ ์ง‘ํ•ฉ์ด๋‹ค. Transformer ๊ณ„์—ด ๋ชจ๋ธ์—์„œ๋Š” ์ฃผ๋กœ FFN(Feed-Forward Network)์„ ์—ฌ๋Ÿฌ ๊ฐœ ๋ณต์ œํ•ด expert๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

 

Dense Transformer์—์„œ๋Š” ํ•˜๋‚˜์˜ FFN์ด ๋ชจ๋“  ํ† ํฐ์„ ์ฒ˜๋ฆฌํ•œ๋‹ค. ๋ฐ˜๋ฉด MoE์—์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง„๋‹ค.

  • FFNโ‚ (Expert 1)
  • FFNโ‚‚ (Expert 2)
  • …
  • FFNโ‚™ (Expert N)

๊ฐ expert๋Š” ๊ตฌ์กฐ์ ์œผ๋กœ๋Š” ๋™์ผํ•˜์ง€๋งŒ, ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์„œ๋กœ ๋‹ค๋ฅด๋‹ค. ์ฆ‰, ์—ญํ•  ๋ถ„๋ฆฌ๋Š” ๊ตฌ์กฐ๊ฐ€ ์•„๋‹ˆ๋ผ ํ•™์Šต ๊ณผ์ •์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ฐœ์ƒํ•œ๋‹ค.

ํ•™์Šต์ด ์ง„ํ–‰๋˜๋ฉด์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜„์ƒ์ด ๊ด€์ฐฐ๋œ๋‹ค.

  • ์–ด๋–ค expert๋Š” ๋ฌธ๋ฒ•์  ํ† ํฐ์— ๊ฐ•ํ•ด์ง„๋‹ค.
  • ์–ด๋–ค expert๋Š” ํฌ๊ท€ ๋‹จ์–ด, ๊ณ ์œ ๋ช…์‚ฌ, ํŠน์ • ์Šคํƒ€์ผ์— ๋ฏผ๊ฐํ•ด์ง„๋‹ค.
  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์—์„œ๋Š” ์ด๋ฏธ์ง€ ํ† ํฐ์ด๋‚˜ ํŠน์ • ์‹œ๊ฐ ํŒจํ„ด์— ๋” ๋ฐ˜์‘ํ•˜๋Š” expert๊ฐ€ ๋‚˜ํƒ€๋‚˜๊ธฐ๋„ ํ•œ๋‹ค.

์ค‘์š”ํ•œ ์ ์€, expert๊ฐ€ ๋ช…์‹œ์ ์œผ๋กœ “์ „๋ฌธํ™”๋˜๋„๋ก” ์„ค๊ณ„ํ•˜์ง€ ์•Š์•„๋„, Router์˜ ์„ ํƒ๊ณผ gradient ํ๋ฆ„์— ์˜ํ•ด ์•”๋ฌต์ ์ธ specialization์ด ํ˜•์„ฑ๋œ๋‹ค๋Š” ์ ์ด๋‹ค. ๋‹ค๋งŒ, ์ด ์ „๋ฌธํ™”๋Š” ๋ณด์žฅ๋œ ํŠน์„ฑ์ด ์•„๋‹ˆ๋ผ ๋ผ์šฐํŒ…๊ณผ ํ•™์Šต ์•ˆ์ •์„ฑ์— ํฌ๊ฒŒ ์˜์กดํ•œ๋‹ค. ์ž˜๋ชป ์„ค๊ณ„ํ•˜๋ฉด ์ผ๋ถ€ expert๋Š” ๊ฑฐ์˜ ์‚ฌ์šฉ๋˜์ง€ ์•Š๋Š” “์ฃฝ์€ expert”๊ฐ€ ๋˜๊ธฐ๋„ ํ•œ๋‹ค.

3.2 Router(Gating Network): ๊ฒฝ๋กœ๋ฅผ ์„ ํƒํ•˜๋Š” ํŒ๋‹จ์ž

Router๋Š” MoE ๊ตฌ์กฐ์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋Š” ๊ตฌ์„ฑ ์š”์†Œ์ด๋‹ค. Router์˜ ์—ญํ• ์€ ๋‹จ์ˆœํ•˜๋‹ค.

“์ด ํ† ํฐ์„ ์–ด๋–ค expert์—๊ฒŒ ๋ณด๋‚ด์•ผ ํ• ๊นŒ?”

 

Router๋Š” ์ž…๋ ฅ ํ† ํฐ์˜ hidden representation์„ ๋ฐ›์•„, ๊ฐ expert์— ๋Œ€ํ•ด score ๋˜๋Š” probability๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค.

  • ์ž…๋ ฅ: ํ† ํฐ์˜ hidden state
  • ์ถœ๋ ฅ: ๊ฐ expert์— ๋Œ€ํ•œ ์„ ํƒ ์ ์ˆ˜

์ด ์ ์ˆ˜๋ฅผ ๊ธฐ์ค€์œผ๋กœ Router๋Š” top-k expert๋ฅผ ์„ ํƒํ•œ๋‹ค.

  • top-1 routing: ๊ฐ€์žฅ ์ ์ˆ˜๊ฐ€ ๋†’์€ expert ํ•˜๋‚˜๋งŒ ์„ ํƒ
  • top-2 routing: ์ƒ์œ„ ๋‘ expert๋ฅผ ์„ ํƒํ•ด ๊ฐ€์ค‘ํ•ฉ

์ด๋•Œ ์„ ํƒ๋˜์ง€ ์•Š์€ expert๋Š” ์™„์ „ํžˆ ๊ณ„์‚ฐ์—์„œ ์ œ์™ธ๋œ๋‹ค. ์ฆ‰, ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์กด์žฌํ•˜์ง€๋งŒ ์—ฐ์‚ฐ์€ ์ˆ˜ํ–‰๋˜์ง€ ์•Š๋Š”๋‹ค.

 

์ด ์ง€์ ์ด MoE์˜ ํ•ต์‹ฌ์ด๋‹ค. Router๋Š” ๋‹จ์ˆœํžˆ “๊ฐ€์ค‘์น˜๋ฅผ ์„ž๋Š” ๋ชจ๋“ˆ”์ด ์•„๋‹ˆ๋ผ, ํ† ํฐ ๋‹จ์œ„๋กœ ๊ณ„์‚ฐ ๊ฒฝ๋กœ ์ž์ฒด๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ์ œ์–ด ์žฅ์น˜์ด๋‹ค.

 

4. MoE๋Š” ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ๋™์ž‘ํ•˜๋Š”๊ฐ€?

MoE๋Š” Transformer ์™ธ๋ถ€์— ๋”ฐ๋กœ ๋ถ™๋Š” ๊ตฌ์กฐ๊ฐ€ ์•„๋‹ˆ๋ผ, ๊ธฐ์กด Transformer ๋ธ”๋ก ๋‚ด๋ถ€์˜ FFN์„ ๋Œ€์ฒดํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•œ๋‹ค. ์ด๋ฅผ ์ดํ•ดํ•˜๋ ค๋ฉด ๋จผ์ € Dense Transformer์˜ ํ๋ฆ„๋ถ€ํ„ฐ ๋ณด๋Š” ๊ฒƒ์ด ์ข‹๋‹ค.

 

Dense Transformer๋Š” Self-Attention, FFN์œผ๋กœ ๊ตฌ์„ฑ๋˜๋Š”๋ฐ ์ด๋•Œ ๋ชจ๋“  ํ† ํฐ์ด ๋™์ผํ•œ FFN์„ ํ†ต๊ณผํ•˜๊ฒŒ ๋˜์–ด ํ† ํฐ์˜ ์˜๋ฏธ์— ๋ฌด๊ด€ํ•˜๊ฒŒ ๊ณ„์‚ฐ ๊ฒฝ๋กœ๋Š” ํ•ญ์ƒ ๋™์ผํ•˜๋‹ค.

 

MoE์—์„œ๋Š” Attention ๊ตฌ์กฐ๋Š” ๊ทธ๋Œ€๋กœ ์œ ์ง€๋˜๊ณ , FFN ์œ„์น˜์— ์—ฌ๋Ÿฌ ๊ฐœ์˜ expert๊ฐ€ ๋ฐฐ์น˜๋œ MoE ๋ ˆ์ด์–ด๊ฐ€ ๋“ค์–ด๊ฐ„๋‹ค.

MoE-FFN ๋‚ด๋ถ€์—์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‹จ๊ณ„๊ฐ€ ์ˆ˜ํ–‰๋œ๋‹ค.

  1. ํ† ํฐ์ด Self-Attention์„ ๊ฑฐ์ณ hidden representation์„ ์–ป๋Š”๋‹ค.
  2. Router๊ฐ€ ์ด hidden state๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ expert ์ ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค.
  3. Router๋Š” ์ ์ˆ˜๋ฅผ ๊ธฐ์ค€์œผ๋กœ top-k expert๋ฅผ ์„ ํƒํ•œ๋‹ค.
  4. ์„ ํƒ๋œ expert๋งŒ ํ•ด๋‹น ํ† ํฐ์— ๋Œ€ํ•ด FFN ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.
  5. (top-2 ์ด์ƒ์˜ ๊ฒฝ์šฐ) expert ์ถœ๋ ฅ๋“ค์„ ๊ฐ€์ค‘ํ•ฉํ•œ๋‹ค.
  6. ๊ฒฐ๊ณผ๋ฅผ ๋‹ค์Œ Transformer ๋ ˆ์ด์–ด๋กœ ์ „๋‹ฌํ•œ๋‹ค.

์ด ๊ณผ์ •์—์„œ ์„ ํƒ๋˜์ง€ ์•Š์€ expert๋Š” ์™„์ „ํžˆ ๊ณ„์‚ฐ์—์„œ ์ œ์™ธ๋œ๋‹ค.

Top-1 routing์€ ํ† ํฐ ํ•˜๋‚˜๊ฐ€ expert ํ•˜๋‚˜๋งŒ ํ†ต๊ณผํ•˜๋Š” ๊ฒƒ์ด๊ณ , Top-2 routing์€ ํ† ํฐ์ด ๋‘ expert๋ฅผ ํ†ต๊ณผํ•˜๊ณ  ๊ฒฐ๊ณผ๋ฅผ weigted sumํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

 

5. MoE์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์ด์Šˆ: ๋ผ์šฐํŒ… ๋ถˆ๊ท ํ˜•

MoE ๊ตฌ์กฐ์—์„œ ๋ฐ˜๋“œ์‹œ ๋งˆ์ฃผ์น˜๋Š” ๋ฌธ์ œ๋Š” ํŠน์ • expert๋กœ ํ† ํฐ์ด ๋ชฐ๋ฆฌ๋Š” ํ˜„์ƒ์ด๋‹ค. ์ด ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ถ€์ž‘์šฉ์ด ์ƒ๊ธด๋‹ค.

  • ์ผ๋ถ€ expert๋งŒ ๊ณผ๋„ํ•˜๊ฒŒ ํ•™์Šต๋˜๊ณ  ๋‚˜๋จธ์ง€๋Š” ๊ฑฐ์˜ ์‚ฌ์šฉ๋˜์ง€ ์•Š๋Š”๋‹ค.
  • ํŠน์ • GPU ๋˜๋Š” ๋…ธ๋“œ์— ๋ณ‘๋ชฉ์ด ๋ฐœ์ƒํ•œ๋‹ค.

์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์‹ค์ œ ๊ตฌํ˜„์—์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ธฐ๋ฒ•์ด ์‚ฌ์šฉ๋œ๋‹ค.

  • Load balancing loss๋ฅผ ์ถ”๊ฐ€ํ•ด expert ์‚ฌ์šฉ๋Ÿ‰์„ ๊ท ๋“ฑํ•˜๊ฒŒ ์œ ๋„ํ•œ๋‹ค.
  • Capacity factor๋ฅผ ๋„์ž…ํ•ด expert๊ฐ€ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ํ† ํฐ ์ˆ˜๋ฅผ ์ œํ•œํ•œ๋‹ค.
  • Router ๊ตฌ์กฐ ๋ฐ routing ์ „๋žต์„ ๊ฐœ์„ ํ•œ๋‹ค.

MoE๋Š” ๋‹จ์ˆœํ•œ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ€ ์•„๋‹ˆ๋ผ, ๋ผ์šฐํŒ…๊ณผ ์‹œ์Šคํ…œ ์„ค๊ณ„๋ฅผ ํ•จ๊ป˜ ๊ณ ๋ คํ•ด์•ผ ํ•˜๋Š” ๊ตฌ์กฐ์ด๋‹ค.

 

6. Activated Parameters

MoE ๋ชจ๋ธ์„ ์ดํ•ดํ•  ๋•Œ Total Parameters์™€ Activated Parameters์˜ ๊ตฌ๋ถ„์€ ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค.

  • Total Parameters: ๋ชจ๋ธ์ด ๋ณด์œ ํ•œ ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ
  • Activated Parameters: ํ† ํฐ ํ•˜๋‚˜๊ฐ€ ์‹ค์ œ๋กœ ์‚ฌ์šฉํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ

A22B์™€ ๊ฐ™์€ ํ‘œ๊ธฐ๋Š” MoE ๋ชจ๋ธ์˜ ๊ณ„์‚ฐ ํšจ์œจ์„ ์ง๊ด€์ ์œผ๋กœ ๋ณด์—ฌ์ค€๋‹ค. ๋ชจ๋ธ ์šฉ๋Ÿ‰๊ณผ ๊ณ„์‚ฐ ๋น„์šฉ์„ ๋ถ„๋ฆฌํ•ด ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.


MoE๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ๋Œ€๋น„ ์„ฑ๋Šฅ ํšจ์œจ์ด ๋›ฐ์–ด๋‚˜๊ณ , ๋ชจ๋ธ ์šฉ๋Ÿ‰์„ ๋น„๊ต์  ์œ ์—ฐํ•˜๊ฒŒ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐ์ด๋‹ค. Dense ๋ชจ๋ธ๋กœ๋Š” ๊ฐ๋‹นํ•˜๊ธฐ ์–ด๋ ค์šด ๊ทœ๋ชจ์˜ ๋ชจ๋ธ์„ ํ˜„์‹ค์ ์ธ ๊ณ„์‚ฐ ๋น„์šฉ ์•ˆ์—์„œ ํ•™์Šตํ•˜๊ณ  ์„œ๋น™ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์—์„œ, MoE๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ์Šค์ผ€์ผ๋ง์˜ ์ค‘์š”ํ•œ ์„ ํƒ์ง€๋กœ ์ž๋ฆฌ ์žก์•˜๋‹ค.

 

๋ฌผ๋ก  ํ•™์Šต๊ณผ ์„œ๋น™ ์‹œ์Šคํ…œ์˜ ๋ณต์žก๋„๊ฐ€ ํฌ๊ฒŒ ์ฆ๊ฐ€ํ•˜๋Š” ์น˜๋ช…์ ์ธ ๋‹จ์ ์ด ์กด์žฌํ•œ๋‹ค. ๋ผ์šฐํŒ… ์•ˆ์ •์„ฑ, expert ๊ฐ„ ๋ถ€ํ•˜ ๋ถˆ๊ท ํ˜•, ๋ถ„์‚ฐ ํ™˜๊ฒฝ์—์„œ์˜ ํ†ต์‹  ๋น„์šฉ ๋“ฑ์€ MoE ๋ชจ๋ธ์„ ์‹ค์ œ๋กœ ์šด์šฉํ•  ๋•Œ ๋ฐ˜๋“œ์‹œ ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๋‚œ์ œ๋“ค์ด๋‹ค. ์ด ๋•Œ๋ฌธ์— MoE๋Š” ๋‹จ์ˆœํ•œ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ€ ์•„๋‹ˆ๋ผ, ์‹œ์Šคํ…œ ์„ค๊ณ„์™€ ํ•จ๊ป˜ ๊ณ ๋ ค๋˜์–ด์•ผ ํ•˜๋Š” ๊ธฐ์ˆ ๋กœ ํ‰๊ฐ€๋œ๋‹ค.

 

๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  Qwen์„ ๋น„๋กฏํ•œ ์—ฌ๋Ÿฌ ๊ธ€๋กœ๋ฒŒ ๋ชจ๋ธ๋“ค์ด MoE ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ์ ๊ทน์ ์œผ๋กœ ๊ณต๊ฐœํ•˜๊ณ  ์žˆ๋‹ค๋Š” ์ ์€, ์ด๋Ÿฌํ•œ ๋ณต์žก์„ฑ์„ ๊ฐ์ˆ˜ํ•  ๋งŒํผ์˜ ์‹ค์งˆ์ ์ธ ์ด์ ์ด ์กด์žฌํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

 

๋ฐ˜์‘ํ˜•

'๐Ÿ› Research > Large-scale Model' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[NLP] ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ ์„ค๋ช… | Huggingface sentence-transformers, OpenAI  (0) 2025.05.13
[AI/LLM] Transformer์˜ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋” ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ  (0) 2024.11.06
[AI/LLM] Transformer Attention ์ดํ•ดํ•˜๊ธฐ: Q, K, V์˜ ์—ญํ• ๊ณผ ๋™์ž‘ ์›๋ฆฌ  (0) 2024.11.06
LLM ํ”„๋กฌํ”„ํŠธ ์—”๋‹ˆ์ง€์–ด๋ง, ๊ทธ๊ฒŒ ๋Œ€์ฒด ๋ญ”๋ฐ? ๋‚˜๋„ ์•Œ์•„์•ผํ•ด!?  (2) 2024.07.26
[NLP] BERT ๊ฐ„๋‹จ ์„ค๋ช… | Bi-Directional LM | ์–‘๋ฐฉํ–ฅ ์–ธ์–ด ๋ชจ๋ธ  (0) 2023.09.25
'๐Ÿ› Research/Large-scale Model' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€
  • [NLP] ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ ์„ค๋ช… | Huggingface sentence-transformers, OpenAI
  • [AI/LLM] Transformer์˜ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋” ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ
  • [AI/LLM] Transformer Attention ์ดํ•ดํ•˜๊ธฐ: Q, K, V์˜ ์—ญํ• ๊ณผ ๋™์ž‘ ์›๋ฆฌ
  • LLM ํ”„๋กฌํ”„ํŠธ ์—”๋‹ˆ์ง€์–ด๋ง, ๊ทธ๊ฒŒ ๋Œ€์ฒด ๋ญ”๋ฐ? ๋‚˜๋„ ์•Œ์•„์•ผํ•ด!?
๋ญ…์ฆค
๋ญ…์ฆค
AI ๊ธฐ์ˆ  ๋ธ”๋กœ๊ทธ
    ๋ฐ˜์‘ํ˜•
  • ๋ญ…์ฆค
    moovzi’s Doodle
    ๋ญ…์ฆค
  • ์ „์ฒด
    ์˜ค๋Š˜
    ์–ด์ œ
  • ๊ณต์ง€์‚ฌํ•ญ

    • โœจ About Me
    • ๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ (213)
      • ๐Ÿ“– Fundamentals (34)
        • Computer Vision (9)
        • 3D vision & Graphics (6)
        • AI & ML (16)
        • NLP (2)
        • etc. (1)
      • ๐Ÿ› Research (75)
        • Deep Learning (7)
        • Perception (19)
        • OCR (7)
        • Multi-modal (5)
        • Image•Video Generation (18)
        • 3D Vision (4)
        • Material • Texture Recognit.. (8)
        • Large-scale Model (7)
        • etc. (0)
      • ๐Ÿ› ๏ธ Engineering (8)
        • Distributed Training & Infe.. (5)
        • AI & ML ์ธ์‚ฌ์ดํŠธ (3)
      • ๐Ÿ’ป Programming (92)
        • Python (18)
        • Computer Vision (12)
        • LLM (4)
        • AI & ML (18)
        • Database (3)
        • Distributed Computing (6)
        • Apache Airflow (6)
        • Docker & Kubernetes (14)
        • ์ฝ”๋”ฉ ํ…Œ์ŠคํŠธ (4)
        • C++ (1)
        • etc. (6)
      • ๐Ÿ’ฌ ETC (4)
        • ์ฑ… ๋ฆฌ๋ทฐ (4)
  • ๋งํฌ

    • ๋ฆฌํ‹€๋ฆฌ ํ”„๋กœํ•„ (๋ฉ˜ํ† ๋ง, ๋ฉด์ ‘์ฑ…,...)
    • ใ€Ž๋‚˜๋Š” AI ์—”์ง€๋‹ˆ์–ด์ž…๋‹ˆ๋‹คใ€
    • Instagram
    • Brunch
    • Github
  • ์ธ๊ธฐ ๊ธ€

  • ์ตœ๊ทผ ๋Œ“๊ธ€

  • ์ตœ๊ทผ ๊ธ€

  • hELLOยท Designed By์ •์ƒ์šฐ.v4.10.3
๋ญ…์ฆค
MoE(Mixture of Experts) ๊ฐœ๋… ์„ค๋ช…: ๊ฑฐ๋Œ€ ๋ชจ๋ธ์„ sparse ๊ณ„์‚ฐ์œผ๋กœ ํ™•์žฅ
์ƒ๋‹จ์œผ๋กœ

ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”