์ค๋์ Video Generation ๋ถ์ผ์์ ์ ๋ช ํ HunyanVideo ์ ๋ํด ์ดํด๋ณด๊ณ ์ ํ๋ค.
1. ๊ฐ์

HunyuanVideo๋ ๋๊ท๋ชจ ํ ์คํธ-๋น๋์ค ์์ฑ ์คํ์์ค ๋ชจ๋ธ๋ก, ๊ณ ํด์๋·์ฅ๋ฉด ์ผ๊ด์ฑ·๋ชจ์ ์์ฐ์ค๋ฌ์·ํ๋กฌํํธ ์ถฉ์ค๋ ๋ฑ์ ๋์์ ๋ฌ์ฑํ๊ธฐ ์ํด ์ค๊ณ๋ ๋ฉํฐ์ค์ผ์ผ ๋น๋์ค ์์ฑ ์์คํ ์ด๋ค. ๋ ผ๋ฌธ์์๋ ๋ค์ ์ธ ๊ฐ์ง๋ฅผ ํต์ฌ ๋ชฉํ๋ก ์ผ๋๋ค.
- ๊ณ ํด์๋·๊ณ ํ์ง ๋น๋์ค ์์ฑ (1080p+)
- ์ฅ๋ฉด·์๊ฐ์ ์ผ๊ด์ฑ ๊ฐํ
- ๋ณต์กํ ์ฅ๋ฉด ๊ตฌ์ฑ ๋ฐ ์์ธ ๋ฌ์ฌ ๋ฅ๋ ฅ ๊ฐํ
์ด๋ฅผ ์ํด ์ด๋ฏธ์ง ๊ธฐ๋ฐ diffusion ๋ชจ๋ธ์ ํ์ฅํ๋ ๋ฐฉ์์ด ์๋๋ผ, ๋น๋์ค๋ฅผ ์ง์ ๋ค๋ฃจ๋ ์ ์ฉ Temporal-DiT ๊ตฌ์กฐ๋ฅผ ์ฑํํ๋ค.
2. Data Pre-processing

HunyuanVideo๋ ๋๊ท๋ชจ·๊ณ ํ์ง ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด ๋น๋์ค ์ ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ์ ๋งค์ฐ ๊น๋ค๋กญ๊ฒ ์ค๊ณํ๋ค. ๋จ์ํ ์น์์ ๋น๋์ค๋ฅผ ์์งํด ํ์ตํ๋ ๋ฐฉ์์ด ์๋๋ผ, ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ์คํ๋ ์ ๊ตํ ๋ฐ์ดํฐ ์ ์ ๋จ๊ณ๋ฅผ ์ํํ๋ค. ์ ์ฒ๋ฆฌ ๋จ๊ณ๋ ํฌ๊ฒ 5๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ค.
2.1 ํด๋ฆฝ ๋ถํ (Clip Segmentation)
- ์น ๋น๋์ค๋ฅผ ์ผ์ ๊ธธ์ด(์: 2~8์ด) ๋จ์๋ก ์๋ผ clip์ ๋ง๋ ๋ค.
- ๋๋ฌด ์งง๊ฑฐ๋(์์ฃผ ์งง์ ์ ์ ์ฅ๋ฉด), ๋๋ฌด ๊ธด ์์์ ์ ์ธํ๋ค.
2.2 ์์ ํ์ง ํํฐ๋ง (Quality Filtering)
๋ค์ํ VLM ๊ธฐ๋ฐ ํํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต์ ๋ถํ์ํ ํด๋ฆฝ์ ์ ๊ฑฐํ๋ค.
- ํด์๋ ๋ฎ์, ๋ ธ์ด์ฆ ์ฌํจ
- ์ง๋์น๊ฒ ํ๋ค๋ฆฌ๋ ์์
- ํ๋ฉด ๊ฑฐ์ ์ ์ (motionless)
- ์ ๋ณด๊ฐ ์๋ ๋ฐฐ๊ฒฝ ์์
- ์๋ง/์ํฐ๋งํฌ๊ฐ ๊ณผ๋ํ๊ฒ ํฌํจ๋ ๊ฒฝ์ฐ
์ ์ฒ๋ฆฌ ํํฐ๋ Qwen-VL, CLIP scoring, motion scoring ๋ฑ์ ์กฐํฉํด ๊ตฌ์ฑ๋๋ค.
2.3 ๋ชจ์ ๋ถ์ (Motion & Dynamics Filtering)
๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ๋์ ์ ๋ณด๊ฐ ํต์ฌ์ด๋ฏ๋ก, ๋๋ฌด ์ ์ ์ธ ๋น๋์ค๋ ํ์ต์ ๋์์ด ๋์ง ์๋๋ค.
- Optical Flow ๊ธฐ๋ฐ motion intensity ์ธก์
- ๋๋ฌด ์ ์ ์ธ ์์์ ์ ์ธ
- ๋๋ฌด ๋น ๋ฅด๊ฒ ์์ง์ฌ ๋ชจ์ blur๊ฐ ์ฌํ ์์๋ ์ ์ธ
2.4 ์ฅ๋ฉด ์์ ์ฑ ๋ถ์ (Scene Stability)
๋น๋์ค ๋ด๋ถ์์ ์ฅ๋ฉด์ด ๊ณผ๋ํ๊ฒ ํ๋ ๊ฒฝ์ฐ(์ฌ ์ปท, ์ ํ์ปท)๋ ์๊ฐ ์ผ๊ด์ฑ ํ์ต์ ๋ฐฉํด๋๋ค.
- Shot detection ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ปท ์์น ํ์ง
- ํ๋์ clip ์์ ์ปท์ด ์ฌ๋ฌ ๋ฒ ๋ฐ์ํ๋ฉด ํด๋น clip ์ ๊ฑฐ
2.5 ํ ์คํธ Caption ์์ฑ (MLLM Captioning)
์ด ๋จ๊ณ๊ฐ ๋งค์ฐ ์ค์ํ๋ค. ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ์ ํํ ํ ์คํธ ์กฐ๊ฑด์ด ์์ด์ผ ํ์ต์ด ์์ ํ๋๋ค.
- Qwen2-VL ๊ธฐ๋ฐ MLLM์ผ๋ก ์์ธ ๋น๋์ค ์บก์ ์์ฑ
- ์ฅ๋ฉด ์ ๋ณด + ๊ฐ์ฒด + ๋์ + ์นด๋ฉ๋ผ ์์ ๊น์ง ๋ชจ๋ ๊ธฐ์ ํ๋๋ก ์์คํ ํ๋กฌํํธ ์ฌ์ฉ
"A brown dog running along a beach while the camera slowly follows from behind. Waves move softly in the background."
์ด๋ ๊ฒ ๊ณ ํ์ง ์บก์ ์ ์์ฑํ์ฌ ํ๋กฌํํธ ์ถฉ์ค๋๋ฅผ ๊ทน๋ํํ๋ค.
3. ๋ชจ๋ธ ์ํคํ ์ฒ


HunyuanVideo์ ๋ชจ๋ธ ์ํคํ ์ฒ๋ ํฌ๊ฒ ์ธ ๋ถ๋ถ์ผ๋ก ๋๋๋ค.
- Causal 3D VAE: ๋น๋์ค/์ด๋ฏธ์ง๋ฅผ ์๊ณต๊ฐ(latent) ๊ณต๊ฐ์ผ๋ก ์์ถํ๋ ๋ชจ๋
- Diffusion Backbone (Video DiT): 3D latent ์์์ ๋น๋์ค๋ฅผ ์์ฑํ๋ Transformer
- Text Encoder(MLLM + CLIP): ํ๋ถํ ํ ์คํธ ์กฐ๊ฑด์ ์์ฑํ๋ ๋ชจ๋
์ด ์ธ ๋ชจ๋์ด ํฉ์ณ์ ธ "ํ ์คํธ → 3D latent ๋น๋์ค → ํฝ์ ๋น๋์ค"๋ก ์ด์ด์ง๋ end-to-end ์์ฑ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ฑํ๋ค.
3.1 Causal 3D VAE

๋ค๋ฅธ ๋น๋์ค ๋ชจ๋ธ๋ค์ ์ข ์ข ์ด๋ฏธ์ง VAE๋ฅผ ๋จผ์ ํ์ตํ ๋ค, ์๊ฐ ์ถ์ ์น๋ ๋ฐฉ์์ ์ฌ์ฉํ์ง๋ง, HunyuanVideo๋ ์์ ๋น๋์ค ์ ์ฉ 3D VAE๋ฅผ ์ฒ์๋ถํฐ ๋ฐ๋ก ํ์ตํ๋ ๋ฐฉ์์ ์ฑํํ๋ค. ์ด ๋ชจ๋์ ๋ชฉ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ๊ณ ํด์๋ ๋น๋์ค๋ฅผ ์๊ณต๊ฐ์ ๋ชจ๋ ์์ถํ latent ๊ณต๊ฐ์ผ๋ก ๋ณํ
- ์ดํ Diffusion Transformer๊ฐ ์ฒ๋ฆฌํด์ผ ํ ํ ํฐ ์๋ฅผ ํฌ๊ฒ ์ค์ฌ ํ์ต·์ถ๋ก ์ ๊ฐ๋ฅํ๊ฒ ํจ

์์ถ ๋ฐฉ์
์ ๋ ฅ ๋น๋์ค์ ํฌ๊ธฐ๋ฅผ (T+1)×3×H×W๋ผ๊ณ ํ๋ฉด, 3D VAE๋ CausalConv3D๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ ์ฉํด ๋ค์๊ณผ ๊ฐ์ latent๋ฅผ ์ถ๋ ฅํ๋ค.
- ์ถ๋ ฅ ํฌ๊ธฐ: ((T/ct)+1) × C × (H/cs) × (W/cs)
- ๋ ผ๋ฌธ ๊ธฐ๋ณธ ์ค์ : ct = 4, cs = 8, C = 16
์ฆ, ์๊ฐ์ถ์ 4๋ฐฐ, ๊ณต๊ฐ์ถ์ 8๋ฐฐ ์ค์ด๊ณ ์ฑ๋์ 16์ผ๋ก ํ์ฅํ ํํ์ ์๊ณต๊ฐ latent๋ก ๋ณํํ๋ ๊ตฌ์กฐ์ด๋ค. ์ด๋ก ์ธํด 1080p ๋น๋์ค๋ผ๋ latent ์์์๋ ํจ์ฌ ์์ ํฌ๊ธฐ๋ก ์ฒ๋ฆฌํ ์ ์๋ค.
CausalConv3D๋ฅผ ์ฐ๋ ์ด์
- ๋น๋์ค์ ์๊ฐ ์์๋ฅผ ๋ณด์กดํ๋ฉด์๋ ํจ์จ์ ์ผ๋ก ์ธ์ฝ๋ฉํ๊ธฐ ์ํจ์ด๋ค.
- Causal ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํด "ํ์ฌ ํ๋ ์์ ๊ณผ๊ฑฐ ํ๋ ์๋ง ์ฐธ๊ณ "ํ๋๋ก ์ค๊ณํ์ฌ, ํฅํ autoregressive ํ์ฅ์ด๋ ์จ๋ผ์ธ ์ฒ๋ฆฌ์๋ ์ ๋ฆฌํ๋ค.
ํ์ต ์ ํน์ง
- ์ด๋ฏธ์ง์ ๋น๋์ค๋ฅผ 4:1 ๋น์จ๋ก ์์ด ํ์ตํ์ฌ, ์ ์ ์ด๋ฏธ์ง์ ๋์ ๋น๋์ค ๋ชจ๋ ์ ์ฌ๊ตฌ์ฑํ๋๋ก ํ๋ค.
- L1, KL loss๋ฟ ์๋๋ผ LPIPS(perceptual loss), GAN loss๋ฅผ ํจ๊ป ์ฌ์ฉํ์ฌ ์๊ฐ์ ํ์ง์ ๋์ด์ฌ๋ฆฐ๋ค.
- ๊ณ ์ ๋ชจ์ ๋น๋์ค ์ฌ๊ตฌ์ฑ์ ์ํด ํ๋ ์ ๊ฐ ๊ฐ๊ฒฉ์ ๋๋ค ์ํ๋งํ๋ ์ ๋ต์ ์ฌ์ฉํ๋ค.
์ด๋ ๊ฒ ํ์ต๋ 3D VAE๋ ์ดํ Diffusion ๋จ๊ณ์์ "์ ๋ ฅ/์ถ๋ ฅ ๋น๋์ค๋ฅผ ์ค๊ฐ ์ ์๋ ์์ถ ํํ ๊ณต๊ฐ"์ผ๋ก ์ฌ์ฉ๋๋ค.
3.2 Unified Image & Video Diffusion Backbone (Video DiT)

HunyuanVideo์ ํต์ฌ์ ์ด๋ฏธ์ง์ ๋น๋์ค๋ฅผ ํ๋์ ํตํฉ Transformer(DiT)๋ก ์ฒ๋ฆฌํ๋ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ "Unified Image and Video Generative Architecture"๋ผ๊ณ ๋ถ๋ฅธ๋ค.
์ ๋ ฅ ๊ตฌ์ฑ
- ๋น๋์ค/์ด๋ฏธ์ง latent
- 3D VAE๋ฅผ ๊ฑฐ์น latent: T×C×H×W
- ์ด๋ฏธ์ง๋ "ํ๋ ์์ด 1๊ฐ์ธ ๋น๋์ค"๋ก ์ทจ๊ธํ์ฌ ๋์ผํ ํฌ๋งท์ผ๋ก ์ฒ๋ฆฌํ๋ค.
- ํ
์คํธ ์กฐ๊ฑด(hidden states)
- MLLM(Hunyuan-Large ๊ณ์ด)๋ก ํ ์คํธ๋ฅผ ์ธ์ฝ๋ฉํ ํ ํฐ ์ํ์ค
- CLIP text encoder์์ ์ถ์ถํ global text embedding (๋ง์ง๋ง ํ ํฐ)๋ ํจ๊ป ์ฌ์ฉํ์ฌ ์ ์ญ์ ์ธ ์๋ฏธ๋ฅผ ๋ณด๊ฐํ๋ค.
- ๋
ธ์ด์ฆ ๋ฐ ์๊ฐ ์คํ
์ ๋ณด
- Rectified Flow ๊ธฐ๋ฐ diffusion์ด๋ฏ๋ก time step t์ ํด๋นํ๋ ์กฐ๊ฑด์ด ํฌํจ๋๋ค.
3D Patchification
๋น๋์ค latent๋ 3D Conv(์ปค๋ ํฌ๊ธฐ kt×kh×kw)๋ฅผ ํตํด ์๊ณต๊ฐ ํจ์น ํ ํฐ์ผ๋ก ๋ณํ๋๋ค.
- ํ ํฐ ๊ฐ์: (T/kt) × (H/kh) × (W/kw)
- ๊ฐ ํ ํฐ์ (kt×kh×kw×C) ์ฐจ์์ ๋ฒกํฐ๋ก flatten๋๋ค.
์ด๋ ๊ฒ ๋๋ฉด ์ต์ข ์ ์ผ๋ก "๋น๋์ค ์ ์ฒด๊ฐ 1D ํ ํฐ ์ํ์ค"๋ก ํผ์ณ์ ธ Transformer์ ์ ๋ ฅ๋๋ค.
3.3 Full Spatio-temporal Attention + Dual/Single Stream ๊ตฌ์กฐ
๊ธฐ์กด ๋น๋์ค Diffusion ๋ชจ๋ธ(Open-Sora, Imagen Video, MagicVideo ๋ฑ)์ ์ฃผ๋ก ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํด์๋ค.
- 2D ๊ณต๊ฐ U-Net + 1D Temporal block
- ๋๋ ๊ณต๊ฐ/์๊ฐ์ ๋ถ๋ฆฌํ factorized attention (2D + 1D)
์ด ๋ฐฉ์์ ์ฐ์ฐ๋์ ์ค์ด๋ ์ฅ์ ์ ์์ง๋ง, ๊ณต๊ฐ·์๊ฐ ์ํธ์์ฉ์ ์ถฉ๋ถํ ๋ชจ๋ธ๋งํ๊ธฐ ์ด๋ ต๊ณ , ์ฅ๋ฉด·์นด๋ฉ๋ผ ๋ชจ์ ์ผ๊ด์ฑ์ด ๋จ์ด์ง๋ ๋ฌธ์ ๊ฐ ์๋ค.
HunyuanVideo๋ FLUX์์ ์ฌ์ฉํ ๊ฒ๊ณผ ์ ์ฌํ Dual-flow Attention ๋ธ๋ก์ ๋น๋์ค ์์ญ์ผ๋ก ํ์ฅํ๊ณ , ๊ณต๊ฐ·์๊ฐ์ ์์ ํ ํตํฉํ Full Attention Transformer๋ฅผ ์ฌ์ฉํ๋ค.
Dual-stream → Single-stream
- Dual-stream ๋จ๊ณ
- ์์ ํ ํฐ๊ณผ ํ ์คํธ ํ ํฐ์ ์๋ก ๋ค๋ฅธ ์คํธ๋ฆผ์์ ๊ฐ๊ฐ ์ฒ๋ฆฌ
- ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ ์๊ธฐ ํํ์ ์ถฉ๋ถํ ํ์ตํ๋๋ก ๋๋ ๋จ๊ณ
- Single-stream ๋จ๊ณ
- ์ดํ ๋ ์คํธ๋ฆผ์ ํ ํฐ์ concatํ์ฌ ํ๋์ Transformer์ ๋ฃ์ด ๋ฉํฐ๋ชจ๋ฌ joint attention์ ์ํ
- ์ด ๋จ๊ณ์์ ํ ์คํธ ์กฐ๊ฑด๊ณผ ๋น๋์ค latent๊ฐ ๊น๊ฒ ์ตํฉ
์ด ๊ตฌ์กฐ ๋๋ถ์, ์ด๊ธฐ์๋ ๋น์ -ํ ์คํธ ํํ์ด ์๋ก ๊ฐ์ญ ์์ด ์์ ์ ์ผ๋ก ํ์ต๋๊ณ , ํ๋ฐ์๋ ๋ณต์กํ ๋ฉํฐ๋ชจ๋ฌ ์ํธ์์ฉ์ ํฌ์ฐฉํ ์ ์๋ค.
Full Spatio-temporal Attention์ ํน์ง
- ํ ํฐ ๊ฐ self-attention์ด ์๊ฐ·๊ณต๊ฐ์ ๊ฐ๋ฆฌ์ง ์๊ณ ์ ๋ฒ์์์ ๊ณ์ฐ๋๋ค.
- ํน์ ํ๋ ์์ ๊ฐ์ฒด๋ ๋ค๋ฅธ ํ๋ ์์ ๊ฐ์ ๊ฐ์ฒด์ ์ง์ attention์ ์ฃผ๊ณ ๋ฐ์ ์ ์๋ค.
- ๊ฒฐ๊ณผ์ ์ผ๋ก ๋์ ํํ ์ ์ง, ๋ชจ์ ์ผ๊ด์ฑ, ์นด๋ฉ๋ผ ์์ง์ ํํ์ด ์ด์ 2D+1D ๊ตฌ์กฐ๋ณด๋ค ์ฐ์ํ๋ค.
3.4 3D RoPE: ์๊ฐ·๊ณต๊ฐ์ ๋์์ ์ธ์ฝ๋ฉํ๋ ํฌ์ง์ ์๋ฒ ๋ฉ
๋น๋์ค๋ ์๊ฐ T, ์ธ๋ก H, ๊ฐ๋ก W๋ผ๋ ์ธ ์ฐจ์์ ์์น ์ ๋ณด๋ฅผ ๋ชจ๋ ํ์๋ก ํ๋ค. HunyuanVideo๋ ์ด๋ฅผ ์ํด 3D ํ์ฅ RoPE(Rotary Position Embedding)์ ์ฌ์ฉํ๋ค.
- RoPE๋ฅผ ์๊ฐ T, ๋์ด H, ๋๋น W ์ถ์ ๋ํด ๊ฐ๊ฐ ๊ณ์ฐํ๋ค.
- query/key ์ฑ๋์ (dt, dh, dw) ์ธ ๋ฉ์ด๋ฆฌ๋ก ๋๋ ๋ค, ๊ฐ ๋ฉ์ด๋ฆฌ์ ๋์ํ๋ ์ถ์ RoPE๋ฅผ ๊ณฑํ๋ค.
- ์ดํ ๋ค์ concatํ์ฌ ์ต์ข query/key๋ฅผ ๊ตฌ์ฑํ๊ณ attention์ ๊ณ์ฐํ๋ค.
์ด ๋ฐฉ์์ ๋ค์๊ณผ ๊ฐ์ ์ฅ์ ์ ์ ๊ณตํ๋ค.
- ๋ค์ํ ํด์๋·๋น์จ·๊ธธ์ด์ ๋น๋์ค๋ฅผ ํ๋์ ๋ชจ๋ธ๋ก ์ฒ๋ฆฌ ๊ฐ๋ฅ
- ์๊ฐ ์ถ extrapolation ๋ฅ๋ ฅ์ด ํฅ์๋์ด ๋ ๊ธด ๋น๋์ค์๋ ์ผ๋ฐํ ๊ฐ๋ฅ
- ๊ณต๊ฐ·์๊ฐ ๊ด๊ณ๋ฅผ ๋ ์์ฐ์ค๋ฝ๊ฒ ํ์ต
3.5 ํ ์คํธ ์ธ์ฝ๋: MLLM + Bidirectional Refiner + CLIP

HunyuanVideo๋ ๋จ์ํ CLIP text encoder๋ T5 ๊ณ์ด์ด ์๋๋ผ, visual instruction ํ์ต์ด ๋๋ ๋ฉํฐ๋ชจ๋ฌ LLM(MLLM)์ ํ ์คํธ ์ธ์ฝ๋๋ก ์ฌ์ฉํ๋ค. ์ด ์ ํ์ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- MLLM์ ์๊ฐ์ ๋ฌธ๋งฅ์ ๋ง์ถ ์ธ๋ฐํ ์ค๋ช ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์์ด, ๋น๋์ค ํ๋กฌํํธ์ ์์ฃผ ๋ฑ์ฅํ๋ ์นด๋ฉ๋ผ ์ท, ์ฅ๋ฉด ์ ํ, ๋ถ์๊ธฐ ๋ฑ์ ํ๋ถํ๊ฒ ํํํ ์ ์๋ค.
- ์์คํ ํ๋กฌํํธ๋ฅผ ํตํด ๋ชจ๋ธ ์นํ์ ์ธ prompt ์คํ์ผ๋ก ์ ๋ํ ์ ์์ด, diffusion backbone์ด ์ดํดํ๊ธฐ ์ฌ์ด ํ ์คํธ ์๋ฒ ๋ฉ์ ์ ๊ณตํ๋ค.
- causal attention ๊ธฐ๋ฐ์ด๊ธฐ ๋๋ฌธ์ autoregressive ํ๋กฌํํธ ์ฒ๋ฆฌ์ ์ ๋ง๋๋ค.
๋จ, diffusion ๋ชจ๋ธ ์ ์ฅ์์๋ ์๋ฐฉํฅ ์ ๋ณด๋ฅผ ๊ฐ์ง ํ ์คํธ representation์ด ๋ ์ ๋ฆฌํ๊ธฐ ๋๋ฌธ์, ๋ ผ๋ฌธ์์๋ [Token Refiner] ๋ธ๋ก์ ์ถ๊ฐํด MLLM์ causal feature๋ฅผ bidirectional ํํ๋ก ๋ค์ ์ ์ ํ๋ค. ์ฌ๊ธฐ์ CLIP-Large text์ ๋ง์ง๋ง ํ ํฐ์ global guidance๋ก ์ถ๊ฐํ์ฌ, ์ธ๋ฐํ MLLM feature์ ์ ์ญ์ ์ธ CLIP feature๋ฅผ ํจ๊ป ์ฌ์ฉํ๋ ๊ตฌ์กฐ์ด๋ค.
3.6 ๋ค๋ฅธ ๋น๋์ค ์์ฑ ๋ชจ๋ธ๊ณผ์ ์ฐจ์ด์ ์ ๋ฆฌ
์ ๋ฆฌํ๋ฉด, HunyuanVideo์ ์ํคํ ์ฒ๋ ๊ธฐ์กด open-source ๋น๋์ค ๋ชจ๋ธ๋ค๊ณผ ๋ค์๊ณผ ๊ฐ์ ์ฐจ๋ณ์ ์ ๊ฐ์ง๋ค.
- ๋น๋์ค ์ ์ฉ 3D VAE๋ฅผ ์ฒ์๋ถํฐ ํ์ตํ๋ค.
- ๋ง์ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง VAE๋ฅผ ์ฌํ์ฉํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ๋น๋์ค์ ์ต์ ํ๋ CausalConv3D VAE๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ ํด์๋·๊ณ ํ๋ ์ ๋น๋์ค๋ฅผ ์ง์ latent ๊ณต๊ฐ์์ ๋ค๋ฃฌ๋ค.
- Full Spatiotemporal Attention์ ์ฌ์ฉํ๋ ํตํฉ Transformer์ด๋ค.
- 2D + 1D factorized attention ๋์ , ์๊ฐ·๊ณต๊ฐ์ ํ ๋ฒ์ ๋ค๋ฃจ๋ full attention์ ํตํด ๋ ๊ฐํ ๋ชจ์ ·์ฅ๋ฉด ์ผ๊ด์ฑ์ ์ป๋๋ค.
- Dual-stream → Single-stream ๊ตฌ์กฐ๋ก ๋ฉํฐ๋ชจ๋ฌ ์ตํฉ์ ์ํํ๋ค.
- ์ด๊ธฐ์๋ ํ ์คํธ/๋น์ ํํ์ ๋ถ๋ฆฌํด ์์ ์ ์ผ๋ก ํ์ตํ๊ณ , ํ๋ฐ์๋ ํ๋์ ์คํธ๋ฆผ์์ ๊น๊ฒ ์ตํฉํ๋ ์ค๊ณ์ด๋ค.
- ํ
์คํธ ์ธ์ฝ๋๋ก MLLM์ ์ฌ์ฉํ๋ค.
- CLIP/T5 ๊ธฐ๋ฐ๋ณด๋ค ์ธ๋ฐํ ์ฅ๋ฉด·์นด๋ฉ๋ผ·์คํ์ผ ๋ฌ์ฌ๋ฅผ ์ ๋ฐ์ํ๋ฉฐ, token refiner + CLIP global feature๋ก ๋ณด์ํ๋ค.
์ด๋ฌํ ์ค๊ณ ๋๋ถ์ HunyuanVideo๋ ์ด๋ฏธ์ง์ ๋น๋์ค๋ฅผ ๋ชจ๋ ๋ค๋ฃฐ ์ ์๋ unified generative backbone์ด๋ฉด์, ๋์์ ๊ณ ํด์๋·์ฅ์๊ฐ·๊ณ ํ์ง ๋น๋์ค ์์ฑ์ ์ต์ ํ๋ ์ํคํ ์ฒ๋ผ๊ณ ๋ณผ ์ ์๋ค.
3.7 Model Scaling

Figure 10์ DiT-T2X ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ(์ด๋ฏธ์ง·๋น๋์ค ์์ฑ ๋ชจ๋ธ)์ Loss vs Compute(FLOPs) ๊ด๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ ๊ฐ์ง ์ฃผ์ scaling ๋ฒ์น์ ๋์ถํ๋ค.
(1) Compute C ↔ Model Parameters N scaling law
(2) Compute C ↔ Dataset Tokens D scaling law
์ฆ, ๋๊ท๋ชจ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ด scale up ํ ์๋ก ๋ ์ฑ๋ฅ์ด ์ข์์ง๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ , ์ต์ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ ํฌ๊ธฐ๋ฅผ ์์น์ ์ผ๋ก ๊ฒฐ์ ํ ์ ์๋ค๋ ๊ฒ์ ๋ปํ๊ธฐ๋ ํ๋ค.
4. ํ์ต ๋ฐฉ๋ฒ

HunyuanVideo๋ ๋๊ท๋ชจ ์์ ๋ฐ์ดํฐ ํ์ต์ ์ํ ํน๋ณํ ์ ๋ต์ ์ฌ์ฉํ๋ค.
4.1 Multi-Stage Training
- Stage 1: ์ด๋ฏธ์ง ์ฌ์ ํ์ต(Image Pretraining)
- 2D ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ๊ณต๊ฐ์ ์ดํด๋ ฅ ํ๋ณด
- Image-DiT๋ก ์ด๋ฐ ์์ ํ
- Stage 2: ์ ํด์๋ ๋น๋์ค ํ์ต(Low-Res Video)
- 256p/360p short clip ์์ฃผ ํ์ต
- Temporal attention ์์ ํ
- Stage 3: ๊ณ ํด์๋ ๋น๋์ค ํ์ต(High-Res Video)
- 1080p·4K๊น์ง ํ์ฅ
- Long-range temporal memory ํ์ต
์ด 3๋จ๊ณ ๊ตฌ์กฐ๋ compute ํจ์จ์ฑ๊ณผ ๋น๋์ค ํ์ง์ ๋์์ ๋ฌ์ฑํ๊ธฐ ์ํด ํ์ํ๋ค.
4.2 Balanced Training
๋น๋์ค ํ๋กฌํํธ๋ ์ด๋ฏธ์ง๋ณด๋ค ํจ์ฌ ๋ณต์กํ๋ฏ๋ก, ํ ์คํธ ์ดํด ๋ฅ๋ ฅ์ ๊ฐํํ๊ธฐ ์ํด LLaMA ๊ธฐ๋ฐ ํ ์คํธ ์ธ์ฝ๋๋ฅผ ํน๋ณํ ํ๋ํ๋ค.
ํ ์คํธ ํ๋ฆฌํฐ๊ฐ ๋ฎ์ผ๋ฉด ๋ค์ ๋ฌธ์ ๊ฐ ์๊ธด๋ค.
- camera instruct๊ฐ ์ ์ ์ง์ผ์ง
- ๋์ ๋ฌ์ฌ ๋๋ฝ
- ์บ๋ฆญํฐ consistency ์ ํ
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํ ์คํธ ํํธ์ ๋น๋์ค ํํธ๋ฅผ ๋ณ๋๋ก ํ์ตํ๋ฉด์๋ cross-attention์์ ๊ท ํ์ด ๋ง๋๋ก ํ์ต๋ฅ ์ค์ผ์ค์ ์กฐ์ ํ๋ค.
4.3 Long-Video Training
์ผ๋ฐ ๋น๋์ค ๋ชจ๋ธ์ 2~5์ด ๊ธธ์ด์ ๊ตญํ๋์ง๋ง, HunyuanVideo๋ 10~30์ด ๋น๋์ค๋ ์ฒ๋ฆฌํ๋ค.
์ด๋ฅผ ์ํด ์๋์ ๊ฐ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ค.
- long-context temporal attention
- video chunking
- temporal hierarchical encoding
5. ์ํ๋ง ๋ฐฉ์
HunyuanVideo๋ Rectified Flow ๊ธฐ๋ฐ์ sampling์ ์ฌ์ฉํ๋ฉฐ, ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๋น๋์ค๋ฅผ ์์ฑํ๋ค.
- Text Encoder๋ก prompt ์๋ฒ ๋ฉ ์์ฑ
- Noise ๋น๋์ค latent ์ค๋น
- Video-DiT๊ฐ iterative denoising ์ํ
- ์์ฑ๋ latent๋ฅผ Video-VAE Decoder๋ก ๋ณต์
- ์ต์ข ๋น๋์ค ์์ฑ
ํ๋ ์ ๋จ์๊ฐ ์๋ spatiotemporal latent ๋จ์๋ก ์ํ๋งํ๊ธฐ ๋๋ฌธ์ ๋ชจ์ ์ผ๊ด์ฑ์ด ๋ฐ์ด๋๋ค.
6. ์คํ ๊ฒฐ๊ณผ

HunyuanVideo๋ ๋ค์ํ ๋ฒค์น๋งํฌ์์ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ค.
- ๊ณ ํด์๋ ํ์ง(1080p+) ์ฐ์
- ์บ๋ฆญํฐ ์ผ๊ด์ฑ, ์นด๋ฉ๋ผ ๋ชจ์ ์ผ๊ด์ฑ ํฅ์
- ๋ณต์กํ ์ฅ๋ฉด์์๋ artifact ๊ฐ์
- ์ฅ์๊ฐ ๋น๋์ค ์์ฑ ๊ฐ๋ฅ
์ค์ ์ํ์์๋ ์์ ์ ์ธ ๋ชจ์ ํ๋ฆ๊ณผ ๋ํ ์ผ ์ฌํ๋ ฅ์ด ๋๋๋ฌ์ง๋ค.

HunyuanVideo๋ ๋๊ท๋ชจ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ด ์ด๋ป๊ฒ ์ค๊ณ๋๊ณ , ์ด๋ค ๋ฐฉ์์ผ๋ก ์์ ์ ์ธ scaling์ ๋ฌ์ฑํ ์ ์๋์ง๋ฅผ ๋ช ํํ๊ฒ ๋ณด์ฌ์ฃผ๋ ๋ํ์ ์ฐ๊ตฌ์ด๋ค. 3D VAE·Full Spatiotemporal Attention·MLLM ๊ธฐ๋ฐ ํ ์คํธ ์กฐ๊ฑด ๋ฑ ์ค๊ณ ์ ๋ฐ์ด ์ ๊ธฐ์ ์ผ๋ก ๊ฒฐํฉ๋์ด ๊ณ ํด์๋·์ฅ์๊ฐ·์ผ๊ด์ฑ ์๋ ๋น๋์ค ์์ฑ์ด ๊ฐ๋ฅํด์ก๋ค. ์ด๋ฅผ ํตํด ๋น๋์ค ์์ฑ ๋ชจ๋ธ ์ญ์ ์ด๋ฏธ์ง·์ธ์ด ๋ชจ๋ธ์ฒ๋ผ ๋ณธ๊ฒฉ์ ์ธ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ๋ก ํ์ฅ๋ ์ ์์์ ์ ์ฆํ ์๋ฏธ ์๋ ์ฌ๋ก๋ผ ํ ์ ์๋ค.