1. Intro
Goku๋ ๋จ์ํ ์์นด๋ฐ๋ฏนํ ๋ ผ๋ฌธ์ด ์๋๋ผ, ํ๋ก๋์ ๋ ๋ฒจ์ joint image/video generative foundation model์ ์ค์ ๋ก ํ์ต·์ด์ํ๊ธฐ ์ํด ํ์ํ ๊ตฌ์ฑ์์(ํ ํฌ๋์ด์ , ์ํคํ ์ฒ, ๋ฐ์ดํฐ ํ๋ ์ด์ , ๋ถ์ฐ ํ์ต ์์คํ )๋ฅผ ํ ๋ฒ์ ์ ๋ฆฌํ ์ค๊ณ ์ ์์ ๊ฐ๊น๋ค.๋น๋์ค ์์ฑ์์ ๋ณ๋ชฉ์ ํฌ๊ฒ ์ธ ๊ฐ์ง๋ก ์ ๋ฆฌ๋๋ค.
- ํํ ๋ณ๋ชฉ: ์๊ฐ์ถ์ด ์ถ๊ฐ๋๋ฉด์ scene transition, camera motion, action dynamics ๋ฑ ์ฅ๋ฉด์ ๋ณํ ์์์ด ๊ธ๊ฒฉํ ๋ณต์กํด์ง๋ค.
- ๋ฐ์ดํฐ ๋ณ๋ชฉ: ๋๊ท๋ชจ video-text ํ์ด๋ ๋ ธ์ด์ฆ, ์ํฐ๋งํฌ, ์ ํ์ง ์ํ, ๋ถํฌ ํธํฅ์ด ์ฌํ๋ฉฐ, ๊ฒฐ๊ณผ์ ์ผ๋ก ํ๋ ์ด์ ํ์ง์ด ๋ชจ๋ธ ์ฑ๋ฅ์ ์ข์ฐํ๋ค.
- ์์คํ ๋ณ๋ชฉ: ๋น๋์ค ํ ํฐ์ ์ํ์ค ๊ธธ์ด๊ฐ ๋งค์ฐ ๊ธธ์ด์ง๋ฏ๋ก, full-attention ๊ธฐ๋ฐ ํ์ต์ ํ๋ ค๋ฉด sequence parallelism, sharding, checkpointing, fault tolerance ๊ฐ์ ๋๊ท๋ชจ ๋ถ์ฐ ํ์ต ์ธํ๋ผ๊ฐ ์ฌ์ค์ ํ์ ์กฐ๊ฑด์ด ๋๋ค.
2. Goku: Generative Flow Models for Visual Creation
Goku๋ (1) Image-Video Joint VAE ํ ํฌ๋์ด์ , (2) ํ ์คํธ ์ธ์ฝ๋(Flan-T5), (3) Rectified Flow(RF) ๊ธฐ๋ฐ video/image Transformer๋ก ๊ตฌ์ฑ๋๋ค.
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Text Prompt โ
โโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโ
โ Flan-T5 Encoder โ
โ (text embeddings) โ
โโโโโโโโโโโฌโโโโโโโโโโ
โ (used as cross-attn cond)
โผ
============================= TRAINING (Rectified Flow) =============================
โโโโโโโโโโโโโโโโโโโโโโโโโ
โ Image / Video Pixels โ
โโโโโโโโโโโโโฌโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Image-Video Joint VAE Encoder โ
โ - image stride: 8×8 โ
โ - video stride: 8×8×4 โ
โโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโ
โ
โผ
latent target x1
โ
โโโโโโโโโโโโโโโโโ
โ โ
โ sample x0 ~ N(0, I)
โ โ
โโโโโโโโโฌโโโโโโโโ
โผ
RF interpolation (t ∈ [0,1]):
x_t = t·x1 + (1-t)·x0
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Goku Transformer โ
โ - full attention + 3D RoPE โ
โ - Patch n' Pack (sequence packing) โ
โ - QK-Norm, adaLN-Zero (t-conditioning) โ
โ - cross-attention to Flan-T5 embeddings โ
โโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
predict velocity vฬ(x_t, t, text)
โ
โผ
loss: || vฬ - v ||² (velocity regression in latent)
============================== INFERENCE (Sampling) ================================
sample latent x0 ~ N(0, I)
โ
โผ
integrate / sample in latent space (ODE solve / RF sampling)
with text conditioning via Flan-T5 (cross-attn)
โ
โผ
generated latent x1*
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Image-Video Joint VAE Decoder โ
โโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโ
โ
โผ
generated image / video pixels
2.1 Tokenizer: Image-Video Joint VAE
Transformer ๊ธฐ๋ฐ ์์ฑ์์ ๋น์ฉ์ ํ ํฐ ๊ธธ์ด๊ฐ ๊ฒฐ์ ๋๋ค. Goku๋ ์ด๋ฏธ์ง์ ๋น๋์ค๋ฅผ ๋์ผํ latent space๋ก ์์ถํ๋ Image-Video Joint VAE๋ฅผ ์ฌ์ฉํด T2I/T2V/I2V๋ฅผ ๋์ผ ํ๋ ์์ํฌ๋ก ํตํฉํ๋ค.
์์ถ ๊ท๊ฒฉ(Stride)
- Image: spatial stride 8×8
- Video: spatial-temporal stride 8×8×4
์ฆ, ๋น๋์ค๋ ์๊ฐ์ถ๋ ํจ๊ป ๋ค์ด์ํ๋งํ์ฌ ํ ํฐ ์(=attention ๋น์ฉ)๋ฅผ ์ ์ดํ๋ค.
์ค๊ณ ํด์
- Joint VAE๋ ์์ฑ ํ์ง์ ์ํ์ ๋ง๋ ๋ค.
- temporal stride(×4) ์์ถ์ ๋ชจ์
๋ํ
์ผ์ ํฌ์ํ ์ ์์ผ๋ฏ๋ก, ์ดํ ์๋ ์์๋ก ๋ณด์ํ๋ค.
- (a) full-attention ๊ธฐ๋ฐ ์๊ฐ ๋ชจ๋ธ๋ง์ผ๋ก long-range temporal dependency๋ฅผ ์ง์ ํ์ต
- (b) motion score ๊ธฐ๋ฐ ํํฐ๋ง์ผ๋ก ํ์ตํ๊ธฐ ์ฌ์ด ๋ชจ์ ๋ถํฌ๋ฅผ ํ๋ณด
- (c) motion score๋ฅผ ์บก์ ์ ์ฃผ์ ํด ํ ์คํธ ์กฐ๊ฑด์์ ๋ชจ์ ์ ์ด ์ ํธ๋ฅผ ๊ฐํ
2.2 Model Architecture
2.2.1 ๋ธ๋ก ๊ตฌ์ฑ
Goku๋ conditional Transformer ๋ธ๋ก์ ์ฌ์ฉํ๋ค.
- Self-Attention: latent ํ ํฐ ๊ฐ ์ํธ์์ฉ
- Cross-Attention: ํ ์คํธ ์ปจ๋์ (Flan-T5 embedding) ์ฃผ์
- FFN
- adaLN-Zero: t(๋๋ timestep) ๊ธฐ๋ฐ ์์ ์ conditioning
2.2.2 Full-Attention ์ ํ์ ์๋ฏธ
๋น๋์ค Transformer๋ ๋น์ฉ ๋๋ฌธ์ temporal/spatial attention์ ๋ถํดํ๊ฑฐ๋ factorizationํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. Goku๋ motion + long-range dependency๋ฅผ ๊ฐํ๊ฒ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด plain full-attention์ ํํ๋ค.
- ์ฅ์ : ๋ชจ์ ์ ๊ฐ, ์นด๋ฉ๋ผ ์ด๋, ์ฅ๋ฉด ๋ด ๊ฐ์ฒด ์ํธ์์ฉ์ ๋จ์ํ ์์ด ํ์ต ๊ฐ๋ฅ
- ๋น์ฉ: ์ํ์ค ๊ธธ์ด๊ฐ ํญ์ฆํ๋ฏ๋ก FlashAttention + (SP/FSDP) + activation checkpointing์ด ์ ์ ๋๋ค.
2.2.3 3D RoPE(Position Encoding)
์ด๋ฏธ์ง·๋น๋์ค ํ ํฐ์ 3D RoPE(๊ณต๊ฐ+์๊ฐ)๋ฅผ ์ ์ฉํ๋ค.
- ๋ค์ํ ํด์๋/๊ธธ์ด์ ๋ํด RoPE์ extrapolation ์ฑ์ง์ ํ์ฉํ๋ค.
- joint ํ์ต์์ ํด์๋ ์คํ ์ด์ง๊ฐ ๋ฐ๋๋ ์ปค๋ฆฌํ๋ผ์์๋ ์์ ์ ์ผ๋ก ๋์ํ๋๋ก ์ค๊ณ๋ ์ ํ์ผ๋ก ํด์๋๋ค.
2.2.4 Patch n’ Pack(Sequence Packing)
Goku๋ NaViT ๊ณ์ด์ packing์ ์ ์ฉํด, ์๋ก ๋ค๋ฅธ ๊ธธ์ด·ํด์๋์ ์ด๋ฏธ์ง/๋น๋์ค ์ํ์ ํ๋์ ๊ธด ์ํ์ค๋ก ํจํนํด minibatch๋ฅผ ๊ตฌ์ฑํ๋ค. ๋ชฉ์ ์ ๊ธธ์ด/ํด์๋๋ณ ๋ฒํท๊ณผ ๊ณผ๋ํ padding์ ํผํ๊ณ GPU utilization์ ์ฌ๋ฆฌ๋ ๊ฒ์ด๋ค.
ํต์ฌ์ ๋ ๊ฐ์ง์ด๋ค.
- Concatenate: ์๋ก ๋ค๋ฅธ ์ํ์ ํ ํฐ์ ์ํ์ค ์ถ์ผ๋ก ์ด์ด๋ถ์ธ๋ค.
- Block-diagonal attention mask: ์๋ก ๋ค๋ฅธ ์ํ ๊ฐ ํ ํฐ์ด attentionํ์ง ์๋๋ก ์ฐจ๋จํ๋ค.
์๋ฅผ ๋ค์ด,
- image latent length = 1,024
- video-A latent length = 4,096
- video-B latent length = 3,072
ํจ๋ฉ ๋ฐฉ์์ด๋ผ๋ฉด max=4,096์ ๋ง์ถฐ image๋ 3,072 ํ ํฐ์ด ๋ญ๋น๋๋ค. Patch n’ Pack์ ๋ค์์ฒ๋ผ ๋ง๋ ๋ค.
- packed length = 1,024 + 4,096 + 3,072 = 8,192
- attention mask๋ ์๋์ฒ๋ผ ๋ธ๋ก๋ง ํ์ฑํ๋๋ค
[ image ][ video-A ][ video-B ]
|โโโโโโ|........|........|
|......|โโโโโโโโ|........|
|......|........|โโโโโโโโ|
์ถ๊ฐ์ ์ผ๋ก,
- packing์ ํ๋ฉด ๊ธ๋ก๋ฒ ์ํ์ค ์ธ๋ฑ์ค์ ์๋ฏธ๊ฐ ์ฝํด์ง๋ฏ๋ก, ๊ฐ ํ ํฐ์ ๋ํด (t, h, w) ์ขํ๋ฅผ ์ ์งํ๊ณ 3D RoPE๋ฅผ ์ขํ ๊ธฐ๋ฐ์ผ๋ก ๊ณ์ฐํ๋ ๋ฐฉ์์ด ์์ฐ์ค๋ฝ๋ค.
- stage-2์์ ์ด๋ฏธ์ง/๋น๋์ค๋ฅผ ๊ฐ์ batch์ ์์ ๋, packing์ ์ด๋ฏธ์ง/๋น๋์ค ๋น์จ์ ์ ์ฐํ๊ฒ ์กฐ์ ํ๋ฉด์๋ padding ์์ค์ ์ค์ธ๋ค.
2.2.5 Q-K Normalization(QK-norm)
๋๊ท๋ชจ Transformer ํ์ต์์ ๊ฐํ์ ์ผ๋ก ๋ฐ์ํ๋ loss spike๋ฅผ ์ํํ๊ธฐ ์ํด, attention dot-product ์ด์ ์ q์ k์ normalization์ ์ ์ฉํ๋ค.
- ๋ฐฉ์: q <- RMSNorm(q), k <- RMSNorm(k) ํ softmax(q k^T / sqrt(d))
- ์ง๊ด: q·k์ ์ค์ผ์ผ ํญ์ฃผ๋ฅผ ์ ํํด softmax ์ ๋ ฅ ๋ถ์ฐ์ ์์ ํํ๋ค.
์กฐ๊ธ ๋ ๊ธฐ์ ์ ์ผ๋ก ๋ณด๋ฉด, q์ k๋ฅผ ์ ๊ทํํ๋ฉด attention logit์ ๋ด์ ์ด๋ผ๊ธฐ๋ณด๋ค ์ฝ์ฌ์ธ ์ ์ฌ๋ ์ฑ๊ฒฉ์ ๊ฐ๊น์์ง๋ค.
- ์ ๊ทํ๊ฐ ์์ผ๋ฉด: logit = ||q||·||k||·cos(θ)
- ์ ๊ทํ ํ์๋: logit ≈ cos(θ) (์ค์ผ์ผ ํญ์ด ํฌ๊ฒ ์ค์ด๋ฆ)
์ฆ, ํน์ ํ ํฐ/ํค๋์์ ||q|| ๋๋ ||k||๊ฐ ๋น์ ์์ ์ผ๋ก ์ปค์ ธ softmax๊ฐ ํ์ชฝ์ผ๋ก ์ ๋ฆฌ๋ ํ์์ ์ํํ๊ณ ํ์ต์ ๋ ์์ ์ ์ผ๋ก ๋ง๋ ๋ค.
2.2.6 ๋ชจ๋ธ ์ค์ผ์ผ

2.3 Flow-Matching Training (Rectified Flow)

Goku์ ํ์ต์ rectified flow(RF) ๊ธฐ๋ฐ flow formulation์ ๋ฟ๋ฆฌ๋ฅผ ๋๋ค. ํต์ฌ์ prior์์ ์์ํด target data ๋ถํฌ๋ก ์ํ์ ์ฐ์์ ์ผ๋ก ์ด๋์ํค๋ velocity field๋ฅผ ํ์ตํ๋ ๊ฒ์ด๋ค. ํ์ต ์ํ์ linear interpolation์ผ๋ก ๊ตฌ์ฑ๋๋ค.
- target(๋ฐ์ดํฐ) ์ํ: x1
- prior(๋ ธ์ด์ฆ) ์ํ: x0 ~ N(0, I)
- ๋ณด๊ฐ ๊ณ์: t ∈ [0, 1]
x_t = t · x1 + (1 - t) · x0
๋ชจ๋ธ์ x_t๋ฅผ ์ ๋ ฅ๋ฐ์ velocity v_t = d x_t / d t ๋ฅผ ์์ธกํ๋๋ก ํ์ต๋๋ค. ๊ตฌํ ๊ด์ ์์๋ “RF objective๋ก latent์์ velocity regression์ L2๋ก ๋ง์ถ๋ค”๋ก ์ดํดํ๋ฉด ๋๋ค. ๋ ผ๋ฌธ์ pilot experiment๋ก ImageNet-1K(256×256) class-conditional ์ค์ ์์ DDPM ๋๋น RF๊ฐ ๋ ๋น ๋ฅธ ์๋ ด์ ๋ณด์ธ๋ค๊ณ ํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, Goku-1B(RF)๋ ์ฝ 400k step์์ DDPM์ด 1000k step ์์ค์์ ๋๋ฌํ๋ ์ฑ๋ฅ๋(์: FID-50K)์ ๋ ๋นจ๋ฆฌ ์ ๊ทผํ๋ค. ์ธํผ๋ฐ์ค๋ latent์์ ODE solve(๋๋ RF sampling ์ ์ฐจ)์ ํด๋นํ๋ฉฐ, ์ป์ด์ง latent๋ฅผ Joint VAE decoder๋ก ๋ณต์ํด ํฝ์ ๊ณต๊ฐ์ ์ด๋ฏธ์ง/๋น๋์ค๋ฅผ ์์ฑํ๋ค.
2.4 Training Details
๋ชจ๋ธ ํ์ต์ ํต์ฌ์ (1) multi-stage curriculum, (2) cascaded resolution, (3) long-seq ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ณ๋ ฌํ·์ฒดํฌํฌ์ธํ ·fault tolerance์ด๋ค.
2.4.1 Multi-stage Training
๋ ผ๋ฌธ์ joint image-and-video ํ์ต์ ํ ๋ฒ์ ์ง์ ์ต์ ํํ๊ธฐ ์ด๋ ต๋ค๊ณ ์ ์ ํ๊ณ , ์๋ 3๋จ๊ณ๋ก ๋ถํดํ๋ค.
- Stage-1: Text–Semantic Pairing
- text-to-image ์ค์ฌ pretraining์ผ๋ก ํ ์คํธ-์๊ฐ ์๋ฏธ ๋งคํ์ ๋จผ์ ์์ ํํ๋ค.
- object attributes, spatial configuration, contextual coherence ๊ฐ์ “์ ์ ์๊ฐ ๊ฐ๋ ”์ ์ฐ์ ํ์ตํ๋ ๋จ๊ณ์ด๋ค.
- Stage-2: Image-and-Video Joint Learning
- ์ด๋ฏธ์ง์ ๋น๋์ค๋ฅผ unified token sequence๋ก ํตํฉํด joint ํ์ตํ๋ค.
- ๊ณ ํ์ง ๋น๋์ค ๋ฐ์ดํฐ ํ๋ณด๊ฐ ์๋์ ์ผ๋ก ์ด๋ ต๊ธฐ ๋๋ฌธ์, ๊ณ ํ์ง ์ด๋ฏธ์ง๊ฐ ๊ฐ์ง ํ๋ถํ ์๊ฐ ์ ๋ณด๋ฅผ joint ํ์ต์์ ๋น๋์ค๋ก ์ ์ด์ํค๋ ์ค๊ณ๋ฅผ ๊ฐ์กฐํ๋ค.
- Stage-3: Modality-specific Finetuning
- ์ต์ข ๋จ๊ณ์์ ๋ชจ๋ฌ๋ฆฌํฐ๋ณ๋ก ๋ถ๋ฆฌํด ๋ฏธ์ธ์กฐ์ ํ๋ค.
- T2I๋ image-centric adjustment๋ก “๋ ๋ณด๊ธฐ ์ข์ ์ด๋ฏธ์ง” ๋ฐฉํฅ์ ๋ชฉํ๋ก ํ๋ค.
- T2V๋ temporal smoothness, motion continuity, stability ๊ฐ์ ์ ์ด์ ์ ๋๋ค.
2.4.2 Cascaded Resolution Training
๋ ผ๋ฌธ์ Stage-2์ joint training์์ cascade resolution์ ์ ์ฉํ๋ค.
- ์ด๊ธฐ: 288×512(low-res)์์ text–semantic–motion์ ํต์ฌ ์ํธ์์ฉ์ ์ ๋น์ฉ์ผ๋ก ๋จผ์ ํ์ตํ๋ค.
- ์ดํ: 480×864 → 720×1280๋ก ๋จ๊ณ์ ์ผ๋ก ํด์๋๋ฅผ ์์น์์ผ ๋ํ ์ผ๊ณผ fidelity๋ฅผ ์ ๋ จํ๋ค.
2.4.3 Efficiency & Long-seq Training System
Goku๋ VAE ์ดํ์๋ ๋น๋์ค ํ ํฐ ์๊ฐ ๋งค์ฐ ํฌ๋ฉฐ, ๋ ผ๋ฌธ์ longest sequence๊ฐ 220K tokens๋ฅผ ์ด๊ณผํ๋ค๊ณ ๋ช ์ํ๋ค. ์ด๋ฅผ ์ํด 3D parallelism(์ํ์ค/๋ฐ์ดํฐ/ํ๋ผ๋ฏธํฐ ์ถ)์ ์ฌ์ฉํ๊ณ , ๊ตฌ์ฑ ์์๋ฅผ ์๋์ฒ๋ผ ์ ์ํ๋ค.
- FlashAttention + Sequence Parallelism
- full-attention ์ฑํ์ ๋ฐ๋ฅธ ๋ฉ๋ชจ๋ฆฌ/์ฐ์ฐ ๋ถ๋ด์ ์ํํ๊ธฐ ์ํด FlashAttention๊ณผ sequence parallelism์ ์ฌ์ฉํ๋ค.
- Sequence-Parallelism (Ulysses ๊ตฌํ)
- ์ํ์ค ์ฐจ์์ผ๋ก ์ํ์ shardingํ๋ค.
- attention ๊ณ์ฐ ์ all-to-all๋ก Q/K/V shard๋ฅผ ๋ถ๋ฐฐํด ๊ฐ ์์ปค๊ฐ full sequence๋ฅผ ์ฒ๋ฆฌํ๋ head subset๋ง ๋ด๋นํ๋๋ก ๊ตฌ์ฑํ๋ค.
- ๊ณ์ฐ ํ all-to-all๋ก ๊ฒฐ๊ณผ๋ฅผ ๋ค์ ์ง๊ณํด head ๋ฐ ์ํ์ค ์ฐจ์์ ์ฌ๊ฒฐํฉํ๋ค.
- FSDP with HYBRID_SHARD
- ํ๋ผ๋ฏธํฐ/๊ทธ๋๋์ธํธ/์ตํฐ๋ง ์ํ๋ฅผ shardingํ๋ค.
- HYBRID_SHARD(FULL_SHARD + group ๊ฐ replication)๋ก all-gather/reduce-scatter ๋ฒ์๋ฅผ ์ค์ฌ ํต์ ๋น์ฉ์ ๋ฎ์ถ๋ค๊ณ ์ค๋ช ํ๋ค.
- Fine-grained Activation Checkpointing
- ํต์ ์ค๋ฒํค๋์ compute๋ฅผ ๊ท ํ ์๊ฒ ๋ง๋ค๊ธฐ ์ํด selective / fine-grained AC๋ฅผ ์ค๊ณํ๋ค.
- ์ ์ฅ์ด ํ์ํ activation์ ์ต์ํํ๋ฉด์ GPU utilization์ ์ต๋ํํ๋ ์ชฝ์ ์ด์ ์ ๋๋ค.
- Cluster Fault Tolerance (MegaScale)
- ๋๊ท๋ชจ ํด๋ฌ์คํฐ์์ node failure ๊ฐ๋ฅ์ฑ์ด ๋์์ง๋ ์ ์ ์ ์ ๋ก self-check diagnostics, multi-level monitoring, fast restart/recovery๋ฅผ ๋์ ํ๋ค.
- Saving/Loading: ByteCheckpoint
- checkpoint์๋ model parameters๋ฟ ์๋๋ผ EMA parameters, optimizer states, random states๊น์ง ํฌํจํ๋ค.
- ByteCheckpoint๋ฅผ ์ฌ์ฉํด partitioned checkpoint๋ฅผ ๋ณ๋ ฌ ์ ์ฅ/๋ก๋ํ๊ณ , resharding๊น์ง ์ง์ํด training scale ์ ํ์ ์ ์ฐํ๊ฒ ๋ง๋ ๋ค.
- ๋ ผ๋ฌธ์ 8B ๋ชจ๋ธ์ ์์ฒ GPU์์ checkpointํ ๋ training block์ด 4์ด ๋ฏธ๋ง์ด๋ผ๊ณ ๋ณด๊ณ ํ๋ค.
3. Infrastructure Optimization
Goku๋ “๋ชจ๋ธ์ด ํฌ๋ค”๋ณด๋ค๋, ๋น๋์ค latent token์ด ๋ง๋ค์ด๋ด๋ ๊ธด ์ํ์ค๊ฐ ๋ณ๋ชฉ์ด๋ค. ๋ ผ๋ฌธ์ longest sequence๊ฐ 220K tokens๋ฅผ ์ด๊ณผํ๋ค๊ณ ๋ช ์ํ๋ฉฐ, ์ด๋ฅผ ์ ์ ๋ก 3D parallelism(์ํ์ค/๋ฐ์ดํฐ/ํ๋ผ๋ฏธํฐ ์ถ), fine-grained activation checkpointing, ํด๋ฌ์คํฐ fault tolerance, ๊ณ ์ฑ๋ฅ ์ฒดํฌํฌ์ธํ (ByteCheckpoint)๋ฅผ ๊ฒฐํฉํด ํ์ต์ ์ฑ๋ฆฝ์ํจ๋ค.
๊ฐ๋จํ ํํํ๋ฉด ์๋ ๊ตฌ์กฐ์ด๋ค.
[Sequence axis] Ulysses Sequence Parallelism (all-to-all for Q/K/V shards)
[Data axis] Data Parallel groups (replicated compute)
[Param axis] FSDP HYBRID_SHARD (FULL_SHARD within shard-group)
+ Fine-grained Activation Checkpointing
+ MegaScale Fault Tolerance
+ ByteCheckpoint (parallel save/load + resharding)
3.1 Model Parallelism Strategies: 3D Parallelism์ผ๋ก 220K-token์ ๋ฒํด๋ค
๋ ผ๋ฌธ์ ๋ชจ๋ธ ํฌ๊ธฐ์ ์ํ์ค ๊ธธ์ด(>220K tokens)๊ฐ ๋์์ ์ปค์ง๋ฏ๋ก, ๋จ์ผ ๋ณ๋ ฌํ ์ถ์ผ๋ก๋ ํ์ต์ด ๋ถ๊ฐ๋ฅํ๋ค๊ณ ์ ์ ํ๋ค. ์ด์ input sequence / data / model parameters์ 3๊ฐ ์ถ์ผ๋ก ํ์ฅ๋๋ 3D parallelism์ ์ฌ์ฉํ๋ค.
3.1.1 Sequence Parallelism(SP)
Sequence-Parallelism์ ์ ๋ ฅ์ sequence dimension์ผ๋ก shardingํ๋ค. LayerNorm ๊ฐ์ independent layer์์ ๋ถํ์ํ ์ค๋ณต ๊ณ์ฐ์ ์ ๊ฑฐํ๊ณ , ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๋ฉฐ, non-conforming input(๊ธธ์ด/ํจ๋ฉ์ด ๋ค๋ฅธ ์ํ)์ ๋ํ ์ฒ๋ฆฌ๋ฅผ ์ฉ์ดํ๊ฒ ํ๋ค. ๋ ผ๋ฌธ์ ๊ตฌํ์ผ๋ก Ulysses๋ฅผ ์ฌ์ฉํ๋ค.
- ํ์ต ๋ฃจํ ์์๋ถํฐ ์ํ์ sequence-parallel group์ shardingํ๋ค.
- attention ๊ณ์ฐ ์ all-to-all๋ก Q/K/V shard๋ฅผ ์ฌ๋ถ๋ฐฐํ์ฌ,
- ๊ฐ ์์ปค๊ฐ “full sequence”๋ฅผ ์ฒ๋ฆฌํ๋
- “attention head์ subset”๋ง ๋ด๋นํ๋๋ก ๋ง๋ ๋ค.
- head-wise attention์ ๋ณ๋ ฌ๋ก ๊ณ์ฐํ ๋ค, ๋ ํ ๋ฒ์ all-to-all๋ก ๊ฒฐ๊ณผ๋ฅผ ์ง๊ณํด head์ sharded sequence ์ฐจ์์ ์ฌ๊ฒฐํฉํ๋ค.
์ฆ, SP๋ “์ํ์ค๊ฐ ๋๋ฌด ๊ธธ์ด๋ attention์ full-attention์ผ๋ก ์ ์ง”ํ๊ธฐ ์ํ ์ ์ ์กฐ๊ฑด์ผ๋ก ์ฌ์ฉ๋๋ค.
3.1.2 FSDP
๋ ผ๋ฌธ์ ๋ฐ์ดํฐ ๋ณ๋ ฌ ๋์ FSDP(Fully Sharded Data Parallelism)๋ฅผ ์ฌ์ฉํ๋ค. Goku๋ ํนํ HYBRID_SHARD ์ ๋ต์ ์ฌ์ฉํ๋ค.
- shard group ๋ด๋ถ๋ FULL_SHARD๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ์ค๋ฉํ๊ณ ,
- shard group ๊ฐ์๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ณต์ ํ์ฌ “ํจ๊ณผ์ ์ผ๋ก DP”๋ฅผ ๊ตฌํํ๋ค.
- ๊ฒฐ๊ณผ์ ์ผ๋ก all-gather/reduce-scatter์ ๋ฒ์๋ฅผ shard group ๋ด๋ถ๋ก ์ ํํด ํต์ ๋น์ฉ์ ๋ฎ์ถ๋ค.
์ผ๋ฐ์ ์ผ๋ก HSDP(= Hybrid Sharded Data Parallel)๋ผ ๋ถ๋ฆฌ๋ ์ ๋ต์ด๋ค.
3.2 Activation Checkpointing
๋ ผ๋ฌธ์ 3.1์ ๋ณ๋ ฌํ๊ฐ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํฌ๊ฒ ์ ์ฝํ์ง๋ง, rank ๊ฐ ํต์ ์ด ๋์ด๋ ์ ์ฒด ์ฑ๋ฅ์ด ๋น์ ํ์ ์ผ๋ก ๋จ์ด์ง ์ ์์์ ์ง์ ํ๋ค. ์ด๋ฅผ ์ํํ๊ธฐ ์ํด fine-grained Activation Checkpointing(AC)๋ฅผ ์ค๊ณํ๋ค.
ํต์ฌ์ “๋ฌด์กฐ๊ฑด ์ ๋ถ checkpoint”๊ฐ ์๋๋ผ, ํ๋กํ์ผ๋ง ๊ด์ ์์ compute์ communication์ overlap์ ์ต๋ํํ๋๋ก
- activation ์ ์ฅ์ด ํ์ํ ๋ ์ด์ด ์๋ฅผ ์ค์ด๊ณ
- GPU utilization์ ์ต๋ํํ๋ ๋ฐฉํฅ์ผ๋ก
- selective checkpointing์ ์ ์ฉํ ๊ฒ์ด๋ค.
3.3 Cluster Fault Tolerance
๋๊ท๋ชจ GPU ํด๋ฌ์คํฐ์์ ํ์ตํ ์๋ก node failure ํ๋ฅ ์ด ์ฆ๊ฐํ๊ณ , ์ด๋ ํ์ต ํจ์จ(์๊ฐ/๋น์ฉ)์ ์ง์ ์ ํ์ํจ๋ค. ๋ ผ๋ฌธ์ ์ด๋ฅผ ์ ์ ๋ก MegaScale์ fault tolerance ๊ธฐ๋ฒ์ ์ฑํํ๋ค.
- self-check diagnostics
- multi-level monitoring
- fast restart / recovery
๋ชฉํ๋ ์ฅ์ ๋ฅผ ์์ ๋ ๊ฒ์ด ์๋๋ผ, ์ฅ์ ๊ฐ ๋ฐ์ํด๋ ํ์ต ์ค๋จ ์๊ฐ์ ์ต์ํํ๊ณ ์ ์ฒด ์์คํ ์ด ์์ ์ ์ผ๋ก ์ง์๋๋๋ก ๋ง๋๋ ๊ฒ์ด๋ค.
3.4 Saving and Loading Training Stages
๋๊ท๋ชจ ํ์ต์์๋ checkpoint๊ฐ ๋จ์ ๋ฐฑ์ ์ด ์๋๋ผ ์ด์ ์์์ด๋ค. ๋ ผ๋ฌธ์ checkpoint์ ๋ค์ ์ํ๋ฅผ ํฌํจํ๋ค๊ณ ๋ช ์ํ๋ค.
- model parameters
- EMA parameters
- optimizer states
- random states
์ด๋ (1) ํด๋ฌ์คํฐ fault ๊ฐ๋ฅ์ฑ์ด ๋์์ง๋ ํ๊ฒฝ์์ ์ฌ์์์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , (2) ์ฌํ์ฑ์ ๋ณด์ฅํ๋ฉฐ, (3) ๋๋ฒ๊น (๋น์๋์ ๋ฒ๊ทธ, ์ ์์ ๊ณต๊ฒฉ ํฌํจ) ๊ด์ ์์๋ ์ค์ํ๋ค.
์ด๋ฅผ ์ํด ByteCheckpoint๋ฅผ ์ฑํํ๋ค.
- partitioned checkpoint๋ฅผ ๋ณ๋ ฌ ์ ์ฅ/๋ก๋(high I/O efficiency)
- distributed checkpoint๋ฅผ resharding ์ง์
- rank ์์ storage backend๊ฐ ๋ฌ๋ผ์ ธ๋ training scale ์ ํ์ ์ ์ฐํ๊ฒ ์ฒ๋ฆฌ
๋ ผ๋ฌธ์ ๊ฒฝํ์ ์ผ๋ก, 8B ๋ชจ๋ธ์ ์์ฒ GPU์์ checkpointํ ๋ training block์ด 4์ด ๋ฏธ๋ง์ด๋ผ๊ณ ๋ณด๊ณ ํ๋ค.
4. Data Curation Pipeline

Goku ๋ ผ๋ฌธ์์๋ ๋ฐ์ดํฐ ํ๋ ์ด์ ํ์ดํ๋ผ์ธ์ 5๋จ๊ณ๋ก ์ ๋ฆฌํ๋ค.
- image/video collection
- video extraction & clipping
- image/video filtering
- captioning
- data distribution balancing
4.1 Data Overview
๋ ผ๋ฌธ์ raw ๋ฐ์ดํฐ๋ฅผ public academic dataset + internet resources + proprietary(ํํธ๋์ญ ๊ธฐ๋ฐ)๋ก๋ถํฐ ์์งํ๊ณ , rigorous filtering ์ดํ ์ต์ข ํ์ต ์ธํธ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.
์ธ๋ถ ๊ตฌ์ฑ์ ๋ค์๊ณผ ๊ฐ๋ค.
- Text-to-Image
- public 100M: LAION
- internal 60M: ๊ณ ํ์ง ์ฌ๋ด ๋ฐ์ดํฐ
- ๋ ผ๋ฌธ์ “public data๋ก pre-training, internal data๋ก fine-tuning” ์ ๋ต์ ๋ช ์ํ๋ค.
- ์ต์ข ํ์ต ๋ฐ์ดํฐ: 160M image-text pairs
- Text-to-Video
- public 11M clips + in-house 25M clips
- public ์์ฒ์๋ Panda-70M, InternVid, OpenVid-1M, Pexels๊ฐ ํฌํจ๋๋ค.
- ๋จ, “๊ทธ๋๋ก ์ฌ์ฉ”์ด ์๋๋ผ ๋์ผํ ํ๋ ์ด์ ํ์ดํ๋ผ์ธ์ ์ ์ฉํด ๊ณ ํ์ง ์ํ๋ง ๋จ๊ธด๋ค.
- ์ต์ข ํ์ต ๋ฐ์ดํฐ: 36M video-text pairs
4.2 Data Processing and Filtering
๋น๋์ค ๋ฐ์ดํฐ๋ ๋จ์ ์์ง๋ง์ผ๋ก๋ ํ์ต์ ์ ํฉํ์ง ์๋ค. ๋ ผ๋ฌธ์ ํ์ง์ ์ข์ฐํ๋ ์ ์ฒ๋ฆฌ/ํด๋ฆฌํ/ํํฐ๋ง์ ๋จ๊ณ์ ์ผ๋ก ์ ์ฉํ๋ค.
4.2.1 Preprocessing & Standardization

์ธํฐ๋ท ์์์ ์ธ์ฝ๋ฉ/๊ธธ์ด/FPS/๋นํธ๋ ์ดํธ๊ฐ ์ ๊ฐ๊ฐ์ด๋ค. ๋ ผ๋ฌธ์ ๋จผ์ ๊ณ์ฐ์ ์ผ๋ก ์ ๋ ดํ 1์ฐจ ํํฐ๋ง์ ์ํํ๊ณ , ์ดํ ์ธ์ฝ๋ฉ์ H.264๋ก ํต์ผํ๋ค. ํญ๋ชฉ๋ณ threshold๋ ์ table 3 ์ ๊ฐ๋ค. ์ด ๋จ๊ณ๋ aesthetic model ๊ฐ์ ๊ณ ๋น์ฉ ํํฐ๋ง๋ณด๋ค ๋จผ์ ์ ์ฉ๋์ด ์ ์ฒด ํ์ดํ๋ผ์ธ ๋น์ฉ์ ์ ๊ฐํ๋ค.

4.2.2 Video Clips Extraction
๋ ผ๋ฌธ์ 2-stage clipping์ ์ฌ์ฉํ๋ค.
- PySceneDetect๋ก shot boundary detection์ ์ํํด coarse clip์ ๋ง๋ ๋ค.
- coarse clip ๋ด๋ถ์์ 1fps๋ก ํ๋ ์์ ์ํ๋งํ๊ณ , ๊ฐ ํ๋ ์์ DINOv2 feature๋ฅผ ๊ตฌํ ๋ค ์ธ์ ํ๋ ์ cosine similarity๋ฅผ ๊ณ์ฐํ๋ค.
- similarity๊ฐ ์๊ณ๊ฐ ์๋๋ก ๋ด๋ ค๊ฐ๋ฉด shot change๋ก ๊ฐ์ฃผํด clip์ ์ถ๊ฐ ๋ถํ ํ๋ค
ํด์๋๋ณ DINO similarity threshold ์์น๋ ์ Table 4์ ์ ๋ฆฌ๋์ด ์๋ค. ์ถ๊ฐ๋ก, clip ๊ธธ์ด๋ ์ต๋ 10์ด๋ก ์ ํํ๋ค.
4.2.3 Clip Diversity
๊ฐ์ source video์์ ๋์จ clip๋ค์ด ์ ์ฌํ๋ฉด ๋ฐ์ดํฐ ๋ค์์ฑ์ด ๋ฌด๋์ง๋ค. ๋ ผ๋ฌธ์ ๊ฐ clip์ keyframe์ ๋ํด perceptual hashing์ ๊ณ์ฐํ๊ณ , ๋ clip์ hash๊ฐ ์ ์ฌ(์ค๋ณต ๊ฐ๋ฅ์ฑ ๋์)ํ๋ฉด aesthetic score๊ฐ ๋ ๋์ clip์ ์ ์งํ๋ค.
4.2.4 Visual Aesthetic Filtering
๋ ผ๋ฌธ์ keyframe์ ๋ํด aesthetic model score๋ฅผ ๊ตฌํด ํ๊ท ์ ์ทจํ๊ณ , ํด์๋๋ณ threshold๋ก low-quality clip์ ์ ๊ฑฐํ๋ค.
4.2.5 OCR Filtering
์ํฐ๋งํฌ/์๋ง ์ค์ฌ ์์์ ์์ฑ ํ์ง๊ณผ ๋ถํฌ๋ฅผ ๋ง๊ฐ๋จ๋ฆด ์ ์๋ค. ๋ ผ๋ฌธ์ internal OCR๋ก keyframe์ ํ ์คํธ๋ฅผ ๊ฒ์ถํ๊ณ , keyframe ๋ด ๊ฐ์ฅ ํฐ text bbox ๋ฉด์ / keyframe ์ ์ฒด ๋ฉด์ ์ text coverage ratio๋ก ์ ์ํ๋ค. threshold๋ ํด์๋๋ณ๋ก ๋ค๋ฅด๊ฒ ๋๋ค.
4.2.6 Motion Filtering: RAFT optical flow ๊ธฐ๋ฐ motion score
๋น๋์ค๋ “์ผ๋ง๋ ์์ง์ด๋๋”๊ฐ ๋ฐ์ดํฐ ํ์ง๊ณผ ํ์ต ๋์ด๋๋ฅผ ์ข์ฐํ๋ค. ๋ ผ๋ฌธ์ RAFT๋ก mean optical flow๋ฅผ ๊ณ์ฐํ๊ณ motion score๋ฅผ ๋์ถํ๋ค. ์ถ๊ฐ๋ก, motion control ๊ฐํ๋ฅผ ์ํด motion score๋ฅผ caption์ appendํ๋ค.
4.2.7 Multi-level Training Data(ํด์๋ ์คํ ์ด์ง๋ณ ๋ฐ์ดํฐ ์)
๋ ผ๋ฌธ์ ํด์๋/ํํฐ๋ง ๊ฐ๋๋ฅผ ์ฌ๋ฆด์๋ก ๋ฐ์ดํฐ ์์ด ์ค์ด๋๋ multi-level ๊ตฌ์ฑ์ ๋ช ์ํ๋ค(Table 4).
๊ฐ ๋ ๋ฒจ์ Resolution + DINO-sim + aesthetic + OCR + motion score์ threshold ์กฐํฉ์ผ๋ก ์ ์๋๋ค.
4.3 Captioning
Goku๋ dense caption์ ์ ์ ๋ก ํ ์คํธ-๋น์ฃผ์ผ ์ ํฉ์ ๊ฐํํ๋ค.
- Images: InternVL2.0์ผ๋ก ๊ฐ ์ด๋ฏธ์ง์ dense caption์ ์์ฑํ๋ค.
- Videos:
- InternVL2.0์ผ๋ก keyframe caption ์์ฑ
- Tarsier2๋ก video-wide caption ์์ฑ
- Tarsier2๋ camera motion type(zoom in, pan right ๋ฑ)์ ์์ฐ์ค๋ฝ๊ฒ ๊ธฐ์ ํ ์ ์์ด ๋ณ๋ motion-type predictor๊ฐ ํ์ ์๋ค๊ณ ์ค๋ช ํ๋ค.
- Qwen2๋ก keyframe caption๊ณผ video-wide caption์ mergeํด ์ต์ข ์บก์ ์ ๋ง๋ ๋ค.
- RAFT ๊ธฐ๋ฐ motion score๋ฅผ ์บก์ ์ ์ถ๊ฐํด, ํ๋กฌํํธ์์ motion score๋ฅผ ์ง์ ํ๋ ํํ์ motion controllability๋ฅผ ๊ฐํํ๋ค.
4.4 Training Data Balancing

๋ ผ๋ฌธ์ “๋น๋์ค ๋ฐ์ดํฐ ๋ถํฌ”๊ฐ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ์ค๋ค๊ณ ์ ์ ํ๋ค. ์ด๋ฅผ ์ํด internal video classification model๋ก semantic tag๋ฅผ ์์ฑํ๊ณ , tag ๋ถํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ์ฌ์กฐ์ ํ๋ค.
- semantic tag ์์ฑ: 4๊ฐ์ evenly sampled keyframe์ ์ฌ์ฉํด ๋ถ๋ฅ
- ๋ถ๋ฅ ์ฒด๊ณ: 9๊ฐ primary class(์: human, scenery, animals, food ๋ฑ) + 86๊ฐ subcategory(์: half-selfie, kid, dinner, wedding ๋ฑ)
- ๊ด์ธก๋ ๋ถํฌ: humans/scenery/food/urban life/animals๊ฐ ์๋์ ์ผ๋ก ์ฐ์ธ
Balancing ์ ๋ต์ ๋ค์์ ๋ชฉํ๋ก ํ๋ค.
- human ๊ด๋ จ ์ฝํ ์ธ ๋ appearance diversity๊ฐ ํฌ๊ณ ๋ชจ๋ธ๋ง ๋๋๊ฐ ๋์ผ๋ฏ๋ก human ๋น์ค์ ์๋์ ์ผ๋ก ๊ฐ์กฐํ๋ค.
- ๋์์ ๊ฐ primary category ๋ด๋ถ์์ subcategory๊ฐ ์น์ฐ์น์ง ์๋๋ก equitable representation์ ๋ณด์ฅํ๋ค.
๊ตฌ์ฒด์ ์กฐ์ ๋ฐฉ์์ ๋ค์์ผ๋ก ๊ธฐ์ ๋๋ค.
- overrepresented subcategory: selective down-sampling
- underrepresented subcategory: artificial data generation + oversampling
์ด ๊ณผ์ ์ ํตํด Figure 3b์ ๊ฐ์ ๊ท ํ ๋ถํฌ๋ฅผ ์ป๋๋ค๊ณ ์ค๋ช ํ๋ค.
5. Experiments
๋ ผ๋ฌธ์ Goku๋ฅผ T2I / T2V / I2V ๊ด์ ์์ ํ๊ฐํ๋ฉฐ, ์ ๋ ๋ฒค์น๋งํฌ์ ์ ์ฑ ๋น๊ต + ablation์ผ๋ก ๊ตฌ์ฑํ๋ค. ์ด ์ ์ ์์น ํด์์ ํ์ํ ํฌ์ธํธ๋ง ๊ฐ์ํํด ์ ๋ฆฌํ๋ค.
5.1 Text-to-Image (T2I)

Goku-T2I๋ dense generative caption ์ค์ฌ ํ์ต์ ์ ์ ๋ก, text-image alignment์ ๊ฐํ๊ฒ ๊ฐ์กฐํ๋ค.
- GenEval: ์๋ณธ(short prompt)๊ณผ, ์๋ณธ ์๋ฏธ๋ฅผ ์ ์งํ ์ฑ ๋ ์์ธํ๊ฒ ํ์ฅํ rewritten prompt(๋
ผ๋ฌธ์์๋ ChatGPT-4o๋ฅผ ์ฌ์ฉ)๋ฅผ ๋ชจ๋ ํ๊ฐํ๋ค.
- Goku-T2I(2B)๋ ์๋ณธ ํ๋กฌํํธ์์๋ ๊ฐํ ์ ์๋ฅผ ๋ณด์ด๋ฉฐ, rewritten prompt์์๋ 0.76๋ก ์ต๊ณ ์ฑ๋ฅ์ ๋ณด๊ณ ํ๋ค.
- ์ด ๊ฒฐ๊ณผ๋ “์์ธ ํ๋กฌํํธ์ ๊ฐํ caption-centric ํ์ต”์ด ์ค์ alignment ์งํ์์ ์ด์ ์ ์ค๋ค๋ ํด์๊ณผ ๋ง๋ฌผ๋ฆฐ๋ค.
- T2I-CompBench / DPG-Bench: ์/ํํ/ํ
์ค์ฒ ๊ฐ์ ์กฐํฉ์ ์์ฑ(comp. attributes)๊ณผ ์ฌ๋ ์ ํธ ๊ธฐ๋ฐ ํ์ง(๋๋ ํ๋กฌํํธ-์ด๋ฏธ์ง ์ ํฉ)์ ํจ๊ป ๋ณธ๋ค.
- Table 5์์ Goku-T2I(2B)๋ T2I-CompBench์ color/shape/texture ์ถ์์ ๊ฒฝ์๋ ฅ ์๋ ์์น๋ฅผ ๋ณด์ด๊ณ , DPG-Bench์์ 83.65๋ฅผ ๋ณด๊ณ ํ๋ค(ํ ๋ด ํ๊ท ์ ์).
์์ฝํ๋ฉด, T2I ์คํ ํํธ์ ๋ฉ์์ง๋ “RF objective ์์ฒด”๋ณด๋ค (a) dense caption ๊ธฐ๋ฐ ํ์ต, (b) ์ธ๋ฐํ prompt์์์ ์ ํฉ ์ฐ์์ด๋ค.
5.2 Text-to-Video (T2V)


- UCF-101 zero-shot (FVD↓ / IS↑)
- Table 6์์ Goku-2B๋ 256×256 ๊ธฐ์ค FVD 246.17 / IS 45.77(±1.10)์ ๋ณด์ฌ์ค๋ค.
- ๋์ผ ๋ชจ๋ธ์ ์๋ก ๋ค๋ฅธ ํด์๋(240×360, 128×128)๋ก ์์ฑํ์ ๋์ ์์น๋ ํจ๊ป ์ ์ํ๋ฉฐ, ํด์๋/ํ ํฐ ๊ธธ์ด/ํ์ต ์์ ์ฑ๊ณผ์ trade-off๋ฅผ ๊ฐ์ ์ ์ผ๋ก ๋ณด์ฌ์ค๋ค.
- VBench (16D ํ๊ฐ์ ์์ฝ์น)
- Table 7์์ Goku(ours)๋ Overall 84.85๋ก ๋น๊ต ๋์ ์ค ์ต๊ณ ์ฑ๋ฅ์ ๋ณด๊ณ ํ๋ค.
- Quality score 85.60, Semantic score 81.87์ ํจ๊ป ์ ์ํ๋ฉฐ, ๋จ์ ํ์ง๋ฟ ์๋๋ผ ์๋ฏธ ์ ํฉ๊ณผ ๋์ ํํ(์: multiple objects, dynamic degree ๋ฑ)๊น์ง ๊ท ํ ์๊ฒ ๋์ด์ฌ๋ ธ๋ค๋ ๋ฉ์์ง๋ฅผ ๊ฐ์กฐํ๋ค.
- ์ ์ฑ ๋น๊ต
- ๊ณต๊ฐ ๋ชจ๋ธ(CogVideoX, Open-Sora-Plan ๋ฑ)๊ณผ ์์ฉ ์ ํ(Pika, DreamMachine, Vidu, Kling v1.5 ๋ฑ)์ ํจ๊ป ๋น๊ตํ๋ค.
- ๋ ผ๋ฌธ์ ๋ณต์ก ํ๋กฌํํธ์์ ์ผ๋ถ ์์ฉ ๋ชจ๋ธ์ด ํต์ฌ ์์๋ฅผ ๋๋ฝํ๊ฑฐ๋(์: ํน์ ๊ฐ์ฒด/๊ตฌ์ฑ ์คํจ), ๋ชจ์ ์ผ๊ด์ฑ์ด ๊นจ์ง๋ ์ฌ๋ก๋ฅผ ์ธ๊ธํ๋ฉฐ, Goku-8B๊ฐ ์ธ๋ถ ์์ ๋ฐ์๊ณผ ๋ชจ์ ์ผ๊ด์ฑ์์ ์ฐ์ํจ์ ๊ฐ์กฐํ๋ค.
5.3 Image-to-Video (I2V)

I2V๋ T2V๋ฅผ ํ์ตํ ๋ค, reference image conditioning์ ์ถ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ํ์ฅํ๋ค.
- T2V initialization์์ ์ถ๋ฐํด, ์ฝ 4.5M text-image-video triplet๋ก finetuneํ๋ค.
- finetuning step์ 10k๋ก ๋น๊ต์ ์งง๊ฒ ์ค์ ๋์ง๋ง, reference image์ ์ ์ฒด์ฑ์ ์ ์งํ๋ฉด์ ํ ์คํธ ์กฐ๊ฑด์ ๋ง๋ ๋ชจ์ ์ ์์ฑํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋ค๊ณ ์ ๋ฆฌํ๋ค.
5.4 Ablation

๋ ผ๋ฌธ์ ์๋ ๋ ์ถ์ ๊ฐ๋จํ ablationํ๋ค.
- Model scaling (2B → 8B): ํ๋ผ๋ฏธํฐ๋ฅผ ๋๋ฆฌ๋ฉด, ์๊ณก๋ ๊ตฌ์กฐ(ํ, ๋ฐํด ๋ฑ) ๊ฐ์ “local geometry artifact”๊ฐ ์ํ๋๋ ๊ฒฝํฅ์ ์ ์ํ๋ค.
- Joint training ์ ๋ฌด: ๋์ผํ pretrained Goku-T2I(8B)์์ ์ถ๋ฐํด, ๋์ผ step์ผ๋ก 480p ๋น๋์ค๋ฅผ finetuneํ ๋
- joint image+video training์ด ์์ผ๋ฉด ํ๋ ์ ํ์ง์ด ๋จ์ด์ง๊ฑฐ๋ photorealism์ด ๊นจ์ง๊ธฐ ์ฝ๊ณ ,
- joint training์ ํฌํจํ๋ฉด photorealistic frame์ด ๋ ์์ ์ ์ผ๋ก ์ ์ง๋๋ค๊ณ ๋ณด๊ณ ํ๋ค.
Goku์ ํต์ฌ ๊ธฐ์ฌ๋ “RF๋ก ๋น๋์ค๋ฅผ ๋ง๋ ๋ค”๊ฐ ์๋๋ผ, ํ์ค์ ์ธ ์ค์ผ์ผ์์ T2V/I2V ๋ชจ๋ธ์ ํ์ต ๊ฐ๋ฅํ ํํ๋ก ํจํค์งํ๋ค๋ ์ ์ด๋ค. ํ์์ ์์ ์์ฌ์ ์ ํฌ๊ฒ ์ธ ๊ฐ์ง๋ก ์ ๋ฆฌ๋๋ค.
- ๋น๋์ค ์์ฑ์ ์๊ณ ๋ฆฌ์ฆ๋ณด๋ค ‘๋ฐ์ดํฐ+์์คํ
’์ ๋ฌธ์ ๋ก ์๋ ดํ๊ณ ์๋ค.
- longest sequence >220K tokens ๊ฐ์ ์ค์ ์์ full-attention์ ์ ์งํ๋ ค๋ฉด, SP/FSDP/AC/์ฒดํฌํฌ์ธํธ/์ฅ์ ๋ณต๊ตฌ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ถ๊ฐ ๋๋ค.
- ๋ชจ๋ธ ์ํคํ ์ฒ๋ง ๋ณต์ ํด์๋ ์ฌํ์ด ์ ๋๊ณ , ํ์ต ์ธํ๋ผ ์ค๊ณ๊ฐ ์ฑ๋ฅ์ ์ค์ง์ ๊ฒฐ์ ์์ธ์ด ๋๋ค.
- ํ๋ ์ด์
์ด ๊ณง ์ฑ๋ฅ์ด๊ณ , ํ๋ ์ด์
์ด ๊ณง ์ปค๋ฆฌํ๋ผ์ด๋ค.
- Table 3/4์ฒ๋ผ ํด์๋ ๋จ๊ณ๋ณ๋ก DINO similarity/aesthetic/OCR/motion threshold๋ฅผ ๋ช ์์ ์ผ๋ก ์ค๊ณํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ 36M→24M→7M์ผ๋ก ๋ฐ์ดํฐ๊ฐ ์ ์ ๋๋ ํ๋ฆ ์์ฒด๊ฐ ํ์ต ์ปค๋ฆฌํ๋ผ์ผ๋ก ์๋ํ๋ค.
- ํนํ motion score ๊ธฐ๋ฐ ํํฐ๋ง๊ณผ caption ์ฃผ์ ์ “๋ฐ์ดํฐ ํ์ง ์ ์ด”๋ฅผ ๋์ด “๋ชจ์ controllability”์ ์ง์ ์ฐ๊ฒฐ๋๋ ์ค๊ณ๋ก ์ฝํ๋ค.
- joint image+video ํ์ต์ ๋น๋์ค ์์ฑ์์ ์ค์ฉ์ ์ธ ์น๋ถ์ฒ๊ฐ ๋๋ค.
- ๋น๋์ค๋ ๊ณ ํ์ง ๋ฐ์ดํฐ๊ฐ ํญ์ ๋ถ์กฑํ๊ณ ๋ถํฌ ๋ ธ์ด์ฆ๊ฐ ํฌ๋ค.
- Goku๋ stage-1(T2I)๋ก ์๋ฏธ๋ฅผ ๊ณ ์ ํ๊ณ , stage-2์์ ์ด๋ฏธ์ง์ ์๊ฐ์ ๋ค์์ฑ๊ณผ ํ์ง์ ๋น๋์ค๋ก ์ ์ด์ํค๋ฉฐ, stage-3์์ ๋ชจ๋ฌ๋ฆฌํฐ๋ณ๋ก ์ ๋ จํ๋ ์ ๋ต์ ํตํด ์ด ๋ฌธ์ ๋ฅผ ์ ๋ฉด์ผ๋ก ๋ค๋ฃฌ๋ค.
์ข ํฉํ๋ฉด, Goku๋ “์ต๊ณ ์ฑ๋ฅ์ ๋จ์ผ ๊ธฐ๋ฒ”์ ์ ์ํ ๋ ผ๋ฌธ์ด๋ผ๊ธฐ๋ณด๋ค, ๋๊ท๋ชจ video foundation model์ ๋ง๋ค ๋ ์ด๋์ ์์ง๋์ด๋ง์ ํฌ์ํด์ผ ํ๋์ง๋ฅผ ๊ตฌ์ฒด์ ์ธ ์์น์ ํ์ดํ๋ผ์ธ์ผ๋ก ๋ณด์ฌ์ฃผ๋ ๋ ํผ๋ฐ์ค์ ๊ฐ๊น๋ค. ์์ผ๋ก์ ๊ฒฝ์์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ณด๋ค, (a) long-seq ํ์ต์ ์ง์ ๊ฐ๋ฅํ ๋น์ฉ์ผ๋ก ๋ง๋๋ ์์คํ , (b) ๋ฐ์ดํฐ ํ์ง์ ์ ์ํ๊ณ ํต์ ํ๋ ํ๋ ์ด์ ๋ ์ํผ, (c) ์ด๋ฏธ์ง·๋น๋์ค๋ฅผ ํจ๊ป ๊ตด๋ฆฌ๋ joint ํ์ต ์ค๊ณ์์ ๋ ํฌ๊ฒ ๊ฐ๋ฆด ๊ฐ๋ฅ์ฑ์ด ๋๋ค.