Qwen3-VL 테크니컬 리포트 리뷰 | VLM

1. Qwen3-VL 개요

1.1 목표

Qwen3-VL은 단순히 이미지를 입력으로 받을 수 있는 LLM이 아니다. 텍스트, 이미지, 비디오가 섞인 초장문 컨텍스트 환경에서 실제 추론과 문제 해결을 수행할 수 있는 멀티모달 파운데이션 모델을 목표로 한다. 리포트 전반에서 강조되는 핵심 목표는 다음과 같다.

텍스트 성능을 희생하지 않는 VLM
최대 256K 토큰의 네이티브 롱 컨텍스트 처리
멀티모달 reasoning, 문서 이해, 차트 해석, 에이전트 시나리오 대응

이는 Qwen2.5-VL이 주로 '이미지를 잘 이해하는 LLM'에 초점이 있었다면, Qwen3-VL은 복합 멀티모달 환경에서 실제로 일할 수 있는 모델로 확장되었다고 주장한다.

1.2 모델 라인업과 스케일 전략

Qwen3-VL은 Dense 모델과 MoE(Mixture of Experts) 모델을 함께 제공한다.

Dense: 2B, 4B, 8B, 32B
MoE: 30B-A3B, 235B-A22B

MoE 표기에서 A3B, A22B는 토큰당 활성화되는 파라미터 규모를 의미한다. 예를 들어 235B-A22B 모델은 전체 용량은 235B이지만, 각 토큰마다 실제로 계산에 참여하는 파라미터는 22B 수준이다. 이는 Dense 모델 대비 추론 비용을 제어하면서도, 매우 큰 모델 용량을 확보하기 위한 선택이다.

*MoE가 요즘 트렌드이다. 다른 기업들도 Dense 구조와 MoE 구조를 함께 공개하는 경우가 많다.

2. 모델 아키텍처

본 장에서는 Qwen3-VL의 모델 아키텍처를 입력 → 인코딩 → 결합 → 추론의 흐름에 따라 각 모듈 단위로 상세히 설명한다.

2.1 전체 구조 개요

Qwen3-VL의 핵심 설계 철학은 멀티모달 정보를 별도의 보조 입력이 아니라, LLM에 입력되는 하나의 토큰 시퀀스로 만든다는 것이다.

전체 파이프라인은 다음과 같은 모듈로 구성된다.

Text Tokenizer
Vision Encoder
Multimodal Token Assembler (interleaved sequence 구성)
Positional / Temporal Encoding (Interleaved-MRoPE, timestamp)
LLM Backbone (Dense 또는 MoE Transformer)
Vision–Language Fusion Module (DeepStack)

2.2 입력 데이터 인코딩

2.2.1 텍스트 입력

텍스트는 기존 Qwen 계열 LLM과 동일한 tokenizer를 사용해 subword 토큰으로 변환된다. 이 단계에서 중요한 점은, 멀티모달 입력이라 하더라도 텍스트 토큰 자체의 분포나 처리 방식은 변경하지 않는다는 것이다. 이는 멀티모달 학습 이후에도 텍스트 성능을 유지하기 위한 기본 전제이다.

2.2.2 이미지 입력

이미지는 Vision Encoder(ViT 계열)에 입력되어 패치 단위 시각 토큰으로 변환된다.

입력 해상도는 고정되지 않으며
이미지 크기에 따라 패치 수(= vision 토큰 수)가 달라진다

이는 문서, 차트, UI처럼 세부 정보가 중요한 입력을 손실 없이 처리하기 위한 선택이다.

초기 ViT는 패치 크기와 입력 이미지 크기가 고정되어 패치(토큰) 개수도 항상 고정이었다면, 최신 VLM의 vision encoder는 패치 크기만 고정한 채 입력 이미지의 해상도와 aspect ratio를 유지하고, 이에 따라 생성되는 시각 토큰의 개수가 동적으로 변하도록 설계된다. 이러한 설계는 variable-length 입력을 전제로 한 학습과 RoPE 기반 상대적 위치 인코딩 덕분에 가능해졌다.

2.2.3 비디오 입력

비디오는 일정 간격으로 샘플링된 프레임들이 Vision Encoder를 거쳐 시각 토큰으로 변환된다. 이후 각 프레임 그룹 앞에는 명시적인 timestamp 토큰이 삽입된다.

2.3 Multimodal Token Assembler

Qwen3-VL은 텍스트와 시각 토큰을 분리된 입력으로 처리하지 않는다. 대신 다음과 같은 형태의 interleaved 토큰 시퀀스를 구성한다.

[텍스트 토큰] + + [시각 토큰]
[텍스트 토큰] + + <time=t> + [시각 토큰]

이 구조의 장점은 다음과 같다.

LLM이 멀티모달 정보를 순차적으로 읽으며 추론 가능
“이 이미지 이후의 설명”, “이 시점 이후의 사건” 같은 문맥적 해석이 자연스러움

Qwen2.5-VL 대비 Qwen3-VL은 이 시퀀스를 256K 토큰까지 안정적으로 처리할 수 있도록 설계되었다.

2.4 Positional & Temporal Encoding

2.4.1 Interleaved-MRoPE

Qwen2.5-VL의 MRoPE는 t/h/w 정보를 분리된 차원에 배치했으나, Qwen3-VL은 이를 interleave한다.

시간, 높이, 너비 정보를 임베딩 차원의 전반에 분산
특정 축 정보가 장거리에서 소실되는 문제 완화

이 설계는 특히 장문 문서와 긴 비디오에서 성능 차이를 만든다.

2.4.2 Timestamp Token

비디오 프레임 앞에 <time=…> 형태의 텍스트 토큰을 삽입함으로써, 시간 정보를 positional encoding에만 의존하지 않도록 했다.

2.5 Vision–Language Fusion: DeepStack

DeepStack은 Qwen3-VL 아키텍처의 핵심인데, 기존엔 Vision Encoder의 마지막 레이어 출력만 LLM에 전달하는 방식이었다면, Qwen3-VL에서는 아래와 같은 방식을 사용한다.

Vision Encoder
  ├─ F₁ (low-level) ─→ LLM layer k
  ├─ F₂ (mid-level) ─→ LLM layer k+Δ
  ├─ F₃ (high-level) ─→ LLM layer k+2Δ

Vision Encoder의 여러 레이어 출력을 추출
LLM의 여러 레이어에 대응시켜 residual 형태로 주입

이로 인해 LLM은 다음 정보를 동시에 활용할 수 있다고 한다.

저수준: 레이아웃, 텍스처, 작은 글씨
중간 수준: 객체, 영역, 구조
고수준: 의미, 관계, 추론 단서

2.6 LLM Backbone: Dense vs MoE

Qwen3-VL은 두 가지 LLM 백본을 제공한다.

2.6.1 Dense Transformer

모든 토큰이 동일한 FFN 파라미터를 사용
소형~중형 모델에 적합
단순성과 안정성이 장점

2.6.2 MoE Transformer

FFN을 여러 expert로 분리
Router가 토큰별로 상위 k개 expert만 활성화

멀티모달 환경에서는 토큰 분포가 매우 다양하기 때문에, MoE는 암묵적인 기능 분화를 유도하며 대형 모델에서 특히 효과적이다.

3. 모델 학습 전략

본 장에서는 Qwen3-VL이 어떤 학습 스테이지를 거쳐 최종 모델이 되었는지를 단계별로 설명한다.

3.1 학습 파이프라인 개요

Qwen3-VL의 학습은 큰 틀에서 다음 단계로 이해하면 된다.

멀티모달 pretraining

이미지 캡션, interleaved 문서, 지식/추론 데이터 등을 통해 범용 멀티모달 능력 학습
256K 컨텍스트를 고려한 데이터 구성과 학습 세팅

post-training

instruction-following, reasoning 강화
Non-Thinking / Thinking 두 갈래로 분기

이때 Qwen3-VL은 post-training에 더 많은 자원을 할당하여 실제 사용 시나리오에서 체감 성능을 끌어올리는 전략을 취한다.

3.2 멀티모달 입력이 학습에 들어가는 형태

학습 단계에서도 입력은 추론과 동일하게 interleaved 토큰 시퀀스로 구성된다.

이미지 캡션 학습: [텍스트 프롬프트(또는 빈 프롬프트) + + 시각 토큰 + 정답 캡션]
문서/책 학습: [페이지1 텍스트 + 페이지1 이미지 + 페이지2 텍스트 + …] 형태로 멀티페이지 시퀀스 구성
비디오 학습: [질문 텍스트 + + <time=…> + 프레임 시각 토큰 + 정답] 형태로 구성

즉, 데이터는 모두 “하나의 시퀀스”로 정규화되어 모델에 들어간다.

3.3 Token-level loss: Square-Root Reweighting

멀티모달 학습에서 흔히 생기는 문제는 비전 데이터 비중이 커질수록 텍스트 능력이 떨어지는 현상이다. 이는 모델이 예측해야 하는 정답은 결국 텍스트 토큰이지만, 멀티모달 입력에서는 이미지·비디오에서 나온 조건 토큰(visual tokens)과 각종 제어 토큰이 컨텍스트를 크게 확장하면서, 학습 신호가 ‘언어 자체’보다 ‘조건 해석’ 쪽으로 과도하게 쏠리기 때문이다.

Qwen3-VL은 이를 완화하기 위해 토큰 단위로 학습 신호의 기여도를 재조정하는 square-root reweighting을 적용한다. 즉, 텍스트 토큰이 만들어내는 CE loss의 비중을 상대적으로 강화하고, 멀티모달 조건이 과도하게 많은 샘플에서 언어 학습 신호가 희석되지 않도록 균형을 맞춘다.

이 설계는 멀티모달 성능을 끌어올리면서도 LLM으로서의 텍스트 성능을 유지하기 위한 학습 안정화 장치로 볼 수 있다.

3.4 Thinking vs Non-Thinking: post-training 분기

post-training에서 모델은 두 유형으로 분기된다.

Non-Thinking: 빠르고 실용적인 응답, 일반 서비스 지향
Thinking: 단계적 추론을 장려하는 학습을 통해 복잡한 reasoning에서 성능 강화

같은 backbone이라도 학습 목표(응답 스타일, reasoning 스타일)를 다르게 주면서 사용처를 분리한 전략이다.

4. 데이터

4.1 데이터 파이프라인

리포트의 데이터 파트는 단순히 '어떤 데이터가 많다'가 아니라, 데이터가 모델 입력 시퀀스로 들어가기까지 어떤 정제·변환 과정을 거치는지가 핵심이다. 큰 흐름은 다음과 같다.

원천 데이터 수집(웹 이미지-텍스트, 문서, 책, 비디오, 지식/추론 데이터)
정제/필터링(품질/도메인/유해성/중복)
재구성(재캡셔닝, 문서 파싱 및 텍스트-이미지 정렬, 롱컨텍스트 시퀀스 구성)
최종 시퀀스화(interleaved 토큰 시퀀스로 변환)
학습 투입(토큰 단위 손실로 최적화)

4.2 이미지 캡션 데이터

Qwen3-VL은 이미지-텍스트 쌍을 그대로 쓰지 않고, Qwen2.5-VL 기반 재캡셔닝 모델을 활용해 캡션 품질을 크게 끌어올린다.

원본의 짧고 불완전한 텍스트를 그대로 학습하면, 모델이 ‘대충 맞는’ 묘사에 익숙해지기 쉽다.
재캡셔닝은 객체 속성, 공간 배치, 문맥 정보를 보강하여 더 학습 가치가 높은 텍스트를 만든다.

또한 중복 제거는 이미지가 아니라 “재캡셔닝된 텍스트 의미” 기준으로 수행하여 시각 다양성을 최대한 보존한다.

4.3 Interleaved 문서/웹 데이터

웹에서 수집한 interleaved 문서에는 광고, 홍보, 클릭베이트 같은 저가치 데이터가 섞이기 쉽다. Qwen3-VL은 경량 Qwen 기반 스코어러로 도메인 분류를 수행하고, 특정 카테고리를 체계적으로 제외한다.

이 과정의 의의는 다음과 같다.

모델이 '정보 밀도 높은 문서'에 더 많이 노출된다.
장문 문서 이해, 문서 QA, 검색형 질의에 필요한 언어 습관이 강화된다.

4.4 Book 스케일 데이터

책 단위 데이터는 단순히 페이지를 독립 샘플로 쓰지 않고, 여러 페이지를 순서대로 이어 붙여 최대 256K 토큰 시퀀스를 구성한다.

이때 무작정 길게 붙이는 것이 아니라,

이미지-텍스트 정렬이 충분히 높은지
이미지/텍스트 비율이 최소 기준을 만족하는지
순수 텍스트 구간이 과도하게 길지 않은지

같은 품질 기준을 강하게 적용한다. 이러한 설계는 “긴 문서를 끝까지 읽고, 앞에서 본 표/그림을 뒤에서 다시 참조”하는 능력을 학습시키기 위한 것이다.

4.5 Spatial Understanding

Qwen3-VL은 단순히 bounding box를 맞추는 데이터만으로는 부족하다고 본다. 그래서 Spatial Understanding 데이터는 다음을 포함한다.

Relation: “컵이 노트북 왼쪽에 있다” 같은 상대적 표현
Affordance: graspable, pressable, sittable 같은 행동 가능성
Action-conditioned: “모니터 뒤 책을 꺼내려면 무엇을 먼저 옮겨야 하나” 같은 플래닝 질문

핵심은 ‘절대 좌표’가 아니라 대상 간 관계로 공간을 기술하게 하여, 해상도나 촬영 조건이 달라도 일반화되는 추론을 유도하는 점이다.

4.6 3D Grounding: 단안 이미지에서 9-DoF 3D bbox

3D Grounding 데이터는 단일 시점 이미지 + 자연어 지시 + 9-DoF 3D bbox(JSON)를 학습 형태로 구성한다.

실제 데이터는 센서/소스가 다양해 카메라 파라미터가 다르고 노이즈도 존재하므로,

과도한 가림/부정확 라벨을 필터링
가상 카메라 좌표계로 통일
더 풍부한 텍스트 질의를 만들기 위해 상세 캡션을 합성

같은 정제 과정을 거친다.

4.7 요약

Qwen3-VL의 데이터 전략은 단순히 규모 경쟁이 아니라,

멀티모달 정보를 ‘한 줄의 시퀀스’로 정규화하고
long-context가 의미 있게 작동하도록 샘플을 구성하며
문서/차트/공간/비디오 같은 실제 사용처를 데이터 단계에서 반영

하는 방식으로 정리할 수 있다.

5. Qwen2.5-VL과의 핵심 차이 정리

Qwen3-VL은 Qwen2.5-VL 대비 다음과 같은 방향으로 개선됐다.

Interleaved-MRoPE로 장문/장비디오에서 위치 표현 안정화
DeepStack으로 멀티레벨 시각 특징을 LLM 레이어에 직접 주입
비디오 시간 표현을 timestamp 토큰으로 명시화
좌표계를 [0, 1000] 정규화로 통일하여 다운스트림 사용성 강화
토큰 단위 손실과 재캡셔닝/롱컨텍스트 시퀀스 구성으로 “텍스트 성능 유지 + 멀티모달 강화”를 동시에 달성

6. 실험 결과 및 분석

6.1 Qwen2.5-VL 및 기존 VLM 대비 성능 차이

리포트 전반에서 공통적으로 나타나는 경향은 다음과 같다.

단순 이미지 이해 태스크에서는 Qwen2.5-VL과의 격차가 크지 않다.
반면, long-context, 문서 기반 reasoning, 차트/표 해석, 비디오 이해에서는 Qwen3-VL이 일관되게 우위에 있다.

이는 Qwen3-VL의 성능 향상이 특정 벤치마크 튜닝이 아니라,

Interleaved-MRoPE에 의한 장문 안정성
DeepStack에 의한 멀티레벨 시각 정보 활용
데이터 단계에서의 long-context 시퀀스 구성

같은 구조적 변화에서 기인함을 시사한다. 특히 문서 QA, 차트 이해, OCR 기반 reasoning 태스크에서는 단순히 “글자를 읽는지”가 아니라 아래와 같은 능력에서 차이가 발생한다.

레이아웃을 기억하고
앞에서 본 정보를 뒤에서 다시 참조하며
시각 정보와 텍스트를 결합해 추론

6.2 모델 스케일별 성능 차이

Qwen3-VL은 2B부터 235B-A22B까지 매우 넓은 스케일을 제공하며, 스케일 증가에 따라 성능 향상 양상도 비교적 명확하다.

소형 모델(2B, 4B)
- 기본적인 이미지 캡션, 단순 QA 중심
- 멀티모달 입력은 처리 가능하지만 복잡한 reasoning은 제한적
중형 모델(8B, 32B)
- 문서 QA, 차트 이해, 복합 질의에서 성능이 크게 개선
- long-context 입력에서 안정성이 체감되기 시작
MoE 대형 모델(30B-A3B, 235B-A22B)
- reasoning, STEM, 멀티모달 agent 벤치마크에서 두드러진 성능 향상
- Dense 모델 대비 계산량 증가를 억제하면서도 표현력은 크게 확장

특히 MoE 모델은 "모델 용량 대비 성능" 관점에서 효율이 높다. 이는 멀티모달 토큰 분포가 다양한 환경에서 expert specialization이 효과적으로 작동하고 있음을 간접적으로 보여준다.

Qwen3-VL 테크니컬 리포트는 최신 VLM이 어떤 문제를 인식하고, 이를 어떤 아키텍처와 학습 전략으로 풀어가고 있는지를 비교적 상세하게 보여준다. 다양한 스케일의 모델이 함께 공개되어 있어 연구와 실무 양쪽 모두에서 활용 가능성도 높다.

'🏛 Research > Multi-modal' 카테고리의 다른 글

[논문 리뷰] Visual Instruction Tuning \| LLaVA Model (1)	2024.12.04
[논문 리뷰] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (0)	2024.12.04
[논문 리뷰] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (0)	2024.12.04
[논문 리뷰] Learning Transferable Visual Models From Natural Language Supervision / CLIP / Multi-modal network (0)	2022.02.26

Qwen3-VL 테크니컬 리포트 리뷰 | VLM | MLLM

1. Qwen3-VL 개요

1.1 목표

1.2 모델 라인업과 스케일 전략

2. 모델 아키텍처

2.1 전체 구조 개요

2.2 입력 데이터 인코딩

2.2.1 텍스트 입력

2.2.2 이미지 입력

2.2.3 비디오 입력

2.3 Multimodal Token Assembler

2.4 Positional & Temporal Encoding

2.4.1 Interleaved-MRoPE

2.4.2 Timestamp Token

2.5 Vision–Language Fusion: DeepStack

2.6 LLM Backbone: Dense vs MoE

2.6.1 Dense Transformer

2.6.2 MoE Transformer

3. 모델 학습 전략

3.1 학습 파이프라인 개요

3.2 멀티모달 입력이 학습에 들어가는 형태

3.3 Token-level loss: Square-Root Reweighting

3.4 Thinking vs Non-Thinking: post-training 분기

4. 데이터

4.1 데이터 파이프라인

4.2 이미지 캡션 데이터

4.3 Interleaved 문서/웹 데이터

4.4 Book 스케일 데이터

4.5 Spatial Understanding

4.6 3D Grounding: 단안 이미지에서 9-DoF 3D bbox

4.7 요약

5. Qwen2.5-VL과의 핵심 차이 정리

6. 실험 결과 및 분석

6.1 Qwen2.5-VL 및 기존 VLM 대비 성능 차이

6.2 모델 스케일별 성능 차이

'🏛 Research > Multi-modal' 카테고리의 다른 글

티스토리툴바