[MLLM] Gemma 3 테크니컬 리포트 리뷰
·
🏛 Research/Multi-modal
https://arxiv.org/abs/2503.197861. IntroductionGemma 3는 Google DeepMind가 2025년 3월 공개한 경량 오픈 모델 시리즈에 멀티모달 비전 능력을 추가한 모델이다. Pan and Scan (P&S) 방법으로 유연한 이미지 해상도를 지원하며, Local/Global Attention 혼합 구조로 128K 토큰 컨텍스트를 효율적으로 처리한다.Google Gemma 시리즈는 오픈소스 경량 LLM으로 출발했다. Gemma 2까지는 텍스트 전용 모델이었지만, 실제 응용에서는 이미지와 텍스트를 함께 처리하는 능력이 필요하기에 MLLM으로 발전했다. 경량 model에 멀티모달 능력을 추가할 때의 주요 과제는 메모리 효율성이다. Vision encoder는 많은 t..
[MLLM] GLM-4.5V 테크니컬 리포트 리뷰
·
🏛 Research/Multi-modal
https://arxiv.org/abs/2507.010061. IntroductionGLM-4.5V는 Zhipu AI와 Tsinghua University가 2025년 7월 1일 테크리포트에서 소개된 RLCS(Reinforcement Learning with Curriculum Sampling)를 포함한 스케일러블 멀티모달 RL 레시피를 기반으로, 2025년 8월 11일경 공개/배포된 VLM이다. GLM-4.5V는 GLM-4.5-Air 기반(MoE, 106B total / 12B active)이며, RLCS를 포함한 멀티모달 RL 스택(RLVR + RLHF, unified reward system, dynamic sampling expansion 등)을 통해 멀티모달 추론 능력을 강화한 모델이다. 기존 ..
[MLLM] InternVL3.5 테크니컬 리포트 리뷰
·
🏛 Research/Multi-modal
https://arxiv.org/abs/2508.182651. IntroductionInternVL3.5는 OpenGVLab이 2025년 8월 공개한 효율성과 성능을 동시에 개선한 오픈소스 멀티모달 모델로, Qwen 시리즈 다음으로 자주 등장하는 모델이 아닐까 싶다. 기존 멀티모달 모델들은 성능 향상에 집중했지만, 추론 속도와 메모리 효율성은 상대적으로 소홀했다. InternVL3.5는 성능과 효율성을 동시에 개선하는 것이 실용적 배포에 필수적임을 보여준다. 특히 추론 속도 약 4배 향상은 실시간 응용에서 큰 차이를 만든다. 기존 InternVL3는 다양한 멀티모달 작업에서 좋은 성능을 보였지만, 추론 속도와 메모리 효율성 측면에서 개선이 필요했다. 특히 대규모 모델을 배포할 때는 단일 GPU의 메모리 ..
Qwen3-VL 테크니컬 리포트 리뷰 | VLM | MLLM
·
🏛 Research/Multi-modal
1. Qwen3-VL 개요1.1 목표Qwen3-VL은 단순히 이미지를 입력으로 받을 수 있는 LLM이 아니다. 텍스트, 이미지, 비디오가 섞인 초장문 컨텍스트 환경에서 실제 추론과 문제 해결을 수행할 수 있는 멀티모달 파운데이션 모델을 목표로 한다. 리포트 전반에서 강조되는 핵심 목표는 다음과 같다.텍스트 성능을 희생하지 않는 VLM최대 256K 토큰의 네이티브 롱 컨텍스트 처리멀티모달 reasoning, 문서 이해, 차트 해석, 에이전트 시나리오 대응이는 Qwen2.5-VL이 주로 '이미지를 잘 이해하는 LLM'에 초점이 있었다면, Qwen3-VL은 복합 멀티모달 환경에서 실제로 일할 수 있는 모델로 확장되었다고 주장한다.1.2 모델 라인업과 스케일 전략Qwen3-VL은 Dense 모델과 MoE(Mix..
[책 추천] 나는 AI엔지니어입니다 | 제이펍 | AI/ML 직군 취업 & 성장 가이드
·
💬 ETC/책 리뷰
나는 AI 엔지니어입니다 AI를 공부하기 위한 강의, 블로그, 튜토리얼은 정말 많죠.근데 막상 “AI/ML 엔지니어가 되려면 어떻게 해야 할까?”에 대한 답은 생각보다 잘 안 보이더라고요. 저도 커리어를 쌓으면서 공부보다 더 현실적인 고민들을 많이 겪었어요.데이터는 왜 늘 부족한지, 기대치는 왜 이렇게 높은지, 모델 성능 말고도 왜 챙길 게 많은지. 그래서 이 책을 만들었어요.기술을 배우는 방법만큼,그 기술로 일하면서 성장하는 과정도 누군가에게는 필요하다고 느꼈거든요. 정답을 말하려는 책은 아니에요.다만 이 기록이, AI/ML 커리어를 시작하는 분들(혹은 커리어를 성장시키려 하는 분들)에게현실적인 커리어 가이드가 되었으면 좋겠습니다. AI/ML 직군이 실제로 무슨 일을 하는지부터 커리어를 어떻게 설계하..
[T2V] Goku: Flow Based Video Generative Foundation Models 리뷰
·
🏛 Research/Image•Video Generation
1. IntroGoku는 단순히 아카데믹한 논문이 아니라, 프로덕션 레벨의 joint image/video generative foundation model을 실제로 학습·운영하기 위해 필요한 구성요소(토크나이저, 아키텍처, 데이터 큐레이션, 분산 학습 시스템)를 한 번에 정리한 설계 제안에 가깝다.비디오 생성에서 병목은 크게 세 가지로 정리된다.표현 병목: 시간축이 추가되면서 scene transition, camera motion, action dynamics 등 장면의 변화 양상이 급격히 복잡해진다.데이터 병목: 대규모 video-text 페어는 노이즈, 워터마크, 저품질 샘플, 분포 편향이 심하며, 결과적으로 큐레이션 품질이 모델 성능을 좌우한다.시스템 병목: 비디오 토큰은 시퀀스 길이가 매우 길..