Qwen3-VL 테크니컬 리포트 리뷰 | VLM | MLLM
·
🏛 Research/Multi-modal
1. Qwen3-VL 개요1.1 목표Qwen3-VL은 단순히 이미지를 입력으로 받을 수 있는 LLM이 아니다. 텍스트, 이미지, 비디오가 섞인 초장문 컨텍스트 환경에서 실제 추론과 문제 해결을 수행할 수 있는 멀티모달 파운데이션 모델을 목표로 한다. 리포트 전반에서 강조되는 핵심 목표는 다음과 같다.텍스트 성능을 희생하지 않는 VLM최대 256K 토큰의 네이티브 롱 컨텍스트 처리멀티모달 reasoning, 문서 이해, 차트 해석, 에이전트 시나리오 대응이는 Qwen2.5-VL이 주로 '이미지를 잘 이해하는 LLM'에 초점이 있었다면, Qwen3-VL은 복합 멀티모달 환경에서 실제로 일할 수 있는 모델로 확장되었다고 주장한다.1.2 모델 라인업과 스케일 전략Qwen3-VL은 Dense 모델과 MoE(Mix..
[책 추천] 나는 AI엔지니어입니다 | 제이펍 | AI/ML 직군 취업 & 성장 가이드
·
💬 ETC/책 리뷰
나는 AI 엔지니어입니다 AI를 공부하기 위한 강의, 블로그, 튜토리얼은 정말 많죠.근데 막상 “AI/ML 엔지니어가 되려면 어떻게 해야 할까?”에 대한 답은 생각보다 잘 안 보이더라고요. 저도 커리어를 쌓으면서 공부보다 더 현실적인 고민들을 많이 겪었어요.데이터는 왜 늘 부족한지, 기대치는 왜 이렇게 높은지, 모델 성능 말고도 왜 챙길 게 많은지. 그래서 이 책을 만들었어요.기술을 배우는 방법만큼,그 기술로 일하면서 성장하는 과정도 누군가에게는 필요하다고 느꼈거든요. 정답을 말하려는 책은 아니에요.다만 이 기록이, AI/ML 커리어를 시작하는 분들(혹은 커리어를 성장시키려 하는 분들)에게현실적인 커리어 가이드가 되었으면 좋겠습니다. AI/ML 직군이 실제로 무슨 일을 하는지부터 커리어를 어떻게 설계하..
[T2V] Goku: Flow Based Video Generative Foundation Models 리뷰
·
🏛 Research/Image•Video Generation
1. IntroGoku는 단순히 아카데믹한 논문이 아니라, 프로덕션 레벨의 joint image/video generative foundation model을 실제로 학습·운영하기 위해 필요한 구성요소(토크나이저, 아키텍처, 데이터 큐레이션, 분산 학습 시스템)를 한 번에 정리한 설계 제안에 가깝다.비디오 생성에서 병목은 크게 세 가지로 정리된다.표현 병목: 시간축이 추가되면서 scene transition, camera motion, action dynamics 등 장면의 변화 양상이 급격히 복잡해진다.데이터 병목: 대규모 video-text 페어는 노이즈, 워터마크, 저품질 샘플, 분포 편향이 심하며, 결과적으로 큐레이션 품질이 모델 성능을 좌우한다.시스템 병목: 비디오 토큰은 시퀀스 길이가 매우 길..
MoE(Mixture of Experts) 개념 설명: 거대 모델을 sparse 계산으로 확장
·
🏛 Research/Large-scale Model
요즘 LLM에서 이야기하는 MoE(Mixture of Experts)는 sparse 라우팅 기반의 조건부 연산 구조를 의미한다. MoE는 고전적인 앙상블·모듈러 네트워크 계열과는 구분되는 개념이며, 실제로 대규모 언어 모델 스케일링 전략으로 정립된 시점은 비교적 최근이다.LLM에서의 MoE를 본격적으로 이해하기 위한 대표적 기준점은 다음 두 연구이다.Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer이 논문은 토큰마다 top-k expert만 활성화하는 sparsely-gated MoE 구조를 제안하며, 대규모 모델에서 계산 비용을 제어할 수 있음을 명확히 보여주었다. 오늘날 LLM MoE의 구조적 원형에 해당한다..
vLLM을 활용한 Large-scale AI 모델 가속화 | LLM Acceleration
·
🛠️ Engineering/Distributed Training & Inference
실험 코드와 상세 결과는 링크를 참고 - https://github.com/ldj7672/Vision-AI-Tutorials/tree/main/inference_acceleration Vision-AI-Tutorials/inference_acceleration at main · ldj7672/Vision-AI-TutorialsComputer Vision & AI를 쉽게 배우고 실습할 수 있는 예제 모음입니다. Contribute to ldj7672/Vision-AI-Tutorials development by creating an account on GitHub.github.com 1. 개요Large-scale AI 모델은 수십억 파라미터 규모의 Transformer 기반 구조를 공통적으로 사용하며, 추..
Vision Transformer(ViT): 이미지 Transformer 이해하기
·
📖 Fundamentals/AI & ML
본 글은 Vision Transformer(ViT)의 핵심 개념을 기초부터 상세하게 설명한다. ViT가 이미지를 어떻게 토큰화하고, 실제 텐서 차원이 어떻게 변하는지까지 이해하기 쉽게 정리했다. 1. Vision Transformer (ViT)Vision Transformer(ViT)는 2020년 Google Research가 발표한 모델로, 이미지를 Transformer 구조로 직접 처리하는 첫 성공 사례이다. 발표 당시만 해도 Transformer는 자연어 처리에 특화된 모델로 여겨졌기 때문에, 이미지를 언어처럼 토큰 단위로 다뤄 self-attention으로 처리한다는 발상 자체가 매우 혁신적이었다. ViT는 이미지도 문장처럼 “순서가 있는 토큰 시퀀스”로 바라볼 수 있다는 점을 보여주었고, 이후 ..