vLLM을 활용한 Large-scale AI 모델 가속화 | LLM Acceleration
·
🛠️ Engineering/Distributed Training & Inference
실험 코드와 상세 결과는 링크를 참고 - https://github.com/ldj7672/Vision-AI-Tutorials/tree/main/inference_acceleration Vision-AI-Tutorials/inference_acceleration at main · ldj7672/Vision-AI-TutorialsComputer Vision & AI를 쉽게 배우고 실습할 수 있는 예제 모음입니다. Contribute to ldj7672/Vision-AI-Tutorials development by creating an account on GitHub.github.com 1. 개요Large-scale AI 모델은 수십억 파라미터 규모의 Transformer 기반 구조를 공통적으로 사용하며, 추..
[Gen AI] OmniGen2: Exploration to Advanced Multimodal Generation | 통합 멀티모달 생성 모델
·
🏛 Research/Image•Video Generation
OmniGen2는 텍스트 생성, 이미지 생성, 이미지 편집, In-context 생성까지 하나의 모델로 수행하는 "통합 멀티모달 생성 모델"이며, 이전 버전(OmniGen)을 넘어 구조·데이터·학습 전략 전반에서 크게 발전한 모델이다. 또한, 모델뿐만 아니라 데이터 구축 파이프라인까지 제안하고 있기에 관련한 실무적 인사이트를 얻을 수 있는 논문이다. 1. OmniGen2 개요OmniGen2는 하나의 모델이 다양한 생성 작업을 모두 처리하는 ‘통합 멀티모달 생성 모델’이다. 텍스트-투-이미지(T2I), 이미지 편집, 인컨텍스트(subject-driven) 이미지 생성, 멀티모달 텍스트 생성까지 하나의 시스템으로 수행할 수 있도록 설계되었다.기존 OmniGen은 텍스트와 이미지를 하나의 Transformer..
[Gen AI] 이미지 생성 모델의 평가 지표 정리 | FID, IS, CLIP Score, LPIPS,...
·
🏛 Research/Image•Video Generation
이미지 생성 모델의 품질을 평가하기 위해 다양한 정량적 지표가 사용된다. 본 포스트에서는 FID, IS, Precision/Recall, CLIP score, LPIPS 등 대표적인 평가 지표들을 개념, 계산 방식, 해석 방법 중심으로 정리한다. 1. FID (Fréchet Inception Distance)FID는 생성된 이미지들의 분포가 실제 이미지의 분포와 얼마나 유사한지를 측정하는 대표적인 지표이다. 직접적으로 이미지 간의 유사도를 1:1로 비교하는 방식이 아니라, 이미지에서 추출한 특징(feature)의 전체 분포를 비교한다는 점에서 매우 강력하고 직관적인 성질을 가진다. 계산 방식InceptionV3 모델을 통해 실제 이미지들과 생성 이미지들에서 2048차원 feature를 추출한다.두 분포의..
[Gen AI] Flow Matching & Rectified Flow 이해하기! | Diffusion 보다 더 빠른 생성 방식
·
🏛 Research/Image•Video Generation
1. 새로운 이미지 생성 방식이미지 생성 도메인에서 Diffusion Model이 텍스트 기반 이미지 생성에 폭넓게 사용되며 높은 품질의 결과를 보여주고 있다. 그러나 디퓨전 모델은 기본적으로 수백~수천 번의 노이즈 제거 과정을 거쳐야 하기에 샘플링 속도가 느리다는 단점이 존재한다. 이러한 한계를 극복하기 위해 등장한 것이 바로 Flow Matching 계열의 모델들이다. 이들은 이미지를 생성할 때 노이즈를 점차 제거해가는 방식이 아니라, 처음부터 이미지와 노이즈 사이의 경로 자체를 예측하여 보다 빠르고 효율적으로 이미지를 생성하는 방식이다.이 글에서는 Flow Matching의 기본 개념부터 이를 개선한 Rectified Flow까지 기술적으로 정리한다. 2. Flow Matching (FM)2.1 개..
PyTorch FSDP (Fully Sharded Data Parallel) 완벽 이해하기!
·
🛠️ Engineering/Distributed Training & Inference
1. FSDP(Fully Sharded Data Parallel)이란?1.1 FSDP 개념FSDP는 PyTorch에서 제공하는 고급 분산 학습 기법으로, 모델의 모든 파라미터를 GPU마다 복제하는 기존 DDP 방식과 달리, 모델의 파라미터를 GPU끼리 shard(조각) 단위로 나누어 저장하는 방식이다. 이를 통해 GPU 메모리 사용량을 대폭 절약할 수 있다. FSDP는 GPU마다 모델 전체가 아닌 일부 shard만 저장하고, forward 및 backward 연산 시 필요한 파라미터를 GPU 간에 서로 교환(all-gather)하여 연산을 수행한 후 다시 shard로 분산 저장(reduce-scatter)하는 방식으로 동작한다. 1.2 DDP vs FSDP 차이구분DDPFSDP모델 파라미터각 GPU가 전..
PyTorch 분산 학습 기초: 데이터 병렬화, 모델 병렬화, 파이프라인 병렬화
·
🛠️ Engineering/Distributed Training & Inference
딥러닝 모델이 점점 커지고 데이터도 방대해지면서, 단일 GPU나 서버만으로는 학습 속도가 너무 느리거나 GPU 메모리가 부족해 학습이 불가능해진다. 이를 해결하기 위해 여러 GPU를 동시에 활용해 모델을 학습시키는 것이 바로 분산 학습이다.1. 분산 학습 종류1.1 데이터 병렬화(Data Parallelism)[전체 데이터] → [분할된 미니배치1] → GPU0 (모델 복제) → [분할된 미니배치2] → GPU1 (모델 복제) → [분할된 미니배치3] → GPU2 (모델 복제)[각 GPU] → forward & backward → all-reduce → 동기화 → 파라미터 업데이트 가장 보편적으로 사용되는 방식이다. 동일한 모델을 여러 GPU에 복제하고, 미니배치 ..