Popular Posts

[논문 리뷰] 3D Gaussian Splatting 완전 정복
·
3D Vision
📌 3D Gaussian Splatting (3DGS) 이란?3D Gaussian Splatting for Real-Time Radiance Field Rendering / SIGGRAPH 20233D Gaussian Splatting(3DGS)은 복잡한 3D 장면을 수천에서 수백만 개의 3차원 가우시안(스플랫) 으로 표현하는 방식이다. 각 가우시안은 다음과 같은 정보를 갖는다.3D 위치 (x, y, z)크기 (scale 또는 covariance)회전 (orientation)색상 (RGB)불투명도 (alpha)뷰 방향 의존적인 특성 값이러한 점들을 화면 상에 투영하고, GPU에서 가우시안 형태로 부드럽게 퍼지게 만들어 실시간으로 이미지를 렌더링하는 것이 핵심이다. 마치 수많은 반투명한 비누방울이 공중에..
[AI/LLM] Transformer Attention 이해하기: Q, K, V의 역할과 동작 원리
·
Large-scale Model
LLM하면 transformer를 빼먹을 수 없고, 그 핵심 중 하나는 바로 어텐션 메커니즘이다. 이 메커니즘을 이해하면 트랜스포머가 어떻게 단어들 간의 관계를 학습하고 문맥을 파악하는지 알 수 있다. 특히, 트랜스포머에서 사용되는 Query (Q), Key (K), Value (V)는 어텐션이 어떻게 작동하는지 이해하는 데 아주 중요한 역할을 한다.1. Q, K, V: 정보 검색의 관점에서 본 개념 정의 Transformer의 Scaled Dot-Product Attention은 데이터베이스의 정보 검색(Information Retrieval) 시스템과 유사한 논리를 가진다. 입력 임베딩 벡터 $x$에 대해 학습 가능한 가중치 행렬 $W^Q, W^K, W^V$를 곱하여 세 가지 벡터를 생성한다.Quer..
[논문 리뷰] NeRF 간단 설명 & 원리 이해하기 | 새로운 방향에서 바라본 view를 생성하는 기술
·
3D Vision
- paper : NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis / ECCV2020 NeRF 논문이 공개된지도 시간이 꽤 흘렀는데, 2020 ECCV에서 공개됐을 때만 해도 굉장히 신기하고 획기적인 view synthesis 방법으로 관심을 받았지만, 여러 단점 때문에 실제 서비스에 적용되기는 쉽지 않았다. 하지만, 2023 CVPR에서는 2022년에 비해 radiance라는 단어의 사용이 80% 증가하고, NeRF의 경우 39% 증가했을 만큼 NeRF는 활발히 연구되고 있다. 특히 이젠 개념 증명을 넘어 veiw editing 이나 각종 application 연구가 진행되고 있다. 즉 NeRF가 이제 각종 서비스에 활용될만..
[Docker] (11) 도커 컨테이너와 vscode 연동하기 | 도커 컨테이너에서 개발
·
Docker & Kubernetes
Docker 전체 포스팅 더보기 [Docker] (1) 도커 개념 설명 | 도커는 왜 사용하는 걸까? [Docker] (2) 도커 & 도커컴포즈 다운로드 [Docker] (3) 도커 핵심 개념 - 이미지, 컨테이너, 도커 허브 [Docker] (4) docker pull(이미지 다운로드) & docker run(컨테이너 생성/실행) & 포트포워딩(포트매핑) [Docker] (5) 도커 run 명령어 옵션, 도커 컨테이너가 종료되지 않게 하는 방법 [Docker] (6) 도커 컨테이너로 접속하기 - docker exec & docker attach [Docker] (7) 도커 volume(볼륨) 옵션 - 컨테이너 폴더와 호스트 폴더 연결하기 [Docker] (8) 도커 commit(커밋) & push(푸시..
[Linux] Bash Shell 설명 | 자주 사용하는 bash 명령어 정리 | 리눅스 명령어
·
etc.
Bash ?  Bash는 Unix 계열 운영체제에서 사용되는 명령 줄 인터페이스(Command Line Interface, CLI)를 위한 쉘(shell)이다. Bash는 "Bourne Again SHell"의 약자로서, Stephen Bourne 쉘(sh)을 기반으로 개발되어 Unix, Linux, macOS 등에서 기본 쉘로 많이 사용됩니다. *쉘은 사용자가 명령어를 입력하고 운영체제와 상호작용하는 환경을 제공하는 프로그램이다 Bash는 다양한 기능을 제공하며, 주로 다음과 같은 역할을 수행한다.명령어 실행: 사용자는 Bash 쉘에서 다양한 명령어를 입력하여 파일을 생성, 수정, 삭제하거나 프로그램을 실행할 수 있음파일 시스템 탐색: Bash는 디렉토리를 변경하고 파일 및 폴더를 확인하는 등의 파일 ..
[AI/LLM] Transformer의 인코더와 디코더 쉽게 이해하기
·
Large-scale Model
Transformer 아키텍처는 크게 정보를 압축하고 이해하는 Encoder와, 이를 바탕으로 새로운 시퀀스를 생성하는 Decoder로 나뉜다. 각 컴포넌트의 수학적 설계 의도와 연산 특성, 그리고 이를 응용한 대표적인 모델군(BERT, T5, GPT)의 차이점을 정리해 본다.1. Encoder인코더는 입력 시퀀스 $X = {x_1, x_2, \dots, x_n}$의 각 토큰이 문장 내 다른 모든 토큰과 어떤 관계를 맺는지 파악하여, 풍부한 문맥이 담긴 잠재 벡터(Latent Vector)를 생성한다.① Multi-Head Self-Attention (MHSA)인코더의 핵심은 모든 위치의 토큰을 동시에 참조하는 Bi-directional(양방향) 연산이다. $h$개의 헤드를 사용하는 MHSA는 서로 다른..

Latest posts

[MLLM] Gemma 3 테크니컬 리포트 리뷰
·
Multi-modal
https://arxiv.org/abs/2503.197861. IntroductionGemma 3는 Google DeepMind가 2025년 3월 공개한 경량 오픈 모델 시리즈에 멀티모달 비전 능력을 추가한 모델이다. Pan and Scan (P&S) 방법으로 유연한 이미지 해상도를 지원하며, Local/Global Attention 혼합 구조로 128K 토큰 컨텍스트를 효율적으로 처리한다.Google Gemma 시리즈는 오픈소스 경량 LLM으로 출발했다. Gemma 2까지는 텍스트 전용 모델이었지만, 실제 응용에서는 이미지와 텍스트를 함께 처리하는 능력이 필요하기에 MLLM으로 발전했다. 경량 model에 멀티모달 능력을 추가할 때의 주요 과제는 메모리 효율성이다. Vision encoder는 많은 t..
[MLLM] GLM-4.5V 테크니컬 리포트 리뷰
·
Multi-modal
https://arxiv.org/abs/2507.010061. IntroductionGLM-4.5V는 Zhipu AI와 Tsinghua University가 2025년 7월 1일 테크리포트에서 소개된 RLCS(Reinforcement Learning with Curriculum Sampling)를 포함한 스케일러블 멀티모달 RL 레시피를 기반으로, 2025년 8월 11일경 공개/배포된 VLM이다. GLM-4.5V는 GLM-4.5-Air 기반(MoE, 106B total / 12B active)이며, RLCS를 포함한 멀티모달 RL 스택(RLVR + RLHF, unified reward system, dynamic sampling expansion 등)을 통해 멀티모달 추론 능력을 강화한 모델이다. 기존 ..
[MLLM] InternVL3.5 테크니컬 리포트 리뷰
·
Multi-modal
https://arxiv.org/abs/2508.182651. IntroductionInternVL3.5는 OpenGVLab이 2025년 8월 공개한 효율성과 성능을 동시에 개선한 오픈소스 멀티모달 모델로, Qwen 시리즈 다음으로 자주 등장하는 모델이 아닐까 싶다. 기존 멀티모달 모델들은 성능 향상에 집중했지만, 추론 속도와 메모리 효율성은 상대적으로 소홀했다. InternVL3.5는 성능과 효율성을 동시에 개선하는 것이 실용적 배포에 필수적임을 보여준다. 특히 추론 속도 약 4배 향상은 실시간 응용에서 큰 차이를 만든다. 기존 InternVL3는 다양한 멀티모달 작업에서 좋은 성능을 보였지만, 추론 속도와 메모리 효율성 측면에서 개선이 필요했다. 특히 대규모 모델을 배포할 때는 단일 GPU의 메모리 ..
Qwen3-VL 테크니컬 리포트 리뷰 | VLM | MLLM
·
Multi-modal
1. Qwen3-VL 개요1.1 목표Qwen3-VL은 단순히 이미지를 입력으로 받을 수 있는 LLM이 아니다. 텍스트, 이미지, 비디오가 섞인 초장문 컨텍스트 환경에서 실제 추론과 문제 해결을 수행할 수 있는 멀티모달 파운데이션 모델을 목표로 한다. 리포트 전반에서 강조되는 핵심 목표는 다음과 같다.텍스트 성능을 희생하지 않는 VLM최대 256K 토큰의 네이티브 롱 컨텍스트 처리멀티모달 reasoning, 문서 이해, 차트 해석, 에이전트 시나리오 대응이는 Qwen2.5-VL이 주로 '이미지를 잘 이해하는 LLM'에 초점이 있었다면, Qwen3-VL은 복합 멀티모달 환경에서 실제로 일할 수 있는 모델로 확장되었다고 주장한다.1.2 모델 라인업과 스케일 전략Qwen3-VL은 Dense 모델과 MoE(Mix..
[책 추천] 나는 AI엔지니어입니다 | 제이펍 | AI/ML 직군 취업 & 성장 가이드
·
책 리뷰
나는 AI 엔지니어입니다 AI를 공부하기 위한 강의, 블로그, 튜토리얼은 정말 많죠.근데 막상 “AI/ML 엔지니어가 되려면 어떻게 해야 할까?”에 대한 답은 생각보다 잘 안 보이더라고요. 저도 커리어를 쌓으면서 공부보다 더 현실적인 고민들을 많이 겪었어요.데이터는 왜 늘 부족한지, 기대치는 왜 이렇게 높은지, 모델 성능 말고도 왜 챙길 게 많은지. 그래서 이 책을 만들었어요.기술을 배우는 방법만큼,그 기술로 일하면서 성장하는 과정도 누군가에게는 필요하다고 느꼈거든요. 정답을 말하려는 책은 아니에요.다만 이 기록이, AI/ML 커리어를 시작하는 분들(혹은 커리어를 성장시키려 하는 분들)에게현실적인 커리어 가이드가 되었으면 좋겠습니다. AI/ML 직군이 실제로 무슨 일을 하는지부터 커리어를 어떻게 설계하..
[T2V] Goku: Flow Based Video Generative Foundation Models 리뷰
·
Image•Video Generation
1. IntroGoku는 단순히 아카데믹한 논문이 아니라, 프로덕션 레벨의 joint image/video generative foundation model을 실제로 학습·운영하기 위해 필요한 구성요소(토크나이저, 아키텍처, 데이터 큐레이션, 분산 학습 시스템)를 한 번에 정리한 설계 제안에 가깝다.비디오 생성에서 병목은 크게 세 가지로 정리된다.표현 병목: 시간축이 추가되면서 scene transition, camera motion, action dynamics 등 장면의 변화 양상이 급격히 복잡해진다.데이터 병목: 대규모 video-text 페어는 노이즈, 워터마크, 저품질 샘플, 분포 편향이 심하며, 결과적으로 큐레이션 품질이 모델 성능을 좌우한다.시스템 병목: 비디오 토큰은 시퀀스 길이가 매우 길..