Vision Transformer(ViT): 이미지 Transformer 이해하기
·
📖 Fundamentals/AI & ML
본 글은 Vision Transformer(ViT)의 핵심 개념을 기초부터 상세하게 설명한다. ViT가 이미지를 어떻게 토큰화하고, 실제 텐서 차원이 어떻게 변하는지까지 이해하기 쉽게 정리했다. 1. Vision Transformer (ViT)Vision Transformer(ViT)는 2020년 Google Research가 발표한 모델로, 이미지를 Transformer 구조로 직접 처리하는 첫 성공 사례이다. 발표 당시만 해도 Transformer는 자연어 처리에 특화된 모델로 여겨졌기 때문에, 이미지를 언어처럼 토큰 단위로 다뤄 self-attention으로 처리한다는 발상 자체가 매우 혁신적이었다. ViT는 이미지도 문장처럼 “순서가 있는 토큰 시퀀스”로 바라볼 수 있다는 점을 보여주었고, 이후 ..