[논문 리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows / 발전된 형태의 ViT
·
🏛 Research/Deep Learning
NLP 분야에서 이슈가 되었던 transformer('Attention Is All You Need/NIPS2017')구조를 vision task에 접목한 Vision Transformer(ViT)와 ViT에서 개선된 구조인 Swin Transformer에 대해 설명합니다. * 논문 A. AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE / ICLR2021 B. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows / ICCV2021 1. Vision Transformer (ViT) Computer vision 분야에서 기존의 self attent..