NLP ๋ถ์ผ์์ ์ด์๊ฐ ๋์๋ transformer('Attention Is All You Need/NIPS2017')๊ตฌ์กฐ๋ฅผ vision task์ ์ ๋ชฉํ Vision Transformer(ViT)์ ViT์์ ๊ฐ์ ๋ ๊ตฌ์กฐ์ธ Swin Transformer์ ๋ํด ์ค๋ช ํฉ๋๋ค.
* ๋ ผ๋ฌธ
A. AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE / ICLR2021
B. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows / ICCV2021
1. Vision Transformer (ViT)
Computer vision ๋ถ์ผ์์ ๊ธฐ์กด์ self attention์ CNN ๊ตฌ์กฐ์ bottleneck์์ attention์ ๊ฐํ๋ ๋ฐฉ์(Non-local network)์ด์์ง๋ง ViT ๋ image patch์ sequence์ transformer encoder๋ฅผ ์ ์ฉํ๋ฉด ์ด๋ฏธ์ง ๋ถ๋ฅ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ์๋์์ ViT์ ๊ตฌ์กฐ๋ฅผ ์ค๋ช ํฉ๋๋ค.
1.1 Architecture of ViT
1.1.1 Image to Patches
Input image๋ฅผ 48x48 ์ฌ์ด์ฆ์ RGB data๋ก ์ค๋ช ํฉ๋๋ค. Input image๋ฅผ 16x16 ์ฌ์ด์ฆ์ patch๋ก ๊ฒน์น๋ ๋ถ๋ถ ์์ด ์๋ผ์ ์ด 9๊ฐ์ patch๋ฅผ ์์ฑํฉ๋๋ค. (x : image, xp : p*p ์ฌ์ด์ฆ patch)
1.1.2 Linear Projection
์์ฑ๋ patch๋ค์ linear projection์ ํตํด 1-d vector๋ก embedding๋๊ณ (16x16x3 = 768 -> 768), ์ด๋ค์ patch embedding์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
1.1.3 Class token and Position embedding
Class token์ ๋ชจ๋ patch๊ฐ์ attention์ด ์ํ๋ ์ ๋ณด๊ฐ ํฌํจ๋ output์ ์ถ๋ ฅํ๊ธฐ ์ํ ์๋จ์ด๋ฉฐ, position embedding์ patch์ ์์น์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ embedding์ ๋๋ค. ์ด๋ค์ ๋ชจ๋ patch embedding๊ณผ ๊ฐ์ ์ฐจ์์ธ 768์ฐจ์์ด๋ฉฐ, ์ฒซ ๋ฒ์งธ input์ class token + position embedding ์ด๊ณ , ๋๋จธ์ง input๋ค์ ๊ฐ๊ฐ์ patch embedding + position embedding ์ ๋๋ค. ๋๋ฌธ์ ์์ ์ด๋ฏธ์ง์ธ 48x48 ์ฌ์ด์ฆ์ input์ 9๊ฐ์ patch๋ก ๋๋์ด์ง๊ณ , class token์ด ์ถ๊ฐ๋์ด ์ด 10๊ฐ์ 768์ฐจ์์ transformer encoder input(zlayer,sequence : z0,0,z0,1,…,z0,9 )์ด ์ค๋น๋ฉ๋๋ค.
1.1.4 Transformer Encoder : Multi-head Self Attention (MSA)
ViT์์๋ NLP transformer์ ๋ค๋ฅด๊ฒ layer normalization์ ์์น๊ฐ multi-head attention์ ์์ชฝ์ ์์นํฉ๋๋ค. Multi-head attention์ ํ๋์ head์์๋ input(patch embedding)์ ๊ฐ๊ฐ์ weight๋ฅผ ์ทจํด Query(Q), Key(K), Value(V) ๋ก embedding ์ํค๊ณ (768 -> 64 size) Q์ K์ dot product์ softmax๋ก similarity๋ฅผ ๊ตฌํ๊ณ V๋ฅผ ๊ณฑํด self attention ์ฐ์ฐ์ ์ํํฉ๋๋ค. Multi-head ์ด๋ฏ๋ก ์ด๋ฌํ ์ฐ์ฐ์ ๋ณ๋ ฌ๋ก ์ฌ๋ฌ ๊ฐ(ํ์ฌ ์์์์๋ 12๊ฐ) ์ํํด์ 64d * 12 = 768d์ tensor๊ฐ ์ถ๋ ฅ๋๋ฏ๋ก encoder์ input ์ฌ์ด์ฆ์ ๋์ผํฉ๋๋ค.
1.1.5 Transformer Encoder : MLP
์ด๋ฅผ encoder input๊ณผ ๋ํด์ค ๋ค์ layer normalization์ ๊ฑฐ์น๊ณ MLP(768->3072->768) ๋ฅผ ํต๊ณผ์ํต๋๋ค.
์ด์ฒ๋ผ multi-head attention๊ณผ MLP๋ฅผ ํต๊ณผํ์ ๋ input ์ฌ์ด์ฆ๊ฐ ๊ทธ๋๋ก ์ ์ง๋๊ฒ ํด์ skip connection์ ์ฉ์ดํ๊ฒ ํ๊ณ ์ด๋ฌํ transformer encoder๋ฅผ ์ฌ๋ฌ ๊ฐ(ํ์ฌ ์์์์๋ 12๊ฐ) ์์์ layer๋ฅผ ๊น๊ฒ ๋ง๋ญ๋๋ค.
1.1.6 MLP Head and classification
Transformer encoder layer๋ฅผ 12๊ฐ ํต๊ณผํ ๋ค, z12,0 (12๋ฒ์งธ layer์ output ์ค 0๋ฒ์งธ sequence / 0๋ฒ์งธ sequence๋ class token์ ํด๋นํ๋ฉฐ, ๋๋จธ์ง sequence๋ ํน์ patch์ ๋ํ embedding๋๋ฏ๋ก class token์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ์ ์ฒด์ ํด๋นํ๋ embedding์ representํฉ๋๋ค)๋ฅผ MLP์ ํต๊ณผ์์ผ classification task๋ฅผ ์ํํฉ๋๋ค.
1.2 Discussion
๊ฒฐ๋ก ์ ์ผ๋ก, ViT๋ input image๋ฅผ ๊ฒน์น์ง ์๋ ์ฌ๋ฌ ๊ฐ์ patch๋ค๋ก ๋๋๊ณ , ๊ฐ patch๋ค์ position embedding์ ํตํด ๊ณต๊ฐ์ ๋ณด๋ฅผ ์ ์งํ ์ํ๋ก Multi-head Self Attention(non-local operation)์ ์์์ classification์ ์ํํ๋ ๋คํธ์ํฌ์ ๋๋ค.
Transformer๋ CNN(CNN์ locality๊ฐ inductive bias)์ ๋นํด inductive bias๊ฐ ๊ฐํ์ง ์์์ ๋ฐ์ดํฐ์ ์์ด ์ ์ ๊ฒฝ์ฐ์๋ ์ฑ๋ฅ์ด ์ข์ง ์์ต๋๋ค. ํ์ง๋ง, ๋ฐฉ๋ํ dataset์ผ๋ก pre-trainingํ๊ณ transfer learning ์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์ฆ, CNN์ localํ ์ ๋ณด๊ฐ ์ค์ํ๋ค๋ ์ ์ ์ด์ฉํ๊ฒ ๋๋ฏ๋ก ์ฌ๋ฌ vision task์์ ์ด์ ์ ๊ฐ์ง์ง๋ง, ํน์ ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ ์ด๋ฏธ์ง์ localํ ๋ถ๋ถ๋ณด๋ค๋ global ํ context๊ฐ ์ค์ํ ์๋ ์์ต๋๋ค. Transformer๋ ํ์ต์ ์์ ๋๊ฐ ๋๊ณ locality๊ฐ ๊ฐ์กฐ๋๋ ๊ตฌ์กฐ๊ฐ ์๋๊ธฐ ๋๋ฌธ์ ์ ์ dataset์ผ๋ก๋ ํ์ต์ด ํ๋ค ์ ์์ง๋ง, ๋์ ์์ ๋๋ฅผ ๊ฐ์ง๊ณ ํ์ต์ ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ฐฉ๋ํ dataset์์ ๋ ํฐ ์ด์ ์ ๊ฐ์ง๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
2. Swin Transformer
2.1 Introduction
์์ ์ค๋ช ํ ViT ๋ transformer ๊ตฌ์กฐ๋ฅผ vision task์ ์ ๋ชฉ์์ผฐ์ง๋ง, ์ด๋ฏธ์ง์ ํน์ง์ธ scale๊ณผ resolution์ variation์ด ์๋ค๋ ์ ์ ๊ณ ๋ คํ์ง ์์๊ณ , ๋ชจ๋ patch๋ค ๊ฐ์ self attention์ ์ํํด์ computation cost๊ฐ ํฌ๊ธฐ ๋๋ฌธ์ vision task์ ์ต์ ํ๋ transformer ๋ผ๊ณ ๋ณผ ์๋ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ shifted window๋ก ๊ณ์ฐ๋๋ representation์ ๊ฐ์ง๋ hierarchical transformer์ธ Shifted Window Transformer(Swin Transformer)๋ฅผ ์ ์ํ์ฌ ViT๋ฅผ ๊ฐ์ ํ์ต๋๋ค.
Figure 3์์ ๋์ผํ patch ์ฌ์ด์ฆ๋ง ์ฌ์ฉ๋๊ณ , ์ด๋ฏธ์ง ์ ์ฒด์์ญ์์ self attention์ด ๊ณ์ฐ๋๋ ViT์ ๋นํด, Swin Transformer ๋ hierarchicalํ local window์ patch๋ฅผ ์ ์ฉํ๊ณ ์ ์ฒด ์์ญ์ด ์๋ window ์์ ํฌํจ๋ patch๋ค๊ฐ์ self-attention๋ง์ ๊ณ์ฐํฉ๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ Inductive bias๊ฐ ๊ฑฐ์ ์์๋ ViT ๊ตฌ์กฐ์ locality inductive bias๋ฅผ ๊ฐํด์ค ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. (์์ ์์ญ์์ ์ ์ ํฐ์์ญ์ผ๋ก self-attention์ ์ทจํจ)
Vision task์์ ์์ ๊ฐ์ hierarchicalํ feature๋ฅผ ์ถ์ถํ๋ ๋ฐฉ์์ ์ด๋ฏธ ๋ง์ด ์ฌ์ฉ๋๊ณ ์์ต๋๋ค. Object detection, segmentation์์๋ ์๋ก๋ค๋ฅธ ์ด๋ฏธ์ง์ object๊ฐ resolution๊ณผ scale์ด ๋ค๋ฅด์ง๋ง ๋์ผํ object์ผ ์ ์๊ธฐ ๋๋ฌธ์ hierarchicalํ ์ ๋ณด๊ฐ ์ค์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด Feature Pyramid Network(FPN)์์๋ ์ฌ๋ฌ ์ฌ์ด์ฆ์ pooling ์ ์ฌ์ฉํ์ฌ ๊ณ์ธต์ ์ ๋ณด๋ฅผ ํ์ตํฉ๋๋ค.
2.2 Architecture
Swin Transformer์ ์ ์ฒด์ ์ธ ๊ตฌ์กฐ๋ฅผ ๋ณด๋ฉด HxWx3 ์ฌ์ด์ฆ์ input image๋ฅผ patch partition์ ํตํด ๊ฒน์น์ง ์๋ 4x4x3 ์ฌ์ด์ฆ์ patch๋ก ๋ถํ (ViT ๋ณด๋ค ํจ์ฌ ์์ patch ์ฌ์ด์ฆ)ํด์ H/4xW/4x48 ์ฌ์ด์ฆ์ feature๋ก ๋ง๋ญ๋๋ค. ์ดํ์ ViT์ฒ๋ผ Linear projection์ ํตํด transformer encoder์ ์ฃผ์ ๋ฉ๋๋ค. Stage2๋ถํฐ๋ stage ์ ๋จ์ patch merging ๋จ๊ณ๊ฐ ์๋๋ฐ, ์ด๋ ์ธ์ ํ 2x2์ patch๋ค์ ํ๋์ patch๋ก ํฉ์ณ์ window size๊ฐ ์ปค์ง๋๋ผ๋ window ๋ด๋ถ์ patch ๊ฐ์๋ ์ผ์ ํ๊ฒ ์ ์งํฉ๋๋ค. ์ด๋ patch size๊ฐ ์ ์ ์ปค์ง๋ฉด์ CNN์ฒ๋ผ hierarchical ํ ์ ๋ณด๋ฅผ ํ์ตํ ์ ์๊ฒ ํฉ๋๋ค. ๋ํ ์ด๋ก ์ธํด ๊ณ์ฐ๋์ด ์ ํ์ ์ผ๋ก๋ง ์ฆ๊ฐํ์ฌ ViT์ ๋นํด ๊ณ์ฐ๋์ด ํ์ ํ ์ค์ด๋ค๊ฒ ๋ฉ๋๋ค. (ViT ๋ ๋ชจ๋ MSA์์ ๋ชจ๋ patch ๊ฐ์ self attention์ ์ํํ๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ๋์ด ๋ง์ต๋๋ค.)
2.2.1 W-MSA, SW-MSA
๊ฐ Swin Transformer block์ Windows Multi-head Self Attention(W-MSA)๋ฅผ ์ํํ๋ block๊ณผ Shifted Windows Multi-head Self Attention(SW-MSA)๋ฅผ ์ํํ๋ block์ด ์ฐ์์ ์ผ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค. W-MSA ๋ local window ๋ด๋ถ์ ์๋ patch๋ค๋ผ๋ฆฌ๋ง self-attention์ ์ํํ๊ณ , SW-MSA๋ shifted๋ window์์ self-attention์ ์ํํ์ฌ ๊ณ ์ ๋ ์์น๋ฟ๋ง์ด ์๋๋ผ ์ฌ๋ฌ ์์ญ์์์ self-attention์ด ์ํ๋ฉ๋๋ค. ์ ๊ทธ๋ฆผ์ layer1์์๋ ์ด๋ฏธ์ง ์ ์ฒด๊ฐ ํฌ๊ฒ 4๊ฐ์ window๋ก ๋๋์ด ์ง๊ณ , ๊ฐ window ๋ด๋ถ์ patch๋ค๋ผ๋ฆฌ self-attention์ด ์ํ๋ฉ๋๋ค. Layer1+1์์๋ window๊ฐ shift ๋๋ฏ๋ก window ๊ฒฝ๊ณ ๋๋ฌธ์ self attention์ด ๊ณ์ฐ๋์ง ์์๋ ๋ถ๋ถ๋ค์ self attention์ด ์ํ๋ฉ๋๋ค.
2.2.2 Cyclic shift and Masked MSA
์์ ์์๋ฅผ ๊ธฐ์ค์ผ๋ก W-MSA๋ 4๊ฐ์ window์์ self attention์ ๊ฐ๊ฐ ์ํํ๊ณ , SW-MSA๋ 9๊ฐ์ window์์ self attention์ ๊ฐ๊ฐ ์ํํด์ผ ํฉ๋๋ค. 9๊ฐ๋ฅผ ๊ฐ๊ฐ ์ํ ์ padding์ ์ด์ฉํ ์ ์์ง๋ง computation cost๊ฐ ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์ ๋ณธ ๋ ผ๋ฌธ์์๋ ‘cyclic shift’(figure 7) ๋ผ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค. ์๋์ฐ๋ฅผ window size//2 ๋งํผ(์์์์๋ 2๋งํผ) ์ฐ์ธก ํ๋จ์ผ๋ก ์ด๋์ํค๊ณ ์ข์ธก ์๋ด์ A, B, C ๊ตฌ์ญ์ ์ฐ์ธกํ๋จ์ผ๋ก ์ด๋์ํต๋๋ค. ๊ทธ๋ฆฌ๊ณ 4๊ฐ๋ก ๋๋์ด์ง window ์์ ๊ฐ๊ฐ self attention์ ์ํํ๋๋ฐ 2์ฌ๋ถ๋ฉด์ window ๋ฅผ ์ ์ธํ๊ณ ๋ ์ด๋ฏธ์ง space์์ ์ฐ๊ฒฐ๋ ๋ถ๋ถ์ด ์๋๊ธฐ ๋๋ฌธ์ ๊ฐ๊ฐ ๋ค๋ฅธ mask๋ฅผ ์์์ ์ด๋ฏธ์ง space์์ ์ฐ๊ฒฐ๋ patch๋ค๊ฐ์ self attention์ ์ํํ์ฌ computation cost๋ฅผ ์๊ฒ ๋ง๋๋ ํจ๊ณผ๋ฅผ ๊ฐ์ ธ์ต๋๋ค. ์๋ figure 8๋ cyclic shift + Masked MSA์ ์์์ ๋๋ค.
2.2.3 Relative Position Bias
Swin transformer๋ ViT์ ๋ค๋ฅด๊ฒ encoder ์ ๋ ฅ ๋ถ๋ถ์์ position embedding์ ํ์ง ์๊ณ self attention์ ๊ณ์ฐํ๋ ์์์ relative position bias(B)๋ฅผ ์ถ๊ฐํฉ๋๋ค. Position embedding์ ์ ๋ ์ขํ์๋ ๊ฒ์ด ๋นํด relative position bias๋ patch๋ค๊ฐ์ ์๋์ขํ๋ฅผ ๋ํด์ฃผ๋ ๊ฒ์ธ๋ฐ, ์ด๊ฒ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์๋ง ์ด๋ฏธ์ง์์ ์ ๋์ ์ธ ์์น ๋ณด๋ค๋ ์ด๋ค object์ part๋ค์ด ์์ ๋ part๊ฐ์ ์๋์ ์ธ ์์น๊ฐ object๋ฅผ ํ์ ํ๋๋ฐ ๋ ๋์์ด ๋์ด์ ๊ทธ๋ฐ ๊ฒ ๊ฐ์ต๋๋ค.
2.3 Experimental Results
ImageNet classification ์คํ์์ Swin Transformer(Blue)๊ฐ ViT(Red) ๋ณด๋ค 2๋ฐฐ์ด์ ์์ parameter๋ก ์ฑ๋ฅ์ 3% ์ด์ ์ข์ ๊ฒ์ ๋ณผ ์ ์์ง๋ง, CNN ๊ธฐ๋ฐ์ SOTA(EffNet)๋ณด๋ค๋ ์ฑ๋ฅ์ด ๋ฎ์ต๋๋ค. Object detection๊ณผ segmentation task์์๋ Swin transformer๋ฅผ backbone์ผ๋ก ์ฌ์ฉํ ๋ชจ๋ธ์ด ๋ชจ๋ ๋ถ๋ถ์์ SOTA๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
3. ๋ด ์๊ฐ
Swin Transformer๋ ViT ์ ๋ฌธ์ ์ ์ด์๋ ๋ง์ ๊ณ์ฐ๋๊ณผ ์ด๋ฏธ์ง resolution, scale์ variation์ด ๊ณ ๋ ค๋์ง ์์๋ ์ (์ ์ inductive bias)์ ๊ฐ์ ํ๊ณ ์ฌ๋ฌ object detection, segmentation method์ backbone์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค. Segmentation dataset์ธ ADE20K์ benchmark๋ฅผ ๋ณด๋ฉด 1~10์๋ ๊ฑฐ์ ๋ชจ๋ method๊ฐ transformer ๊ธฐ๋ฐ์ด๊ณ , ํ์ฌ SOTA๋ Swin Transformer version 2 ์ ๋๋ค.
ViT๋ ์ด๋ฏธ์ง๋ฅผ patch ๋จ์๋ก ๋๋๊ณ , patch ๋จ์์์ multi-head๋ก non-local operation์ ์ํํ๋ ๊ตฌ์กฐ์ธ๋ฐ, ๋คํธ์ํฌ๊ฐ ๊น์ด์ง๋๋ผ๋ ์ฒ์ ๋๋์ด์ง patch๋ฅผ ๊ธฐ์ค์ผ๋ก self attention์ด ์ํ๋๊ธฐ ๋๋ฌธ์ ๋์ผํ ๊ฐ์ฒด์ผ์ง๋ผ๋ ์ด๋ฏธ์ง space์์ shift ๋๋ ๊ฒฝ์ฐ์๋ ์กฐ๊ธ ๋ค๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์ฌ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค. ๊ทธ์ ๋นํด, Swin Transformer๋ ์ฒ์์๋ ์์ window size๋ก ์ด๋ฏธ์ง๋ฅผ ๋ถํ ํ๊ณ window ๋ด๋ถ patch๋ค๊ฐ์ self attention์ ์ํํฉ๋๋ค. ๋คํธ์ํฌ๊ฐ ๊น์ด์ง์๋ก ์ ์ window size์ patch size๋ฅผ ํค์์ self attention์ ์ํํ๋๋ฐ, ์ด๋ ์ด๋ฏธ์ง space์์ ์ ์ ๋ ํฐ ์์ญ(window) ๋ด๋ถ์์ ๋ ๋ฉด์ ์ด ํฐ ์์ญ(patch)๊ฐ์ self attention์ ์ํํ๋ ๊ฒ์ ๋๋ค.
3.1 CNN vs. Transformer
์ฌ์ค Swin Transformer์ ๊ตฌ์กฐ์ ์ฐ์ฐ์ CNN์ hierarchicalํ ๊ตฌ์กฐ์ ์๋นํ ์ ์ฌํ๋ค๊ณ ์๊ฐํฉ๋๋ค. Swin Transformer๋ window, patch size๋ฅผ ๋๋ ค์ ์ด๋ฏธ์ง resolution์ ์ค์ด๊ณ , CNN์ convolutional ์ฐ์ฐ์ ํตํด resolution์ ์ค์ด๋ฉด์ hierarchicalํ representation์ ์์ฑํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋๋ฌธ์ CNN ๊ตฌ์กฐ ์ฌ์ด์ฌ์ด์ W-MSA์ SW-MSA๋ฅผ ์ฝ์ ํ๋ฉด patch merging์ด๋ window, patch size์ ๋ณํ ์์ด ๋น์ทํ ํจ๊ณผ๋ฅผ ๊ฐ์ ธ์ค์ง ์์๊น๋ผ๋ ์๋ฌธ์ด ๋ค์์ต๋๋ค.
3.2 Transformer ๊ตฌ์กฐ์ ํ์ฉ
๊ทธ๋ฆฌ๊ณ ViT๋ inductive bias ๊ฐ ์ฝํ๊ธฐ ๋๋ฌธ์ ์ด๋์๋ ์ฌ์ฉํ ์ ์๋ ๋ํ์ง ๊ฐ์ ๋๋์ด ๋ค์์ง๋ง, ๊ทธ์ ๋ํ ๋จ์ ์ผ๋ก ๋ฐฉ๋ํ dataset์ผ๋ก pre-trainingํ์ง ์์ผ๋ฉด ์ข์ ์ฑ๋ฅ์ ๋ด๊ธฐ ํ๋ญ๋๋ค. Swin Transformer๋ ์ด๋ฏธ์ง์ hierarchicalํ ํน์ง์ ์ด์ฉํด์ inductive bias๋ฅผ ์ฃผ์๋๋ฐ, ์ด์ฒ๋ผ ์ฌ๋ฌ task์์ ์ค์ํ ํน์ง๋ค์ ViT์ inductive bias๋ก ํ์ฉํ ์ ์๋ ๊ตฌ์กฐ๋ฅผ ์ค๊ณํ๋ฉด ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ง ์์๊น ์๊ฐํฉ๋๋ค.
์๋ฅผ ๋ค์ด texture ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ local structuralํ ํน์ง๋ฟ๋ง ์๋๋ผ global statisticalํ ํน์ง์ผ๋ก ์ ํํ๋ฉ๋๋ค. ๋๋ฌธ์ feature์ statisticalํ property๋ฅผ ํ์ฉํ๋ ๋ฐฉ์์ผ๋ก inductive bias๋ฅผ ์ค ์ ์๋ค๋ฉด transformer ๊ตฌ์กฐ๋ฅผ texture recognition์ ์ ์ฉํด์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ ๊ฒ์ด๋ผ ์๊ฐํฉ๋๋ค.