728x90 ๐ Research58 [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows / ๋ฐ์ ๋ ํํ์ ViT NLP ๋ถ์ผ์์ ์ด์๊ฐ ๋์๋ transformer('Attention Is All You Need/NIPS2017')๊ตฌ์กฐ๋ฅผ vision task์ ์ ๋ชฉํ Vision Transformer(ViT)์ ViT์์ ๊ฐ์ ๋ ๊ตฌ์กฐ์ธ Swin Transformer์ ๋ํด ์ค๋ช ํฉ๋๋ค. * ๋ ผ๋ฌธ A. AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE / ICLR2021 B. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows / ICCV2021 1. Vision Transformer (ViT) Computer vision ๋ถ์ผ์์ ๊ธฐ์กด์ self attent.. 2022. 1. 8. [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Non-local Neural Networks / Vision Transformer์ ์์ด Non-local network ์ ๋ฆฌ... CNN ์ ์์ layer์์๋ spatial domain์์์ localํ ์์ญ์ correlation์, ๊น์ layer์์๋ ์๋์ ์ผ๋ก globalํ ์์ญ๊น์ง์ correlation์ ์ถ์ถํ๋ local operator ๋ก ๋ณผ ์ ์์ต๋๋ค. ๋ํ layer๊ฐ ๊น์ด์ง๋๋ผ๋ ํ๋ฒ์ ์ฐ์ฐ์์ ์ ์ฒด ์์ญ์ correlation์ ์ถ์ถํ๋ non-local ์ฐ์ฐ๊ณผ๋ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ๋๋ฌธ์ CNN์ spatial domain ๋๋ temporal domain ์์์ ๊ฑฐ๋ฆฌ๊ฐ ๋จผ feature ๋ค๊ฐ์ correlation์ด ์ถ์ถ๋๊ธฐ ํ๋ ๊ตฌ์กฐ์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํ Non-local operation์ ์ ์ํฉ๋๋ค. ์๋ ๊ทธ๋ฆผ์ non-local block.. 2021. 12. 12. [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Pyramid Scene Parsing Network / PSPNet / Pyramid Pooling ๋ณธ ๋ ผ๋ฌธ์ CVPR2017์ ๊ฒ์ฌ๋์์ผ๋ฉฐ PSPNet(ImageNet scene parsing challenge 2016์์ 1๋ฑ)์ ์ ์ํฉ๋๋ค. ํ์ฌ๋ ๋ ์ฑ๋ฅ์ด ์ข์ ์ฐ๊ตฌ๊ฐ ๋ง์ด ์๊ฐ๋์์ง๋ง semantic segmentation์ global contextual information์ ํ์ฉํ๊ธฐ ์ํ Pyramid Pooling Module ์ ์ ๋ฆฌํ๊ธฐ ์ํด ๋ฆฌ๋ทฐ๋ฅผ ์์ฑํฉ๋๋ค. Motivation ๋ณธ ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ segmentation ์๊ณ ๋ฆฌ์ฆ์ 3๊ฐ์ง ๋ฌธ์ ์ ์ด ์๋ค๊ณ ์ง์ ํฉ๋๋ค. (์ ๊ทธ๋ฆผ์์๋ FCN ๊ณผ ๋น๊ต) 1) Mismatched Relationship : ์ฃผ๋ณ ํ๊ฒฝ(contextual information)๊ณผ ๋ง์ง ์๋ ํฝ์ ๋ถ๋ฅ. ์๋ฅผ ๋ค์ด ํธ์ ๊ทผ์ฒ์ ์๋์ฐจ, ๋๋ก ์์ ๋ณดํธ ๊ฐ์.. 2021. 12. 5. [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Unified Perceptual Parsing for Scene Understanding / UperNet / Multi-task learning ๋ณธ ๋ ผ๋ฌธ์ ECCV 2018์ ๊ฒ์ฌ๋ ๋ ผ๋ฌธ์ผ๋ก ๋ค์ํ visual concepts ์ธ์ํ๋(multi-task learning) Unified Perceptual Parsing ์ด๋ผ๋ ์๋ก์ด task ๋ฅผ ์ ์ํฉ๋๋ค. Introduction ์ ๊ทธ๋ฆผ์ ๊ฑฐ์ค(scene)์ ํ ์ด๋ธ, ๊ทธ๋ฆผ, ๋ฒฝ๊ณผ ๊ฐ์ ๋ค์ํ ๊ฐ์ฒด(object)๋ก ์ด๋ฃจ์ด์ ธ์๊ณ ๋์์ ํ ์ด๋ธ์ ํ ์ด๋ธ ๋ค๋ฆฌ, ์ํ, apron(part) ๋ฑ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๋ํ ํ ์ด๋ธ์ ๋๋ฌด(material)๋ก ๋ง๋ค์ด์ก๊ณ ์ํ ํ๋ฉด์ kinitted(texture) ๋์ด ์์ต๋๋ค. ์ด๋ฌํ ์นดํ ๊ณ ๋ฆฌ๋ค์ scene understanding, object/material/part/texture recognition task์์ ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ์ํ๋์ด ์์ต๋๋ค... 2021. 12. 4. [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] SHAPE-TEXTURE DEBIASED NEURAL NETWORK TRAINING / ๋ด๋ด ๋คํธ์ํฌ์์ shape๊ณผ texture์ ๊ด๊ณ ICLR 2021์ ๊ฐ์ ๋ ๋ ผ๋ฌธ์ด๋ฉฐ object์ shape, texture์์ ๊ด๊ณ, ๊ทธ๋ฆฌ๊ณ object recognition ๋ฑ์ vision task์์ shape๊ณผ texture ์ ๋ณด๋ฅผ ๋ชจ๋ ์ด์ฉํ์ฌ ํ์ตํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํจ shape-texture debiased neural network๋ฅผ ์ ์ํฉ๋๋ค. Introduction Shape๊ณผ texture๋ ๋ชจ๋ object๋ฅผ ์ธ์ํ ๋ ์ค์ํ ๋จ์๋ค์ ๋๋ค. ์ด๋ฏธ ์ด์ ์ object recognition ์ฐ๊ตฌ์์ shape๊ณผ texture๋ฅผ ์ ์ ํ๊ฒ ๊ฒฐํฉํ๋ฉด ์ธ์ ์ฑ๋ฅ์ ๋์ผ ์ ์์์ด ๋ฐํ์ก์ต๋๋ค. ‘IMAGENET-TRAINED CNNS ARE BIASED TOWARDS TEXTURE; INCREASING SHAPE BIAS IMPROVES A.. 2021. 12. 4. [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Learning to Compare: Relation Network for Few-Shot Learning / meta-learning, few shot learning ๋ณธ ๋ ผ๋ฌธ์ CVPR2018์ ๊ฒ์ฌ๋ few shot learning ์ด๋ผ๋ ์ฃผ์ ์ ๋ ผ๋ฌธ์ ๋๋ค. ๋ฅ๋ฌ๋์์ ๋ฐ์ดํฐ์ ๊ฐ์๋ ์ฑ๋ฅ๊ณผ ์ง๊ฒฐ๋์ง๋ง, ํ์ค์ ์ธ ํ ์คํฌ์์ ๋ฐ์ดํฐ ๊ฐ์๋ ๋ ๋ถ์กฑํ ์ ๋ฐ์ ์์ต๋๋ค. ์ด๋ฌํ limited data ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด data ์ฐจ์์์๋ data augmentation ๋ฐฉ๋ฒ์ด ์กด์ฌํ๊ณ , network ์ฐจ์์์๋ Un/Semi-supervised learning, Transfer learning, Meta learning ๋ฐฉ๋ฒ ๋ฑ์ด ์กด์ฌํฉ๋๋ค. few shot learning์ meta learning ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ์ ์ data ๊ฐ์๋ก network๋ฅผ ํ์ต์ํค๋ ๋ฐฉ๋ฒ๋ก ์ ๋๋ค. Meta learning์๋ metric, model, optimization, GCN .. 2021. 10. 17. ์ด์ 1 ยทยทยท 6 7 8 9 10 ๋ค์ 728x90