์ค๋์ 2020๋ ์ Meta์์ ๊ณต๊ฐํ DETR ๋ชจ๋ธ(ECCV 2020)์ ๋ฆฌ๋ทฐํด ๋ณด๊ณ ์ ํ๋ค. ํผ ์ธ์ฉ์๊ฐ 9000ํ์ ์ก๋ฐํ๋ฉฐ, ์ต๊ทผ ๊ณต๊ฐ๋๋ ๊ฐ์ฒด ๊ฒ์ถ ๋ ผ๋ฌธ๋ค์ ๋ณด๋ฉด DETR ๊ธฐ๋ฐ์ ์ฐ๊ตฌ๋ ์ฌ์ฌ์น ์๊ฒ ๋ณผ ์ ์๋ค. Deformable DETR, Conditional DETR, Group DETR, Co-DETR, ...
DETR (DEtection TRansformer)
DETR์ ํธ๋์คํฌ๋จธ์ ์ด๋ถ ๋งค์นญ(Bipartite-matching) ๊ธฐ๋ฐ์ ์๋ก์ด ๊ฒ์ถ ๋ฐฉ์์ ๋์ ํ์ฌ RPN, NMS์ ๊ฐ์ hand-crafted ํ ์์ง๋์ด๋ง์ด ํ์์๋ ๋ชจ๋ธ ๊ตฌ์กฐ๋ผ๊ณ ํ๋ค. ๊ตฌ์กฐ์ ์ผ๋ก ๊ต์ฅํ ๊ฐ๋จํ๋ฉด์ ๋ค๋ฅธ task์ ๋ํ ํ์ฅ์ฑ๋ ์ข๊ณ , ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์ด์ฉํ๊ธฐ ๋๋ฌธ์ ํฐ ๊ฐ์ฒด๋ฅผ ๊ฒ์ถ ๋ฅ๋ ฅ์ด Faster RCNN๋ณด๋ค ๋ ์ข๋ค๊ณ ํ๋ค.
๊ตฌ์กฐ๋ฅผ ๋ณด๋ฉด ๊ต์ฅํ ๊ฐ๋จํ๋ค๋ ๊ฒ ๋๊ปด์ง๋ค. ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ CNN์ ํ์ด ํ Transformer ์ธ์ฝ๋-๋์ฝ๋์ ๋ฃ๊ณ ๋์จ ๊ฒฐ๊ณผ๋ฅผ FFN์ ํตํด ๊ฐ์ฒด์ ํด๋์ค์ bbox ์์น๋ฅผ ์ถ์ ํ๊ฒ ๋๋ ๊ตฌ์กฐ์ด๋ค. ์ด ๋ hand craftedํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ง ์๊ณ ๊ฐ์ฒด ๊ฒ์ถ prediction๊ณผ GT ์์ loss๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด์ 1๋1 ๋งค์นญ์ ํด์ค์ผ ํ๋ค. ๋ฐ๋ก ์ด ๋ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ด ์ด๋ถ ๋งค์นญ์ด๋ค. ๊ฐ๋จํ ๋งํด ์ค๋ณต๋์ง ์๋ ์ต์ ์ ๋งค์นญ์ ์ฐพ์์ฃผ๋ ํ๊ฐ๋ฆฌ์ ๋งค์นญ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ ๊ฒ์ด๋ผ ๋ณผ ์ ์๋ค. ์ฃผ๋ก ๋๋ ์์๊ฐ 4๋ช ์ ์์ ์๊ฐ 4๊ฐ์ ์์ ์ ํด์ผ ํ๋๋ฐ ๊ฐ์ฅ ํจ์จ์ ์ผ๋ก ์์ ์ ์ํํ๊ธฐ ์ํด ์์ ์์ ์์ ์ ๋งค์นญํด์ฃผ๋ ๋ฌธ์ ์ด๋ค.
- ์ด๋ฏธ์ง๋ฅผ Transformer ์ ๋ ฅ ํํ๋ก ๋ณํ
- CNN(๋ ผ๋ฌธ์์๋ ResNet)์ ์ฌ์ฉํ์ฌ ํน์ ์ฐจ์์ feature map์ ์ป์
- 1x1 Conv ์ฌ์ฉํ์ฌ ๋ฏธ๋ฆฌ ์ค์ ํ ํ ํฐ ์๋ฒ ๋ฉ ์ฐจ์(d)์ผ๋ก ์ฑ๋๊ฐ์ ์ถ์
- ์ต์ข ์ ์ผ๋ก d*HW๋ก flattenํ์ฌ transformer์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ ์ํ์ค๋ฅผ ๊ตฌ์ฑ
- Positional Encoding
- 2D sine positional encoding ์ฌ์ฉ
- Encoder-Decoder
- Self Attention์ ํตํด query slot๊ฐ ์๊ด ๊ด๊ณ๋ฅผ ํ์ต
- Object query๋ ์ ๋ณด๋ฅผ ๋ด๊ธฐ ์ํ slot์ด๋ฉฐ, Encoder-decoder attention์ ํตํด ์ด๋ฏธ์ง์ ์ด๋ ๋ถ๋ถ์ ์ค์ ์ ์ผ๋ก ๋ด์ผํ ์ง ํ์ต
- FFN (Feed Forward Network)
- output์ ๋ํ ์ ๊ทํ ๋ฐ ํ์ต ๋ณด์กฐ
- ๋์ฝ๋ ์๋ฒ ๋ฉ ๊ฐ์ FFN์ ๋ฃ์ด ํน์ ์ฌ๋กฏ์ด ์์ธกํ ๊ฐ์ฒด์ ์ ๋ฌด์ ๊ฐ์ฒด์ ์์น๋ฅผ ์ถ๋ ฅ
์คํ ๊ฒฐ๊ณผ
- ์คํ ๊ฒฐ๊ณผ๋ Faster RCNN์ ๋น๊ตํ๋๋ฐ, ์ด๋ Faster RCNN์ด hand crafted ํ ๋ฐฉ๋ฒ์ ๋ง์ด ์ฌ์ฉํ์ฌ end-to-end ๊ฐ์ฒด ๊ฒ์ถ๊ธฐ๊ฐ ์๋๊ธฐ ๋๋ฌธ
- Faster RCNN ๋๋น ๊ตฌ์กฐ๊ฐ ๊ต์ฅํ ๊ฐ๋จํ end-to-end ๊ฒ์ถ๊ธฐ์ด๋ฉฐ ์ฑ๋ฅ ๋ํ ์์น
- Attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์ฌ ํฐ ๋ฌผ์ฒด์ ๋ํ ์ฑ๋ฅ์ ์ข์ง๋ง, FPN ๊ณผ ๊ฐ์ด ๊ฐ์ฒด ์ค์ผ์ผ์ ๋ํ ๊ณ ๋ ค๊ฐ ์๊ธฐ์ ์์ ๋ฌผ์ฒด์ ๋ํ ์ฑ๋ฅ์ ๋จ์ด์ง
๊ฒฐ๋ก
๋ณต์กํ์ง ์์ End-to-end ๊ฐ์ฒด ๊ฒ์ถ๊ธฐ๋ฅผ ์ ์ํ๋ค๋ ์ ์ด ์ฃผ์ contribution์ด์ง๋ง, ํ์ต ์๊ฐ์ด ๊ต์ฅํ ๊ธธ๊ณ ์์ ๋ฌผ์ฒด๋ฅผ ์ ๊ฒ์ถํ์ง ๋ชปํ๋ค๋ ๋จ์ ์ด ์๋ ์ฐ๊ตฌ์ด๋ค. ์ดํ Deformable DETR ๋ฑ ์ฌ๋ฌ ์ฐ๊ตฌ๋ฅผ ํตํด ๋จ์ ์ด ๋ณด์๋์์ผ๋ฉฐ, ํ์์ ๊ธฐ์ค COCO ๋ฐ์ดํฐ์ ๊ฐ์ฒด ๊ฒ์ถ SOTA๋ DETR ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ธ ๋งํผ ์๋ฏธ๊ฐ ์๋ ์ฐ๊ตฌ๋ผ ๋ณผ ์ ์๋ค.