๊ฐ์ฒด ๊ฒ์ถ(Object Detection)์ ์ด๋ฏธ์ง๋ ์์์์ ์ด๋ค ๊ฐ์ฒด๊ฐ ์ด๋์ ์๋์ง๋ฅผ ์๋ณํ๋ ์ปดํจํฐ ๋น์ ์ ํต์ฌ ๊ณผ์ ์ค ํ๋๋ค. ์ต๊ทผ๊น์ง๋ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ์ R-CNN ๊ณ์ด์ด๋ YOLO ๊ณ์ด์ฒ๋ผ ๋ณต์กํ ๊ตฌ์กฐ์ ํ์ฒ๋ฆฌ ๋จ๊ณ๋ฅผ ํฌํจํ ๋ฐฉ์์ด ์ฃผ๋ฅผ ์ด๋ค์ง๋ง, DETR(Detection Transformer)์ ์ด ํ๋ฆ์ ํฐ ์ ํ์ ์ ๋ง๋ค์ด๋๋ค.
DETR์ Transformer ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ต์ปค ๋ฐ์ค ์์ด, ํ์ฒ๋ฆฌ ์์ด, ๊ฐ์ฒด ๊ฒ์ถ์ End-to-End๋ก ํ์ตํ๊ณ ์์ธกํ ์ ์๋๋ก ๋ง๋ ๋ชจ๋ธ์ด๋ค.
1. DETR ํต์ฌ ์์ด๋์ด
๊ธฐ์กด์ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ๋ค์ ์๋ง์ ์ต์ปค ๋ฐ์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ณด ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ๋ง๋ค๊ณ , ๊ทธ ์ค์์ ๋์ ํ๋ฅ ์ ๊ฐ์ง ๊ฒ๋ง ๋จ๊ธฐ๋ ํ์ฒ๋ฆฌ ๊ณผ์ (NMS)์ด ํ์ํ๋ค. ์ด๋ฌํ ๊ณผ์ ์ ๋ณต์กํ ๋ฟ ์๋๋ผ, ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ด ๊น๋ค๋กญ๋ค๋ ๋จ์ ์ด ์๋ค.
DETR์ ์ด ๋ชจ๋ ๊ฑธ ์์ด๋ค. ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ด ์ฒ์๋ถํฐ ๋๊น์ง ์ง์ ๊ฐ์ฒด๋ฅผ ์์ธกํ๊ณ , ์ด๋ค ์์ธก์ด ์ด๋ค ์ค์ ๊ฐ์ฒด์ ๋์ํ๋์ง๋ฅผ ์ค์ค๋ก ํ์ตํ๋๋ก ์ค๊ณ๋ ๊ตฌ์กฐ๋ค. ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ๋ง๋ ํต์ฌ ์์ด๋์ด๋ ๋ค์ ์ธ ๊ฐ์ง๋ค.
- Object Query: ๋ชจ๋ธ์ด ์์ธกํ ๊ฐ์ฒด์ ์๋งํผ ๊ณ ์ ๋ ์ฟผ๋ฆฌ๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ์
- Transformer Decoder: ์ด๋ฏธ์ง์ ๊ธ๋ก๋ฒ ์ปจํ ์คํธ๋ฅผ ๋ฐํ์ผ๋ก ๊ฐ์ฒด๋ฅผ ์์ธก
- ํ๊ฐ๋ฆฌ์ ๋งค์นญ ์๊ณ ๋ฆฌ์ฆ: ์์ธก๊ณผ ์ ๋ต ๊ฐ์ ์ต์ ๋งค์นญ์ ์ฐพ์์ฃผ๋ ๊ณผ์
2. DETR ์ํคํ ์ฒ
DETR์ ํฌ๊ฒ ์ธ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋๋ค.
๋ฐฑ๋ณธ(Backbone), Transformer Encoder-Decoder, ๊ทธ๋ฆฌ๊ณ ์์ธก ํค๋(Prediction Head)
2.1. ๋ฐฑ๋ณธ (Backbone)
DETR์์ ์ด๋ฏธ์ง๋ก๋ถํฐ ๊ธฐ๋ณธ์ ์ธ ํน์ง์ ์ถ์ถํ๋ ์ญํ ์ ResNet๊ณผ ๊ฐ์ CNN ๋ชจ๋ธ์ด ์ํํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ResNet-50์ด๋ ResNet-101๊ณผ ๊ฐ์ ๋คํธ์ํฌ๊ฐ ์ฌ์ฉ๋๋ค.
๋ฐฑ๋ณธ์ ์ญํ ์ ๋ค์๊ณผ ๊ฐ๋ค:
- ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ downsamplingํ๋ฉด์ ์ฃผ์ ์๊ฐ์ ํน์ง(feature)์ ์ถ์ถํ๋ค.
- ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ฅผ ์ค์ด๋ฉด์๋, ์๋ฏธ ์๋ ํจํด(๋ฌผ์ฒด์ ์ค๊ณฝ, ๊ฒฝ๊ณ ๋ฑ)์ ๋ฒกํฐ ํํ๋ก ํํํ๋ค.
- ๋ง์ง๋ง convolution layer์์ ์ถ์ถ๋ feature map์ (์: [batch, C, H, W]) ํํ๋ก ํํ๋๋ฉฐ, ์ดํ ์ด feature map์ transformer๊ฐ ์ฒ๋ฆฌํ ์ ์๋๋ก 2์ฐจ์ ๋ฒกํฐ ์ํ์ค๋ก ํํํ๋๋ค.
์ถ์ถ๋ feature map์ ์ดํ flatten๋์ด Transformer Encoder์ ์ ๋ฌ๋๋ค. ์ฌ๊ธฐ์ ๊ฐ ์์น์ feature vector๋ ํฌ์ง์ ๋ ์ธ์ฝ๋ฉ์ด ์ถ๊ฐ๋ ํ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ค. ํฌ์ง์ ๋ ์ธ์ฝ๋ฉ์ CNN์ ์์น ์ ๋ณด๋ฅผ ๋ณด์ํด์ฃผ๊ธฐ ์ํด ๋ฐ๋์ ํ์ํ๋ค.
2.2. Transformer Encoder-Decoder
DETR์ ํต์ฌ์ Transformer ๊ตฌ์กฐ์ด๋ค. Vision Transformer(ViT)์ ๋ฌ๋ฆฌ, DETR์ CNN์ผ๋ก feature๋ฅผ ๋จผ์ ์ถ์ถํ๊ณ , ๊ทธ ์์ Transformer๋ฅผ ์น๋ ๋ฐฉ์์ด๋ค.
๐ Encoder
Transformer Encoder๋ CNN์์ ์ถ์ถํ feature๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ global context์ ํ์ตํ๋ค.
- ์ ๋ ฅ์ CNN์ ์ถ๋ ฅ feature map์ flattenํ ํ, ๊ฐ ์์น๋ง๋ค ํฌ์ง์ ๋ ์ธ์ฝ๋ฉ์ ๋ํ ๊ฒ์ด๋ค.
- ์ดํ ์ฌ๋ฌ ์ธต์ self-attention๊ณผ feed-forward network๋ฅผ ํตํด ๊ฐ ์์น์ feature๊ฐ ์๋ก ์ด๋ค ์ฐ๊ด์ฑ์ด ์๋์ง๋ฅผ ํ์ตํ๋ค.
- ์ด ๊ณผ์ ์ ํตํด ๊ฐ์ ๊ฐ์ฒด์ ์ผ๋ถ์ผ ์ ์๋ feature๋ค ๊ฐ์ ์ฐ๊ฒฐ์ฑ์ ๊ฐํํ ์ ์๋ค.
- ๊ธฐ์กด NLP Transformer ๊ตฌ์กฐ์ ๊ฑฐ์ ๋์ผํ๋ฉฐ, feature ๊ฐ ์ํธ์์ฉ์ ์ค์ ์ ๋๋ค.
๐ Decoder
Decoder๋ DETR์์ ๊ฐ์ฅ ํต์ฌ์ ์ธ ๋ถ๋ถ ์ค ํ๋๋ก ๋ค์๊ณผ ๊ฐ์ ํน์ง์ ๊ฐ์ง๋ค.
- ์
๋ ฅ
- Object Queries: ๊ณ ์ ๋ ๊ฐ์์ ํ์ต ๊ฐ๋ฅํ ์ฟผ๋ฆฌ ๋ฒกํฐ (์: 100๊ฐ)
- Encoder Output: ์ด๋ฏธ์ง feature์ ์ ์ญ ํํ
- ๋ ๋จ๊ณ์ Attention ์ฐ์ฐ
- Self-Attention: ๊ฐ object query๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ตํ๋ค. ์๋ฅผ ๋ค์ด, ๊ฐ์ ์ด๋ฏธ์ง ์์ ๋ ๊ฐ์ฒด๊ฐ ๊ฒน์น์ง ์๋๋ก ์ํธ์์ฉํ๋ ๋ฐฉ์์ด๋ค.
- Cross-Attention: ์ฟผ๋ฆฌ ๋ฒกํฐ๊ฐ Encoder์ ์ถ๋ ฅ(feature map)์ ์ฐธ์กฐํ๋ฉฐ, ์ด๋ฏธ์ง ๋ด ์์ ์ด ๋ด๋นํ ๊ฐ์ฒด๊ฐ ์ด๋์ ์๋์ง๋ฅผ ํ์ํ๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, ๊ฐ object query๋ ์ด๋ฏธ์ง์ ์ ์ญ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ํ๋์ ๊ฐ์ฒด๋ฅผ ์์ธกํ๋ ์๋ฒ ๋ฉ์ผ๋ก ์๋ํ๊ฒ ๋๋ค.
2.3. ์์ธก ํค๋ (Prediction Head)
Transformer Decoder์ ์ถ๋ ฅ์ (num_queries, hidden_dim) ํํ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ค์ด๋ค. ๊ฐ ๋ฒกํฐ๋ ํ๋์ ๊ฐ์ฒด๋ฅผ ์์ธกํ๊ธฐ ์ํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ค. ์ด ์ถ๋ ฅ์ ๋ ๊ฐ์ Feed Forward Network(FFN)์ ์ ๋ฌ๋์ด ์ต์ข ์์ธก์ด ์ด๋ฃจ์ด์ง๋ค.
- Class Prediction Head
- ๊ฐ ์ฟผ๋ฆฌ์์ ์์ธก๋ ๊ฐ์ฒด์ ํด๋์ค ์ ๋ณด๋ฅผ ์ถ๋ ฅํ๋ค.
- ์ถ๋ ฅ ํํ๋ (num_queries, num_classes + 1)๋ก, +1์ "no object" ํด๋์ค๋ฅผ ์๋ฏธํ๋ค.
- CrossEntropy Loss๋ก ํ์ต๋๋ค.
- BBox Prediction Head
- ๊ฐ ์ฟผ๋ฆฌ์ ๋ํด ๊ฐ์ฒด์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์์ธกํ๋ค.
- ์ถ๋ ฅ์ [center_x, center_y, width, height]์ ํ์์ด๋ฉฐ, ๋ชจ๋ 0~1 ์ฌ์ด์ ๊ฐ์ผ๋ก ์ ๊ทํ๋์ด ์๋ค.
- ์ด ์์ธก๊ฐ์ ์ค์ ์ ๋ต ๋ฐ์ด๋ฉ ๋ฐ์ค์ ๋น๊ตํ์ฌ L1 Loss, GIoU Loss๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋๋ค.
์ด๋ฌํ ์์ธก ํค๋๋ ๋งค์ฐ ๋จ์ํ๋ฉฐ, fully connected layer ๋์ธ ๊ฐ ์ ๋๋ก ๊ตฌ์ฑ๋ FFN์ด๋ค. ์ด์ฒ๋ผ ๊ตฌ์กฐ๊ฐ ๋จ์ํ ์ด์ ๋ ๋๋ถ๋ถ์ ํ์ต์ด Transformer ๋ด๋ถ์์ ์ด๋ค์ง๊ณ , ์ต์ข ์ถ๋ ฅ์ ํด๋น ์ ๋ณด๋ฅผ ์ถ์ถ๋ง ํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ด๋ค.
3. ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ(Object Query)
Object Query๋ DETR๋ง์ ๋ ํนํ ๊ตฌ์ฑ ์์๋ค.
- ๊ฐ ์ฟผ๋ฆฌ๋ ํ๋์ ๊ฐ์ฒด๋ฅผ ์์ธกํ๊ธฐ ์ํ ํ์ต ๊ฐ๋ฅํ ๋ฒกํฐ๋ค.
- ์ฟผ๋ฆฌ๋ Transformer ๋์ฝ๋์ ์ ๋ ฅ๋๋ฉฐ, ์ด๋ฏธ์ง์ feature๋ค๊ณผ ์ํธ์์ฉํ๋ฉฐ ๊ด๋ จ๋ ๊ฐ์ฒด ์ ๋ณด๋ฅผ ๋ฝ์๋ธ๋ค.
์ฆ, Object Query๋ “์ด ์ฟผ๋ฆฌ๋ ์ด๋ฏธ์ง ์์ ์ด๋ค ๊ฐ์ฒด๋ฅผ ์์ธกํด์ค”๋ผ๋ ์์ฒญ ์ญํ ์ ์ํํ๋ ์ ์ด๋ค. ์ด ๊ฐ์๋ ๊ณ ์ ๋์ด ์๊ณ , ํ์ต์ ํตํด ์ฟผ๋ฆฌ๋ง๋ค ํน์ ์ ํ์ ๊ฐ์ฒด๋ฅผ ํ์งํ๋๋ก ์์ฐ์ค๋ฝ๊ฒ ๋ถํ๋๋ค.
4. ํ๊ฐ๋ฆฌ์ ๋งค์นญ ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋งค์นญ ์ฝ์คํธ
DETR์์ ๊ฐ์ฅ ํฐ ํน์ง ์ค ํ๋๋ ๊ฐ์ฒด ๊ฒ์ถ ๊ณผ์ ์ end-to-end ๋ฐฉ์์ผ๋ก ํ์ตํ ์ ์๊ฒ ๋ง๋ ๋ค๋ ์ ์ด๋ค. ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํด์ฃผ๋ ํต์ฌ ์์๊ฐ ๋ฐ๋ก ํ๊ฐ๋ฆฌ์ ๋งค์นญ(Hungarian Matching)์ด๋ค.
ํ๊ฐ๋ฆฌ์ ๋งค์นญ์ ์ญํ
DETR์์๋ ๋์ฝ๋๊ฐ ๊ณ ์ ๋ ์์ ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ(Object Queries)๋ฅผ ์ ๋ ฅ๋ฐ์, ๊ฐ ์ฟผ๋ฆฌ์ ๋ํด ๊ฐ์ฒด์ ํด๋์ค์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์์ธกํ๋ค. ์๋ฅผ ๋ค์ด, 100๊ฐ์ ์ฟผ๋ฆฌ๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๋ผ๋ฉด ๋งค ์์ธก ์์ ๋ง๋ค 100๊ฐ์ ๊ฐ์ฒด ํ๋ณด๊ฐ ์์ฑ๋๋ค. ํ์ง๋ง ์ค์ ์ด๋ฏธ์ง์๋ ๊ฐ์ฒด๊ฐ 5๊ฐ๋ง ์์ ์๋ ์๊ณ , 12๊ฐ์ผ ์๋ ์๋ค. ์ฆ, ์์ธก ๊ฒฐ๊ณผ์ ์ค์ ์ ๋ต์ ์๊ฐ ๋ค๋ฅด๋ฉฐ, ์์๋ ์ ํ ์ผ์นํ์ง ์๋๋ค. ์ด์ฒ๋ผ ์์ธก๋ ๊ฐ๊ณผ ์ค์ ๊ฐ์ ์๊ฐ ๋ค๋ฅด๊ณ ์ผ๋์ผ ๋์์ด ๋ถ๋ถ๋ช ํ ์ํฉ์์, ๊ฐ ์์ธก๊ฐ์ด ์ด๋ค ์ค์ ๊ฐ์ฒด๋ฅผ ์์ธกํ๋ ค ํ ๊ฒ์ธ์ง ๋งค์นญํด์ฃผ๋ ๊ณผ์ ์ด ํ์ํ๋ค.
์ด๋ฅผ ์ํด DETR์ ํ๊ฐ๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ค. ํ๊ฐ๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ์ ์์ธก๊ฐ๊ณผ ์ ๋ต ๊ฐ์ ๋งค์นญ ๋น์ฉ(Matching Cost)์ ์ต์ํํ๋ ๋ฐฉ์์ผ๋ก, ๊ฐ์ฅ ํจ์จ์ ์ธ 1:1 ๋งค์นญ์ ์ฐพ์์ฃผ๋ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
์ ๋งค์นญ์ด ํ์ํ๊ฐ?
๊ณ ์ ๋ ์์ ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ๋ ๋ชจ๋ธ์ด ํญ์ ์ผ์ ํ ๊ฐ์์ ๊ฐ์ฒด๋ฅผ ์์ธกํ๋๋ก ๊ฐ์ ํ๋ค. ํ์ง๋ง ์ค์ ์ ๋ต์ ์ ๋์ ์ด๊ธฐ ๋๋ฌธ์, ํ์ต ์์ "์ด๋ค ์์ธก๊ฐ์ด ์ด๋ค ์ ๋ต๊ณผ ๋์๋๋์ง"๊ฐ ๋ช ํํ์ง ์์ผ๋ฉด Loss๋ฅผ ๊ณ์ฐํ ์ ์๋ค.
์๋ฅผ ๋ค์ด, 100๊ฐ์ ์์ธก ์ค 5๊ฐ๋ง ์ค์ ๊ฐ์ฒด์ ๊ด๋ จ์ด ์๊ณ , ๋๋จธ์ง๋ ๋ชจ๋ "no object"์ธ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ์ด ๋ ํ๊ฐ๋ฆฌ์ ๋งค์นญ์ ๊ฐ์ฅ ์ ์ ํ ์์ธก๊ฐ 5๊ฐ๋ฅผ ์ ํํด ์ค์ ๊ฐ์ฒด์ ๋งค์นญ์์ผ์ค๋ค. ๋๋จธ์ง 95๊ฐ๋ "๋ฐฐ๊ฒฝ"์ผ๋ก ๋ถ๋ฅ๋์ด ๋ณ๋์ Loss๋ก ์ฒ๋ฆฌ๋๋ค.
๋งค์นญ ๋น์ฉ (Matching Cost)์ ๊ตฌ์ฑ
ํ๊ฐ๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ์ด ๋งค์นญ์ ์ํํ๊ธฐ ์ํด์๋, ์์ธก๊ฐ๊ณผ ์ ๋ต ์ฌ์ด์ "๋น์ฉ(Cost)"์ ์ ์ํด์ผ ํ๋ค. ์ด ๋น์ฉ์ ๋จ์ํ ๊ฑฐ๋ฆฌ๋ฟ ์๋๋ผ ์์ธก๋ ๊ฐ์ฒด ์ ๋ณด์ ์ ํ๋ ์ ๋ฐ์ ๋ฐ์ํ๋ค. DETR์์๋ ๋ค์๊ณผ ๊ฐ์ ์ธ ๊ฐ์ง ์์๊ฐ ๋งค์นญ ๋น์ฉ์ ๊ตฌ์ฑํ๋ค:
- Class Matching Cost
์์ธก๋ ํด๋์ค์ ์ค์ ํด๋์ค ๊ฐ์ ์ฐจ์ด๋ฅผ ๋ฐ์ํ๋ค. ์ผ๋ฐ์ ์ผ๋ก Cross Entropy ๋๋ negative log-likelihood ๋ฐฉ์์ผ๋ก ๊ณ์ฐ๋๋ค. - BBox Matching L1 Cost
์์ธก๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ์ ์ค์ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ ๊ฐ์ L1 ๊ฑฐ๋ฆฌ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ๋ค.
์์น ์ ๋ณด์ ์ ํ๋๋ฅผ ๋ฐ์ํ๋ฉฐ, ์ค์ฌ ์ขํ์ ํฌ๊ธฐ ๋ชจ๋ ๊ณ ๋ ค๋๋ค. - GIoU Matching Cost (Generalized IoU)
๋ฐ์ด๋ฉ ๋ฐ์ค ๊ฐ์ ๊ฒน์นจ ์ ๋๋ฅผ ํ๊ฐํ๋ค. GIoU๋ ๋จ์ IoU๋ณด๋ค ๋ ์ ๊ตํ ์ฒ๋๋ก, ๋ ๋ฐ์ค๊ฐ ๊ฒน์น์ง ์๋๋ผ๋ ์ผ๋ง๋ ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์๋์ง๋ฅผ ๊ณ ๋ คํ์ฌ ๋ ๋์ gradient๋ฅผ ์ ๊ณตํ๋ค.
์ด ์ธ ๊ฐ์ง ๋น์ฉ์ ๊ฐ์ค ํฉ์ฐํ์ฌ ์ต์ข ๋งค์นญ ์ฝ์คํธ๋ฅผ ๊ณ์ฐํ๊ณ , ํ๊ฐ๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ์ ์ด ์ฝ์คํธ๋ฅผ ์ต์ํํ๋ ์ต์ ์ ์์ธก-์ ๋ต ์ ์กฐํฉ์ ์ฐพ์๋ธ๋ค.
ํ๊ฐ๋ฆฌ์ ๋งค์นญ์ ์ฅ์
- ํ์ฒ๋ฆฌ ํ์ ์์: ์ ํต์ ์ธ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ, NMS(Non-Maximum Suppression) ๊ฐ์ ํ์ฒ๋ฆฌ ๊ณผ์ ์ด ํ์ ์๋ค.
- ๋จ์ํ ๊ตฌ์กฐ: ์ต์ปค ๋ฐ์ค๊ฐ ํ์ ์๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ ํจ์ฌ ๊ฐ๊ฒฐํด์ง๋ค.
- ์ผ๊ด๋ ํ์ต ๊ฐ๋ฅ: ๊ฐ ์์ธก์ ๋ํด ์ ๋ต๊ณผ์ ๋งค์นญ์ด ๋ช ํํ ์ ์๋๋ฏ๋ก, ํ์ต ๊ณผ์ ์ด ์์ ์ ์ด๊ณ ์ผ๊ด๋๋ค.
- ๋ค๋๋ค ์์ธก์์ 1:1 ๋งค์นญ์ผ๋ก: ๊ณ ์ ๋ ์์ ์ฟผ๋ฆฌ์์ ๋ค์์ ์์ธก์ ํ๋, ์ค์ ๊ฐ์ฒด์๋ ์ ํํ 1:1 ๋์์ ์ฐพ๊ธฐ ๋๋ฌธ์ ๋ถํ์ํ ์ค๋ณต ์์ธก์ด ์ค์ด๋ ๋ค.
5. DETR์ ์ฅ์ ๊ณผ ํ๊ณ
์ฅ์
- NMS ์ ๊ฑฐ: ํ์ฒ๋ฆฌ ์์ด ๋ฐ๋ก ์์ธก๋ ๊ฒฐ๊ณผ๋ฅผ ์ฌ์ฉ ๊ฐ๋ฅ
- ๊ฐ๊ฒฐํ ๊ตฌ์กฐ: ์ต์ปค ๋ฐ์ค, ์ ์ ์์ญ ๋ฑ์ด ์ฌ๋ผ์ ธ ๊ตฌ์กฐ๊ฐ ๋จ์ํด์ง
- ํ์ต ์ผ๊ด์ฑ: ์ฟผ๋ฆฌ ๊ธฐ๋ฐ ์์ธก์ผ๋ก ๋งค์นญ๊ณผ ํ์ต์ด ์ง๊ด์
๋จ์
- ์์ ๊ฐ์ฒด ๊ฒ์ถ์ ์ฝํจ: Transformer ๊ตฌ์กฐ ํน์ฑ์ ๋ก์ปฌ ๋ํ ์ผ ์ ๋ณด ์์ค
- ํ์ต ์๋ ด ์๋ ๋๋ฆผ: CNN ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋นํด ํ๋ จ์ ๋ ๋ง์ ์๊ฐ์ด ํ์
์ด๋ฌํ ๋จ์ ์ ๊ฐ์ ํ Deformable DETR, DINO DETR, H-DETR ๋ฑ ๋ค์ํ ๋ณํ ๋ชจ๋ธ์ด ์ดํ์ ์ ์๋์๋ค. ํนํ Deformable DETR์ ์์ ๊ฐ์ฒด ๊ฒ์ถ ์ฑ๋ฅ๊ณผ ํ์ต ์๋ ๋ฌธ์ ๋ฅผ ํฌ๊ฒ ๊ฐ์ ํ๋ค.
6. ์์ฝ
- DETR์ CNN ๋ฐฑ๋ณธ + Transformer ๊ตฌ์กฐ๋ฅผ ํตํด End-to-End ๊ฐ์ฒด ๊ฒ์ถ์ ์คํํ ์ต์ด์ ๋ชจ๋ธ์ด๋ค.
- Object Query๋ฅผ ์ด์ฉํด ๊ฐ์ฒด๋ฅผ ์ง์ ์์ธกํ๊ณ , Hungarian Matching์ผ๋ก ์ ๋ต๊ณผ์ ๋งค์นญ์ ์๋์ผ๋ก ์ํํ๋ค.
- ํ์ฒ๋ฆฌ ์์ด๋ ๊ฐ์ฒด ๊ฒ์ถ์ด ๊ฐ๋ฅํ๋ฉฐ, ๊ตฌ์กฐ๊ฐ ๋จ์ํด ๋ชจ๋ธ ํด์์ด ์ฌ์์ก๋ค.
- ์ดํ ๋ค์ํ DETR ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ด ๋ฑ์ฅํ๋ฉด์ ๊ฐ์ฒด ๊ฒ์ถ ๋ถ์ผ์ ์๋ก์ด ํ๋ฆ์ ๋ง๋ค์๋ค.