๊ฐ์ฒด ๊ฒ์ถ(Object Detection)์ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ๊ฐ์ฅ ์ค์ํ ๋ฌธ์ ์ค ํ๋๋ก, ์ด๋ฏธ์ง ๋ด์์ ๊ฐ์ฒด์ ์์น์ ์ข ๋ฅ๋ฅผ ์๋ณํ๋ ์์ ์ด์์. ์ค๋์ ๊ฐ์ฒด ๊ฒ์ถ ๋ถ์ผ์์ ํ ํ์ ๊ทธ์ DETR (Detection Transformer) ๋ชจ๋ธ์ ๋ํด ์ดํด๋ณด๋ ค ํด์.
์ด๋ค ๊ฒ์ ์์ฃผ๋ก ๋ด์ผํ ์ง ๋ชจ๋ฅด๊ฒ ๋ค๋ฉด, 1) ํธ๋์คํฌ๋จธ ๋์ฝ๋, 2) ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ, 3) ํ๊ฐ๋ฆฌ์ ๋งค์นญ ์ ์์ฃผ๋ก ๋ณด์๋ฉด ๋ผ์-!
Transformer ๊ธฐ๋ณธ ๊ตฌ์กฐ์ ์ญํ ๋ฐ self-attention ์ ๋ํด์ ์๊ณ ์๋ ์ํ์์ ๋ณด์๋๊ฒ ์ข์์.
๋ํ ํ์ฌ๋ ๊ธฐ๋ณธ DETR ๋ชจ๋ธ๋ณด๋ค๋ DETR ๊ธฐ๋ฐ์ ์กฐ๊ธ ๋ ๋ฐ์ ๋ ํํ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋, ์ฐธ๊ณ ๋ถํ๋๋ ค์.
1. ์ธํธ๋ก
DETR์ Transformer ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ต์ด์ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ์ด์์. ๊ธฐ์กด์ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ๋ค๊ณผ ๋ฌ๋ฆฌ, DETR์ ์ต์ปค ๋ฐ์ค๋ฅผ ์ฌ์ฉํ์ง ์์ผ๋ฉฐ, ์ด๋ก ์ธํด ๋ชจ๋ธ ๊ตฌ์กฐ์ ๋ณต์ก์ฑ์ ํฌ๊ฒ ์ค์ผ ์ ์์์ด์. ๋ํ, ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์ ๋จ์ํํ์ฌ ๋ ์ง๊ด์ ์ธ ๋ฐฉ์์ผ๋ก ๊ฐ์ฒด ๊ฒ์ถ์ ์ํํ ์ ์์ต๋๋ค.
์ ํต์ ์ธ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ๋ค์ ์ผ๋ฐ์ ์ผ๋ก ์ต์ปค ๋ฐ์ค(Anchor Box)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ์๋ง์ ํ๋ณด ์์ญ์ ์์ฑํ ํ, ์ด๋ฅผ ํ์ฒ๋ฆฌ ๊ณผ์ ์์ ํํฐ๋งํ๋ ๋ฐฉ์์ผ๋ก ์๋ํฉ๋๋ค. ํ์ง๋ง ์ด ๋ฐฉ์์ ์ต์ปค ๋ฐ์ค์ ์์ ํฌ๊ธฐ์ ๋ฏผ๊ฐํ๋ฉฐ, NMS(Non-Maximum Suppression)๊ณผ ๊ฐ์ ๋ณต์กํ ํ์ฒ๋ฆฌ๊ฐ ํ์ํฉ๋๋ค.
๋ฐ๋ฉด DETR์ ์ด๋ฌํ ๋ณต์กํ ๊ณผ์ ์์ด ๊ฐ์ฒด ๊ฒ์ถ์ End-to-end๋ก ์ํํฉ๋๋ค.
End-to-end ๊ฒ์ถ์ ๋น๊ฒฐ: ํ๊ฐ๋ฆฌ์ ๋งค์นญ
DETR์ด ์๋ ํฌ ์๋๋ก ๊ฐ์ฒด ๊ฒ์ถ์ ์ํํ ์ ์๋ ๋น๊ฒฐ์ ๋ฐ๋ก ํ๊ฐ๋ฆฌ์ ๋งค์นญ ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉํ loss ํจ์ ์ค๊ณ์ ์์ต๋๋ค. ํ๊ฐ๋ฆฌ์ ๋งค์นญ์ ์์ธก๋ ๊ฐ์ฒด์ ์ค์ ๊ฐ์ฒด ๊ฐ์ ์ต์ ๋งค์นญ์ ์ฐพ์์ฃผ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, DETR์ loss ๊ณ์ฐ์์ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
ํ๊ฐ๋ฆฌ์ ๋งค์นญ์ 4๋ฒ์์ ์กฐ๊ธ ๋ ์์ธํ๊ฒ ์ดํด๋ณผ๊ฒ์.
2. DETR ์ํคํ ์ฒ
DETR์ ์ํคํ ์ฒ๋ ํฌ๊ฒ ๋ค์๊ณผ ๊ฐ์ ์ธ ๋ถ๋ถ์ผ๋ก ๋๋ ์ ์์ด์.
๋ฐฑ๋ณธ(Backbone), Transformer Encoder-Decoder, ๊ทธ๋ฆฌ๊ณ ์์ธก ํค๋(Prediction Head)
2.1. ๋ฐฑ๋ณธ(Backbone)
- DETR์ ๋ฐฑ๋ณธ์ ์ผ๋ฐ์ ์ผ๋ก ResNet๊ณผ ๊ฐ์ CNN ๋ชจ๋ธ์ด ์ฌ์ฉ๋จ
- ์ผ๋ฐ์ ์ธ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ๊ณผ ๋์ผํ๊ฒ CNN ๋ฐฑ๋ณธ์ ์ด๋ฏธ์ง feature๋ฅผ ์ถ์ถ
- ์ถ์ถ๋ ํผ์ฒ ๋งต์ ์ดํ Transformer๋ก ์ ๋ฌ๋ผ์.
2.2. Transformer Encoder-Decoder
- ์ธ์ฝ๋(Encoder)
- Feaure๋ฅผ ์ธ์ฝ๋ฉํ์ฌ ๊ฐ ์์น์ global context๋ฅผ ํ์ตํฉ๋๋ค.
- ์ด ๋ถ๋ถ์ ๊ธฐ์กด ํธ๋์คํฌ๋จธ ์ธ์ฝ๋์ ๋์ผํ ์ญํ ์ ์ํํด์
- ์ถ์์ ์ผ๋ก CNN ๋ฐฑ๋ณธ์ผ๋ก ์ถ์ถ๋ ์ด๋ฏธ์ง feature๋ฅผ self-attention์ ํตํด global feature๋ฅผ ๊ฐํํ๋ ๊ณผ์ ์ด๋ผ ๋ณผ ์ ์์ด์.
- ๋์ฝ๋(Decoder)
- ๋์ฝ๋๋ ์ธ์ฝ๋ ์ถ๋ ฅ feature์ ๊ณ ์ ๋ ์์ ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ(object query)๋ฅผ ์ ๋ ฅ๋ฐ์, ์ฟผ๋ฆฌ์ ๋ํด ์์ธก๋ ๊ฐ์ฒด์ ์ ๋ณด๋ฅผ ์์ฑํ๋ ํต์ฌ ๊ตฌ์ฑ ์์์์! (์ค๋ธ์ ํธ ์ฟผ๋ฆฌ๋ ์๋์์ ์กฐ๊ธ ๋ ์์ธํ๊ฒ ์ดํด๋ณผ๊ฒ์!)
- ๋์ฝ๋์์๋ self-attention, cross-attention ๋ ๊ฐ์ง ์ค์ํ ์ฐ์ฐ ๊ณผ์ ์ด ์์ด์.
- Self-Attention
- ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ๊ฐ ๋ค๋ฅธ ์ฟผ๋ฆฌ๋ค๊ณผ ์ํธ์์ฉํ์ฌ, ์๋ก ๊ฐ์ ์๊ด ๊ด๊ณ๋ฅผ ํ์ตํ๋ ๊ณผ์
- Cross-Attention
- ์ธ์ฝ๋ ์ถ๋ ฅ feature๋ฅผ ์ฐธ์กฐํ์ฌ, ๊ฐ ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ๊ฐ ์ด๋ฏธ์ง ํน์ ์์ญ๊ณผ ์ํธ์์ฉํ๋ ์ฐ์ฐ ๊ณผ์ ์ด์์
- ์ด ๊ณผ์ ์์ ์ฟผ๋ฆฌ๋ ์ด๋ฏธ์ง ๋ด์์ ์์ ๊ณผ ๊ด๋ จ๋ feature๋ฅผ ์ ํํ๊ณ ํด๋น feature๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ฒด์ ์์น์ ํด๋์ค ์ ๋ณด๋ฅผ ์์ธกํ๊ฒ ๋๋ ๊ฒ์ด์ฃ
2.3. ์์ธก ํค๋(Prediction Head):
- ๋์ฝ๋์ ์ถ๋ ฅ์ ๋ฐ์ ์ต์ข ์ ์ผ๋ก ๊ฐ์ฒด์ ๋ ์ด๋ธ๊ณผ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ๋ฅผ ์์ธกํ๋ ์ฐ์ฐ์ ์ํํด์
- ์์ธก ํค๋๋ ์ผ๋ฐ์ ์ผ๋ก ์ฌ๋ฌ ๊ฐ์ Feed-Forward Network(FFN)์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ฐ ๋ ์ด์ด๋ fc layer๋ก ๊ตฌ์ฑ๋์ด ์์ด์.
- Class Prediction Head
- ๊ฐ ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ๋ก๋ถํฐ ์์ธก๋ ๊ฐ์ฒด์ ํด๋์ค๋ฅผ ์ถ๋ ฅํด์
- (num query, batch, hidden_dim) ํฌ๊ธฐ์ ๋์ฝ๋ ์ถ๋ ฅ์ ๋ฐ์ (num query, batch, num of class) ํฌ๊ธฐ์ ํ ์๋ฅผ ์ถ๋ ฅ
- BBox Prediction Head
- ๊ฐ ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ์ ๋ํด ์์ธก๋ ๊ฐ์ฒด์ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ๋ฅผ ์ถ๋ ฅํด์
- (num query, batch, hidden_dim) ํฌ๊ธฐ์ ๋์ฝ๋ ์ถ๋ ฅ์ ๋ฐ์ (num query, batch, 4) ํฌ๊ธฐ์ ํ ์๋ฅผ ์ถ๋ ฅ
- bbox ์ขํ๋ 0~1 ํฌ๊ธฐ๋ก ๋ ธ๋ฉ๋ผ์ด์ฆ๋ [center_x, center_y, width, height] ํ์์ bbox ์ขํ์์
3. ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ(Object Query)
- ๋์ฝ๋์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ๋ ๊ณ ์ ๋ ์์ ํ์ต ๊ฐ๋ฅํ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ก, ๊ฐ ์ฟผ๋ฆฌ๋ ์์ธกํ ๊ฐ์ฒด์ ์ ๋ณด๋ฅผ ํํํด์.
- ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ๋ ๋ชจ๋ธ์ด ๊ฐ ๊ฐ์ฒด๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ํ์งํ๋๋ก ๋์์ฃผ๋ฉฐ, ์ด ๊ณผ์ ์์ ๋ชจ๋ธ์ ๊ฐ ์ฟผ๋ฆฌ์ ๋ํด ์ด๋ฏธ์ง ๋ด์ ํน์ ๊ฐ์ฒด๋ฅผ ์ฐพ์๋ด๋ ๋ฐ ์ง์คํ๊ฒ ๋ฉ๋๋ค.
- ๊ฐ๋จํ๊ฒ ์๊ฐํ๋ฉด ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ๋ ํ์ต ๊ฐ๋ฅํ ์๊ท๋ชจ ๋คํธ์ํฌ(์๋ฒ ๋ฉ ๋ฒกํฐ)๋ผ๊ณ ์๊ฐํ ์ ์์ด์.
*๋ํ DETR์์ ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ๋ ์ฌ๋กฏ(slot)์ผ๋ก ํํ๋๋ ๋ฐ์. ์ด๋ ๊ฐ ์ฟผ๋ฆฌ๊ฐ ์ด๋ฏธ์ง ๋ด์ ๊ฐ์ฒด๋ฅผ ํ์งํ๊ธฐ ์ํด ์์ฝ๋ ํน์ ์์น ๋๋ ์ฉ๋๋ฅผ ๊ฐ์ง๋ค๋ ์๋ฏธ์์.
4. ํ๊ฐ๋ฆฌ์ ๋งค์นญ ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋งค์นญ ์ฝ์คํธ
ํ๊ฐ๋ฆฌ์ ๋งค์นญ์ ์ญํ
DETR์์๋ ๋์ฝ๋(Decoder)๊ฐ ๊ณ ์ ๋ ์์ ๊ฐ์ฒด ์ฟผ๋ฆฌ(Object Query)๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ๊ฐ์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ๊ฐ์ฒด ํด๋์ค๋ฅผ ์์ธกํฉ๋๋ค. ๊ทธ๋ฌ๋ ์์ธก๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์๋ ํญ์ ์ค์ ๊ฐ์ฒด์ ์์ ์ผ์นํ์ง ์์ผ๋ฉฐ, ์์ ๋ํ ๋ค์์ฌ ์์ ์ ์์ต๋๋ค. ์ด๋, ํ๊ฐ๋ฆฌ์ ๋งค์นญ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด ์์ธก๋ ๋ฐ์ค์ ์ค์ ๋ฐ์ค ๊ฐ์ ์ต์ ๋งค์นญ์ ์ฐพ์๋ ๋๋ค.
ํ๊ฐ๋ฆฌ์ ๋งค์นญ์ด ๊ฒฐ์ ๋ ํ, DETR์ ๋งค์นญ๋ ์์ธก ๊ฐ๊ณผ ์ค์ ๊ฐ ์ฌ์ด์ loss๋ฅผ ๊ณ์ฐํ์ฌ ๋ชจ๋ธ์ ์ ๋ฐ์ดํธํด์!
์ค๋ธ์ ํธ ์ฟผ๋ฆฌ๋ ๊ณ ์ ๋ ์์ ์๋ฒ ๋ฉ ๋ฒกํฐ์ด์ ์ฌ๋กฏ์ด๋ผ๊ณ ๋ง์๋๋ ธ์ฃ ? ๊ทธ๋์ ์ค๋ธ์ ํธ ์ฟผ๋ฆฌ๊ฐ 100๊ฐ ๋ผ๋ฉด ์ค์ ์ด๋ฏธ์ง์ ๊ฒ์ถํ ์ค๋ธ์ ํธ๊ฐ 5๊ฐ์ด๋๋ผ๋ ์์ธก๊ฐ์ 100๊ฐ๋ ๋๋ ์ํฉ์ด ๋์ฃ . ๊ทธ๋ฐ๋ฐ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ์ ํ์ตํ๋ ค๋ฉด ์ด๋ค ์์ธก๊ฐ์ด ์ด๋ค ์ ๋ต์ ์์ธก ํ๋ ค๊ณ ํ๋์ง ๋งค์นญ์ด ๋์ด์ผ loss๋ฅผ ์ค์ ํ์ตํ ์ ์๊ฒ ์ฃ ? ๊ทธ๋์ ์ด ๋ ํ๊ฑฐ๋ฆฌ์ ๋งค์นญ์ ์ฌ์ฉํ๋ ๊ฑฐ์์!
๋งค์นญ ๋น์ฉ (Matching Cost)
ํ๊ฐ๋ฆฌ์ ๋งค์นญ์์ ์ต์ ๋งค์นญ์ ๊ฒฐ์ ํ๊ธฐ ์ํด์๋ ๊ฐ ์์ธก๋ ๋ฐ์ค์ ์ค์ ๋ฐ์ค ๊ฐ์ ๋งค์นญ ์ฝ์คํธ๋ฅผ ์ ์ํด์ผ ํ๋๋ฐ์. DETR์์ ๋งค์นญ ์ฝ์คํธ๋ ๋ค์๊ณผ ๊ฐ์ ์์๋ค๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
1. Class matching cost
- ์์ธก๋ ๊ฐ์ฒด ํด๋์ค์ ์ค์ ๊ฐ์ฒด ํด๋์ค ๊ฐ์ ์ฐจ์ด๋ฅผ ํ๊ฐ
- ์ด ๋น์ฉ์ด ๋์์๋ก ํด๋์ค ์์ธก์ ๋ ์ค์ํ๊ฒ ํ๊ฐ
2. BBox matching L1 cost
- ์์ธก๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ค์ ๋ฐ์ด๋ฉ ๋ฐ์ค ๊ฐ์ ์ฐจ์ด๋ฅผ L1 loss๋ก ํ๊ฐ
- ์ด ๋น์ฉ์ด ๋์์๋ก ์ ํํ bbox ์์ธก์ด ์ค์
3. GIoU matching cost
- ์์ธก๋ ๋ฐ์ค์ ์ค์ ๋ฐ์ค ๊ฐ์ ๊ฒน์นจ ์ ๋๋ฅผ ํ๊ฐ
- ๊ฒน์น๋ ๋ถ๋ถ์ด ๋ง์์๋ก loss๊ฐ ์์์ง
- GIoU๋ bbox ๊ฒน์นจ ์ ๋๋ฅผ ๊ฐ์ ํ์ฌ ๋ ์ ํํ ๋ฐ์ค ์์ธก์ ์ ๋
ํ๊ฐ๋ฆฌ์ ๋งค์นญ์ ์ด๋ฌํ matching cost๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ธก๋ ๊ฐ ๊ฐ์ฒด๊ฐ ์ค์ ์ด๋ค ๊ฐ์ฒด์ ํด๋นํ๋์ง๋ฅผ ๊ฒฐ์ ํ๋ฉฐ, ์ด๋ก ์ธํด ์ต์ ์ ๋งค์นญ์ด ์ด๋ฃจ์ด์ง๋ ๊ฒ์ด์ฃ !
ํ๊ฐ๋ฆฌ์ ๋งค์นญ์ด ๊ฐ์ ธ์จ DETR์ ์ฅ์
ํ๊ฐ๋ฆฌ์ ๋งค์นญ ์๊ณ ๋ฆฌ์ฆ ๋๋ถ์ DETR์ ๋ค์๊ณผ ๊ฐ์ ์ฅ์ ์ ๊ฐ์ ธ์.
- ํ์ฒ๋ฆฌ ๋ถํ์: NMS์ ๊ฐ์ ๋ณต์กํ ํ์ฒ๋ฆฌ ๊ณผ์ ์ด ํ์ ์์ผ๋ฉฐ, ์์ธก๋ ๊ฒฐ๊ณผ๊ฐ ๊ณง ์ต์ข ๊ฒฐ๊ณผ๋ก ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
- ๋จ์ํ ๊ตฌ์กฐ: ์ต์ปค ๋ฐ์ค๋ฅผ ์ฌ์ฉํ์ง ์์ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ ๊ฐ๋จํด์ง๊ณ , ์ต์ปค ๋ฐ์ค ์ค์ ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ์ ๋ํ ๊ณ ๋ฏผ์ด ์ค์ด๋ญ๋๋ค.
- ์ผ๊ด๋ ํ์ต ๊ณผ์ : ๋งค์นญ ๊ณผ์ ์์ ๋ชจ๋ ์์ธก์ ๋ํด ์ผ๊ด๋๊ฒ ํ์ตํ ์ ์์ผ๋ฉฐ, ์ด๋ ๋ชจ๋ธ์ ์ฑ๋ฅ ์์ ์ฑ์ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค.
5. ์์ฝ
- DETR์ CNN ๊ธฐ๋ฐ์ ๋ฐฑ๋ณธ ๋คํธ์ํฌ๋ฅผ ํตํด ์ ๋ ฅ ์ด๋ฏธ์ง์์ ํผ์ฒ ๋งต์ ์ถ์ถ
- Transformer Encoder-Decoder ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํด ํผ์ฒ ๋งต์ ์ธ์ฝ๋ฉํ๊ณ , ๊ฐ์ฒด ์ฟผ๋ฆฌ๋ฅผ ํตํด ๊ฐ์ฒด ์์ธก์ ์ํ
- ์์ธก๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ํด๋์ค์ ๋ํด ํ๊ฐ๋ฆฌ์ ๋งค์นญ์ ์ฌ์ฉํ์ฌ ์ค์ ๊ฐ๊ณผ ์ต์ ์ ๋งค์นญ์ ์ฐพ์
- Matching cost์ ๊ธฐ๋ฐํ loss๋ฅผ ๊ณ์ฐํ๊ณ , ์ด ์์ค์ ์ต์ํํ๋๋ก ๋ชจ๋ธ์ ํ์ต์ํด
DETR์ ํ๊ฐ๋ฆฌ์ ๋งค์นญ ์๊ณ ๋ฆฌ์ฆ์ ๋์ ํด End-to-end ๊ฐ์ฒด ๊ฒ์ถ์ ๊ฐ๋ฅํ๊ฒ ๋ง๋ ํ์ ์ ์ธ ๋ชจ๋ธ์ด์์. ์ด ๋ชจ๋ธ์ ๊ฐ์ฒด ๊ฒ์ถ์ ๋ณต์ก์ฑ์ ํฌ๊ฒ ์ค์ด๊ณ , ๋ ์ง๊ด์ ์ด๊ณ ํจ์จ์ ์ธ ํ์ต ๊ณผ์ ์ ์ ๊ณตํฉ๋๋ค. ๋ฌผ๋ก DETR์ ์์ ๊ฐ์ฒด๋ฅผ ์ ๊ฒ์ถํ์ง ๋ชปํ๋ ์ฌ๊ฐํ ๋จ์ ์ด ์กด์ฌํ๋๋ฐ์. ์ง๊ธ์ ์ดํ ์ฐ๊ตฌ(Deformable DETR)์์ ๊ฐ์ ๋์์ด์. ๋ํ ์ง๊ธ๋ ๊ฐ์ฒด ๊ฒ์ถ ๋๋ฉ์ธ์์๋ DETR ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์์ฃผ ์ฌ์ฉํ๋, ๊ฐ์ฒด ๊ฒ์ถ ํ๋ก์ ํธ๋ฅผ ์งํํ์ ์ผ ํ๋ค๋ฉด DETR ๋ชจ๋ธ์ ๊ณต๋ถํ๋ ๊ฒ์ ํ์! ๋ผ๋ ์๊ฐ์ด ๋๋ค์ ใ ใ .