๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ› Research/Detection & Segmentation

[Object Detection] ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ (4) : RetinaNet, EfficientDet

by ๋ญ…์ฆค 2024. 8. 11.
๋ฐ˜์‘ํ˜•

์•ˆ๋…•ํ•˜์„ธ์š”! ์˜ค๋Š˜์€ ๊ฐ์ฒด ๊ฒ€์ถœ์˜ ์ตœ์‹  ๊ธฐ์ˆ ์ธ RetinaNet๊ณผ EfficientDet์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋‘ ๋ชจ๋ธ์€ ๊ฐ๊ฐ์˜ ๋…ํŠนํ•œ ๋ฐฉ์‹์œผ๋กœ ๊ฐ์ฒด ๊ฒ€์ถœ์˜ ์ •ํ™•๋„์™€ ํšจ์œจ์„ฑ์„ ํ•œ์ธต ๋” ๋Œ์–ด์˜ฌ๋ ธ๋Š”๋ฐ์š”. ๊ฐ ๋ชจ๋ธ์ด ์–ด๋–ค ์ ์—์„œ ๋›ฐ์–ด๋‚œ์ง€, ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ์ž์„ธํžˆ ์‚ดํŽด๋ณผ๊ฒŒ์š”!

 

๐Ÿ“Œ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ ์ „์ฒด ํฌ์ŠคํŒ…


1. RetinaNet: ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜• ํ•ด๊ฒฐ

 

๋จผ์ € ์†Œ๊ฐœํ•  ๋ชจ๋ธ์€ RetinaNet์ž…๋‹ˆ๋‹ค. RetinaNet์€ 2017๋…„์— ๋ฐœํ‘œ๋œ ๋ชจ๋ธ๋กœ, ๊ฐ์ฒด ๊ฒ€์ถœ์—์„œ ํ”ํžˆ ๋ฐœ์ƒํ•˜๋Š” ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜• ๋ฌธ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Focal Loss๋ผ๋Š” ํ˜์‹ ์ ์ธ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ๋„์ž…ํ–ˆ์–ด์š”.

 

 

์ž‘๋™ ๋ฐฉ์‹

  • Feature Pyramid Network (FPN)
    • RetinaNet์€ Feature Pyramid Network (FPN)์„ ํ™œ์šฉํ•ด ๋‹ค์–‘ํ•œ ์Šค์ผ€์ผ์˜ ๊ฐ์ฒด๋ฅผ ๊ฒ€์ถœํ•ด์š”.
    • ์—ฌ๋Ÿฌ ํ•ด์ƒ๋„์˜ feature map์„ ์‚ฌ์šฉํ•ด ์ž‘์€ ๊ฐ์ฒด๋ถ€ํ„ฐ ํฐ ๊ฐ์ฒด๊นŒ์ง€ ์ž˜ ์žก์•„๋‚ผ ์ˆ˜ ์žˆ์–ด์š”.
  • Focal Loss
    • Focal Loss๋Š” ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜• ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋œ Loss ํ•จ์ˆ˜์—์š”
    • ์‰ฝ๊ฒŒ ๋ถ„๋ฅ˜๋˜๋Š” ์ƒ˜ํ”Œ(์ •ํ™•๋„๊ฐ€ ๋†’์€ ์ƒ˜ํ”Œ)์—๋Š” ๋” ์ ์€ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜๊ณ , ์–ด๋ ค์šด ์ƒ˜ํ”Œ(์ •ํ™•๋„๊ฐ€ ๋‚ฎ์€ ์ƒ˜ํ”Œ)์—๋Š” ๋” ๋งŽ์€ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ๋“œ๋ฌธ ๊ฐ์ฒด๋‚˜ ์ž‘์€ ๊ฐ์ฒด์˜ ๊ฒ€์ถœ ์„ฑ๋Šฅ์„ ๋†’์—ฌ์ค˜์š”.
    • ๋•๋ถ„์— ๋ฐฐ๊ฒฝ๊ณผ ๊ฒน์น˜๋Š” ๊ฐ์ฒด๋„ ์ •ํ™•ํ•˜๊ฒŒ ์žก์„ ์ˆ˜ ์žˆ์ฃ .
  • Single Shot Detection
    • RetinaNet์€ Single Shot ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.
    • ์ฆ‰, ์ด๋ฏธ์ง€๋ฅผ ํ•œ ๋ฒˆ์— ๋ถ„์„ํ•ด ๋น ๋ฅด๊ฒŒ ๊ฐ์ฒด๋ฅผ ๊ฒ€์ถœํ•  ์ˆ˜ ์žˆ์–ด ์‹ค์‹œ๊ฐ„ ๊ฒ€์ถœ์—๋„ ์ ํ•ฉํ•ด์š”.

 

๋‹จ์ 

  • ์†๋„: RetinaNet์€ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์ž๋ž‘ํ•˜์ง€๋งŒ, ์†๋„ ๋ฉด์—์„œ๋Š” YOLO์™€ SSD ๊ฐ™์€ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์— ๋น„ํ•ด ์ƒ๋Œ€์ ์œผ๋กœ ๋Š๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ ์†๋„๊ฐ€ ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์ฃ .
  • ํ›ˆ๋ จ ๋ณต์žก์„ฑ: Focal Loss๋Š” ๋งค์šฐ ํšจ๊ณผ์ ์ด์ง€๋งŒ, ํ•™์Šต ๊ณผ์ •์—์„œ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •๊ณผ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์ด ๋ณต์žกํ•  ์ˆ˜ ์žˆ์–ด์š”.

 

2. EfficientDet: ์ •ํ™•๋„์™€ ํšจ์œจ์„ฑ ํ–ฅ์ƒ

 

๋‹ค์Œ์œผ๋กœ ์†Œ๊ฐœํ•  ๋ชจ๋ธ์€ EfficientDet์ž…๋‹ˆ๋‹ค. EfficientDet์€ 2020๋…„์— ๋ฐœํ‘œ๋œ ๋ชจ๋ธ๋กœ, EfficientNet์„ ๋ฐฑ๋ณธ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์ •ํ™•๋„์™€ ํšจ์œจ์„ฑ์„ ๋™์‹œ์— ๋†’์˜€์–ด์š”.

 

 

์ž‘๋™ ๋ฐฉ์‹

  • EfficientNet Backbone
    • EfficientDet์€ EfficientNet์„ ๋ฐฑ๋ณธ ๋„คํŠธ์›Œํฌ๋กœ ์‚ฌ์šฉํ•ด์š”
    • ์ด ๋„คํŠธ์›Œํฌ๋Š” ๋ชจ๋ธ์˜ ๊นŠ์ด์™€ ํญ์„ ์ตœ์ ํ™”ํ•˜์—ฌ, ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์ ์€ ์—ฐ์‚ฐ ์ž์›์„ ์†Œ๋ชจํ•ด์š”.
    • EfficientNet์˜ ๊ธฐ๋ณธ ๋„คํŠธ์›Œํฌ๋Š” MobileNetV2๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, Depthwise Separable Convolutions๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์—ฐ์‚ฐ๋Ÿ‰์„ ์ค„์—ฌ์š”.
  • BiFPN (Bidirectional Feature Pyramid Network)
    • BiFPN์€ ์–‘๋ฐฉํ–ฅ์œผ๋กœ feature๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์Šค์ผ€์ผ์˜ ๊ฐ์ฒด๋ฅผ ๋”์šฑ ์ •ํ™•ํ•˜๊ฒŒ ๊ฐ์ง€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์š”.
    • ์ด ๊ตฌ์กฐ ๋•๋ถ„์— ์—ฌ๋Ÿฌ ํ•ด์ƒ๋„์˜ feature๋ฅผ ์ž˜ ํ†ตํ•ฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • Compound Scaling
    • EfficientDet์€ Compound Scaling ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๋ชจ๋ธ์˜ ํฌ๊ธฐ์™€ ๋ณต์žก์„ฑ์„ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ์–ด์š”.
    • ์ด๋ฅผ ํ†ตํ•ด ์„ฑ๋Šฅ๊ณผ ์—ฐ์‚ฐ ์ž์› ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ๋งž์ถœ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๋‹จ์ 

  • ๋ณต์žกํ•œ ๊ตฌ์กฐ: EfficientDet์˜ ๊ตฌ์กฐ๋Š” ๋‹ค์†Œ ๋ณต์žกํ•˜๊ณ , ๊ตฌํ˜„๊ณผ ํŠœ๋‹์ด ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ์–ป๊ธฐ ์œ„ํ•ด์„œ๋Š” ์‹ ์ค‘ํ•œ ์กฐ์ •์ด ํ•„์š”ํ•ด์š”.
  • ํ•˜๋“œ์›จ์–ด ์š”๊ตฌ์‚ฌํ•ญ: ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ๊ฐ•๋ ฅํ•œ ํ•˜๋“œ์›จ์–ด๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ํ•™์Šต ์‹œ์—๋Š” ๋†’์€ ์‚ฌ์–‘์˜ GPU๊ฐ€ ์š”๊ตฌ๋  ์ˆ˜ ์žˆ์–ด์š”.

 

RetinaNet๊ณผ EfficientDet์€ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ถ„์•ผ์—์„œ ํฐ ํ˜์‹ ์„ ์ผ์œผํ‚จ ๋ชจ๋ธ๋“ค์ž…๋‹ˆ๋‹ค. RetinaNet์€ Focal Loss๋ฅผ ํ†ตํ•ด ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜• ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ , ์ž‘์€ ๊ฐ์ฒด๋‚˜ ๋“œ๋ฌธ ๊ฐ์ฒด์˜ ๊ฒ€์ถœ์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, EfficientDet์€ EfficientNet๊ณผ BiFPN์„ ํ™œ์šฉํ•˜์—ฌ ์ •ํ™•๋„์™€ ํšจ์œจ์„ฑ์„ ๋™์‹œ์— ๋†’์˜€์–ด์š”.

 

๊ฒ€์ถœ ๋ชจ๋ธ๋“ค์˜ ์žฅ์ ๊ณผ ๋‹จ์ ์„ ์ž˜ ์ดํ•ดํ•˜๋ฉด, ํŠน์ • ๋ฐ์ดํ„ฐ์…‹์ด๋‚˜ ์ƒํ™ฉ์— ๋งž๋Š” ์ตœ์ ์˜ ๋ชจ๋ธ์„ ์„ ํƒํ•˜๋Š” ๋ฐ ํฐ ๋„์›€์ด ๋  ๊ฑฐ์˜ˆ์š”. ๋‹ค์Œ ๋ฒˆ์—๋„ ์ƒˆ๋กœ์šด ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ ์†Œ๊ฐœ๋กœ ๋Œ์•„์˜ฌ๊ฒŒ์š” !

๋ฐ˜์‘ํ˜•