๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ“– Theory/Computer Vision

[๊ฐ์ฒด ๊ฒ€์ถœ] RPN์ด ๋ฌด์—‡์ผ๊นŒ? | ๊ฐ์ฒด ๊ฒ€์ถœ์—์„œ ํ›„๋ณด ์˜์—ญ์„ ์ƒ์„ฑํ•˜๋Š” ๋„คํŠธ์›Œํฌ | Region Proposal Network ์„ค๋ช…

by ๋ญ…์ฆค 2023. 11. 25.
๋ฐ˜์‘ํ˜•

RPN(Region Proposal Network)์€ Faster R-CNN(Region-based Convolutional Neural Network) ๋ชจ๋ธ์—์„œ ์ œ์•ˆ๋œ ๋„คํŠธ์›Œํฌ๋กœ, ๊ฐ์ฒด ๊ฒ€์ถœ์—์„œ ํ›„๋ณด ์˜์—ญ(proposal)์„ ์ƒ์„ฑํ•˜๋Š” ์—ญํ• ์„ ํ•œ๋‹ค. Faster R-CNN์€ ๋ฌผ์ฒด์˜ ์œ„์น˜๋ฅผ ์ฐพ๋Š” RPN๊ณผ ๋ฌผ์ฒด๋ฅผ ๋ถ„๋ฅ˜ํ•˜๊ณ  ์ •ํ™•ํ•œ ์œ„์น˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ํ›„์† ๋„คํŠธ์›Œํฌ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

RPN์˜ ์ฃผ์š” ํŠน์ง• ๋ฐ ๊ณผ์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

  • ๋ชฉ์  : RPN์˜ ์ฃผ๋œ ๋ชฉ์ ์€ ์ด๋ฏธ์ง€์—์„œ ๋ฌผ์ฒด๊ฐ€ ์žˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ๋Š” ์œ„์น˜๋ฅผ ์ฐพ์•„๋‚ด์–ด ํ›„์† ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ํ›„๋ณด ์˜์—ญ์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ

 

Anchor Box ์˜ˆ์‹œ

  • Anchor Boxes : RPN์€ ๊ฐ ์œ„์น˜์—์„œ ์—ฌ๋Ÿฌ ํฌ๊ธฐ์™€ ์ข…ํšก๋น„๋ฅผ ๊ฐ€์ง€๋Š” ์ผ๋ จ์˜ anchor boxes๋ฅผ ์ •์˜ํ•˜๊ณ , ์ด anchor boxes๋Š” ๋ฌผ์ฒด์˜ ์œ„์น˜์™€ ํฌ๊ธฐ์— ๋Œ€ํ•œ ๊ฐ€์ •์„ ๋‚˜ํƒ€ ๋ƒ„

์ด๋ฏธ์ง€ ์ „์ฒด์— anchor box๊ฐ€ ๋ฟŒ๋ ค์ง„ ์ƒํƒœ

  • Convolutional ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ
    • ์ด๋ฏธ์ง€๋ฅผ ํ†ตํ•ด ์ปจ๋ณผ๋ฃจ์…˜ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋ฉด์„œ ๊ฐ ์œ„์น˜์—์„œ anchor boxes๋ฅผ ์ ์šฉํ•œ๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด RPN์€ ๊ฐ ์œ„์น˜์—์„œ ๋ฌผ์ฒด๊ฐ€ ์žˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ๋Š”์ง€๋ฅผ ์˜ˆ์ธก ํ•จ

thresholod ์ด์ƒ์˜ ์Šค์ฝ”์–ด๋ฅผ ๊ฐ€์ง€๋Š” anchor box๋งŒ ๋‚จ๊ธด ์ƒํƒœ
bbox regression ์˜ˆ์‹œ

  • Classification & Regression
    • RPN์€ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๋Š”๋ฐ,
    • ์ฒซ ๋ฒˆ์งธ๋Š” ๋ฌผ์ฒด๊ฐ€ ์žˆ์„ ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ ์ˆ˜
    • ๋‘ ๋ฒˆ์งธ๋Š” anchor box๋ฅผ ์กฐ์ •(bbox regression)ํ•˜์—ฌ ์ •ํ™•ํ•œ ์œ„์น˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํšŒ๊ท€ ๊ฐ’
    • ๋•Œ๋ฌธ์— ํ•™์Šต ์‹œ classification loss์™€ regression loss๋ฅผ ํ•ฉ์นœ loss๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ•จ
      • classification loss : ๋ฌผ์ฒด์˜ ์กด์žฌ ์—ฌ๋ถ€ ํ‰๊ฐ€
      • regression loss : anchor box์˜ ์กฐ์ • ๊ฐ’์„ ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธกํ•˜๋„๋ก
  • IoU(Intersection over Union) ๊ธฐ๋ฐ˜์œผ๋กœ ํ›„๋ณด ์˜์—ญ ์„ ํƒ : RPN์ด ์˜ˆ์ธกํ•œ ๋ฌผ์ฒด๊ฐ€ ์žˆ์„ ํ™•๋ฅ ์„ ๊ธฐ์ค€์œผ๋กœ ์ผ์ •ํ•œ ์ž„๊ณ„๊ฐ’์„ ๋„˜๋Š” ํ›„๋ณด ์˜์—ญ์„ ์„ ํƒํ•œ๋‹ค. ์ด ์„ ํƒ๋œ ํ›„๋ณด ์˜์—ญ์€ ๊ฐ์ฒด์˜ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ๋Š” ์œ„์น˜๋ฅผ ๋‚˜ํƒ€๋ƒ„.
  • NMS(Non-Maximum Suppression) : ์„ ํƒ๋œ ํ›„๋ณด ์˜์—ญ์— ๋Œ€ํ•ด NMS๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒน์น˜๋Š” ์˜์—ญ์„ ์ œ๊ฑฐํ•˜๊ณ  ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ ์žˆ๋Š” ์˜์—ญ๋งŒ์„ ๋‚จ๊น€.

RPN์€ Faster R-CNN ์ „์ฒด ์•„ํ‚คํ…์ฒ˜์—์„œ ๋ฌผ์ฒด์˜ ์œ„์น˜๋ฅผ ์˜ˆ์ธกํ•˜๊ณ  ํ›„๋ณด ์˜์—ญ์„ ์ƒ์„ฑํ•˜๋Š” ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ์ƒ์„ฑ๋œ ํ›„๋ณด ์˜์—ญ์€ ํ›„์† ๋„คํŠธ์›Œํฌ์— ์ž…๋ ฅ์œผ๋กœ ์ œ๊ณต๋˜์–ด ๊ฐ์ฒด์˜ ์ •ํ™•ํ•œ ์œ„์น˜ ๋ฐ ํด๋ž˜์Šค๋ฅผ ์˜ˆ์ธกํ•˜๊ฒŒ ๋œ๋‹ค. RPN์˜ ๋„์ž…์œผ๋กœ end-to-end๋กœ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ์˜ ์ •ํ™•์„ฑ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ๋‹ค.

๋ฐ˜์‘ํ˜•