๋ณธ ํฌ์คํ ์์๋ Traffic sign detection (๊ตํต ํ์งํ ๊ฐ์ง) ์ ๋ํ ๋ ผ๋ฌธ 2๊ฐ๋ฅผ ์๊ฐํฉ๋๋ค.
- Traffic-Sign Detection and Classification in the Wild / CVPR 2016
- Deep Learning for Large-Scale Traffic-Sign Detection and Recognition / IEEE T-ITS 2019
Traffic sign detection ์ object detection์ ํ์ task๋ก ๋ณผ ์ ์๊ณ , ์์จ ์ฃผํ ๋ฐ ๋๋ก ์ ๋ณด๋ฅผ ์์ฑํ๋๋ฐ ํ์์ ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ๊ต์ฅํ ์์ ๊ฐ์ฒด๋ฅผ ๊ฐ์งํ๋ ๋ฐฉ๋ฒ๋ค์ด ๊ถ๊ธํ์๋๋ฐ, traffic sign detection ๋ ผ๋ฌธ๋ค์ด ๋์์ด ๋๋ ๊ฒ ๊ฐ์ต๋๋ค.
"Traffic-Sign Detection and Classification in the Wild"
๋ณธ ๋ ผ๋ฌธ์์๋ traffic sign detection benchmark ๋ฅผ ์ํ ์๋ก์ด dataset์ ๊ตฌ์ถํ๊ณ , ๋๋ก ํ์งํ์ ๊ฐ์ง ๋ฐ ๋ถ๋ฅํ๋ end-to-end ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ ์ํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ธ๊ธํ๋ traffic sign detection์ ์ด๋ ค์ด ์ ์ ํฌ๊ฒ 2๊ฐ์ง๋ก, 1) ๋๋ก ํ์งํ์ด ๋งค์ฐ ์์ ๊ฒฝ์ฐ ๊ธฐ์กด detection ๋ชจ๋ธ๋ก ์ธ์์ด ์ ์๋๊ณ , 2) class์ ํ์งํ ์ฌ์ด์ฆ์ imbalance ๊ฐ ์ฌํ๋ค๋ ์ ์ ๋๋ค.
๊ทธ ์ธ์๋ ๋, ๋น, ํ๋น์ ๋ฐ์ฌ ๋ฑ ๊ธฐ์์ ์ํฅ๊ณผ OCR task ์์๋ ๋ฌธ์ ๊ฐ ๋๋ perspective distortion ๊ฐ์ ๋ฌธ์ ๋ ์๋ฐํฉ๋๋ค.
์๋ฅผ ๋ค์ด ๋ฉ๋ฆฌ์ ๋ถํฐ ๋ณด์ด๋ ํ์งํ์ ์์ฃผ ์๊ฒ ๋ณด์ด๊ณ , ๋์ฌ์ด ์๋ ์ฐ์ด๋ ๋ฐ๋ค ๊ทผ์ฒ์์๋ง ๋ณผ ์ ์๋ ํ์งํ์ ๊ฐ์๊ฐ ๋งค์ฐ ์๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ์ ๋ถ๊ท ํ์ด ๋ฐ์ํ๋ค๋ ๊ฒ์ ๋๋ค.
์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋คํธ์ํฌ๋ conv6 ์ดํ๋ก 3๊ฐ์ branch(bbox, pixel, label)์ ๊ฐ์ง๋ ํ๋ฒํด ๋ณด์ด๋ fully convolutional network ์ ๋๋ค. ์ ์๋ ์ ์ํ๋ ๋คํธ์ํฌ๊ฐ ์์ ๊ฐ์ฒด(ํ์งํ)์ ์ ๊ฐ์ง ๋ฐ ๋ถ๋ฅํ๋ค๊ณ ์ฃผ์ฅํ๋๋ฐ ์คํ์ ์ผ๋ก ์ฆ๋ช ํ๊ธด ํ์ง๋ง ์ ํํ ๊ทผ๊ฑฐ๋ฅผ ์ ์ํ์ง๋ ์๋ ๊ฒ ๊ฐ์ต๋๋ค.
์์ Fast R-CNN ๊ณผ์ ์คํ ๊ฒฐ๊ณผ ๋น๊ต๋ฅผ ๋ณด๋ฉด ๊ฐ์ฒด ์ฌ์ด์ฆ๊ฐ ์์ ๊ฒฝ์ฐ์๋ Fast R-CNN์ ๊ฒฝ์ฐ ์ฑ๋ฅ์ด ๋งค์ฐ ์ ์ข์ง๋ง, ์ ์ํ๋ ๋คํธ์ํฌ๋ ๋น๊ต์ ๊ฐ์ฒด ์ฌ์ด์ฆ์ ๋ฌด๊ดํ๊ฒ ์ฑ๋ฅ์ด ์ ๋์ค๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
"Deep Learning for Large-Scale Traffic-Sign Detection and Recognition"
๋ณธ ๋ ผ๋ฌธ์์๋ traffic sign detection ๋ฐ recognition์ ์ํด mask R-CNN ๊ตฌ์กฐ๋ฅผ ํ์ฉํ๊ณ traffic sign detection ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํ ๋ช ๊ฐ์ง ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
์์ ์ค๋ช ํ๋ฏ์ด ๋ณธ ๋ ผ๋ฌธ์์๋ ์กฐ๋ช ์กฐ๊ฑด, ์ค์ผ์ผ, ์นด๋ฉ๋ผ ๊ฐ๋, blur, occlusion ๋ฑ์ ํ๊ฒฝ์ ์ธ ์ํฅ์๋ ์ ๋์ํ๊ฒ ํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์์ traffic sign์ ๋ํ recall์ ๋ํ๋ adaptation๊ณผ traffic sign ์ ์ ํฉํ augmentation์ ์ ์ํฉ๋๋ค.
*์ฉ์ด
TSD : Traffic Sign Detection
TSR : Traffic Sign Recognition
Mask R-CNN
Mask R-CNN์ Faster R-CNN์ ํ์ฅ ๋ฒ์ ์ผ๋ก ๋ณผ ์ ์๊ณ , ๋ ๊ฐ์ ๋ชจ๋๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ฒซ ๋ฒ์งธ ๋ชจ๋์ RPN(Region Proposal Network)๋ก ์ ๋ ฅ ์ด๋ฏธ์ง์ bounding box๋ฅผ ์์ฑํ๋ CNN ๊ตฌ์กฐ์ ๋๋ค. ๋ ๋ฒ์งธ ๋ชจ๋์ proposed region์ ๋ถ๋ฅํ๋ region-based CNN ๊ตฌ์กฐ(Fast R-CNN)์ ๋๋ค. ์ ์ฒด ์ํคํ ์ฒ๋ RPN๊ณผ Fast R-CNN ๋ชจ๋์ด convolutional feature๋ฅผ ๊ณต์ ํ๋ ๋จ์ผ ๋คํธ์ํฌ ๊ตฌ์กฐ์ ๋๋ค. ๋ํ, attention ๋ชจ๋๊ณผ FPN(Feature Pyramid Network) ์ด ์ ์ฉ๋์ด ์๊ณ , backbone network๋ ResNet์ ๋๋ค. (Faster R-CNN์ backbone์ VGG์ ๋๋ค.)
Adaptation to Traffic-Sign Detection
์ผ๋ฐ์ ์ธ ๊ฐ์ฒด์ ๊ฐ์ง ๋ฐ ์ธ์์ ์ํด ๊ฐ๋ฐ๋ Mask R-CNN์ TSD์ ์ ์ฉํ๊ธฐ ์ํด ๋ช๊ฐ์ง ์์ญ๋ณ ๊ฐ์ ์ ์ ์ ์ํฉ๋๋ค.
1) Online Hard-Example Mining
Online Hard-Example Mining (OHEM) ์ classification learning module(Fast R-CNN module)์ ํตํฉํฉ๋๋ค. ์ด๋ ROI๋ฅผ ๋ฌด์์๋ก ์ ํํ๋ ๋ฐฉ๋ฒ์ classification loss ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ์ ํํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋์ฒดํ๋ ๊ฒ์ ๋๋ค. Region๋ค์ loss value๋ฅผ ๊ธฐ์ค์ผ๋ก ์ ๋ ฌํ๊ณ loss ๊ฐ ์ถฉ๋ถํ ๋์ region๋ง classification module ๋ก ์ ๋ฌํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋คํธ์ํฌ๊ฐ ๊ฐ์ฅ ๋ง์ด ์ค์ํ ์ํ, ์ฆ ์ด๋ ค์ด ์์ ์ ๋ํ ํ์ต์ ๋ณด์ฅํฉ๋๋ค.
2) Distribution of Selected Training Samples
Mask R-CNN์ ROI๋ฅผ ๋ฌด์์๋ก ์ ํํ๊ณ ์ ๊ฒฝ๊ณผ ๋ฐฐ๊ฒฝ์ ๋ฐ๋ก ์ํ๋ฉ๋๋ค. ํ์ง๋ง, ์ด๋ฏธ์ง์ ๋ง์ ํฌ๊ณ ์์ ๊ฐ์ฒด๋ค์ด ๋์์ ์กด์ฌํ ๋ ๋ฌด์์ ์ ํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ํ์ต ํ๋ก์ธ์ค๊ฐ ๋ถ๊ท ํํด์ง๋๋ค. ์ฌ์ด์ฆ๊ฐ ํฐ ๊ฐ์ฒด์๋ ๋ง์ ROI๊ฐ ์๊ธฐ๊ณ , ์์ ๊ฐ์ฒด์๋ ์ ์ ROI๊ฐ ์๊ธฐ๊ธฐ ๋๋ฌธ์ ์ด ๋ถํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ํ์ ์ ํํ๋ฉด ํ์ต ํ๋ก์ธ์ค๊ฐ ์๊ณก๋ฉ๋๋ค. ์ฌ์ด์ฆ๊ฐ ํฐ ๊ฐ์ฒด๊ฐ ๋ ๋ง์ด ๊ด์ธก๋๊ณ ์ ํธ๋๊ธฐ(๋คํธ์ํฌ ์ฐจ์์์) ๋๋ฌธ์ ๋๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํด training sample ์ distribution์ ๋ณ๊ฒฝํ์ฌ ํ์ต ๊ฐ์ฒด์ ๋ชจ๋ ์ฌ์ด์ฆ๋ฅผ ๊ท ์ผํ๊ฒ ํฌํจํ๋๋ก ๋ณ๊ฒฝํฉ๋๋ค. ์ฆ, ์ด๋ฏธ์ง์ ์๋ ๊ฐ ๊ฐ์ฒด์ ๋ํด ๋์ผํ ์์ ROI๋ฅผ ์ ํํ๋๋ก ํฉ๋๋ค.
3) Sample Weighting
Mask R-CNN์ ํน์ ๊ฒฝ์ฐ์ ๋๋ฝ๋ region proposal ๋ก ์ธํด 100% recall์ ๋ฌ์ฑํ ์ ์๋๋ฐ, training region์ weight๋ฅผ ๋ค๋ฅด๊ฒํ์ฌ ์ด๋ฅผ ํด๊ฒฐํ๋ ค ํฉ๋๋ค. ํ์ตํ๋ ๋์ ์ ๊ฒฝ๊ณผ ๋ฐฐ๊ฒฝ ์์ญ์ด ๋ชจ๋ ์ ํ๋ฉ๋๋ค. ํ์ง๋ง ์ด๋ฏธ์ง์ ๋๋ถ๋ถ์ ๊ตํต ํ์งํ์ ์๊ณ ํด๋น ํ์งํ์ ๋ํด ๋ช ๊ฐ์ region proposal ๋ง ์กด์ฌํ๊ธฐ ๋๋ฌธ์ ๋ฐฐ๊ฒฝ ๋ถ๋ถ์ด ๋ง์ด ์ ํ๋ฉ๋๋ค. ๋๋ฌธ์ ๊ธฐ์กด ํ์ต ๊ณผ์ ์์๋ ๋ฐฐ๊ฒฝ ๊ฐ์ฒด๋ฅผ ๋ ์์ฃผ ๊ด์ฐฐํ๊ณ ๋ฐฐ๊ฒฝ ํ์ต์ ์ง์คํ๊ฒ ๋ฉ๋๋ค. ์ด๋ ๋ฐฐ๊ฒฝ ์์ญ์ ๋ ์์ weight๋ฅผ ์ค์ ์ ๊ฒฝ ๊ฐ์ฒด๋ฅผ ๋จผ์ ํ์ตํ๋๋ก ํ์ฌ ๊ฐ์ ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ๋ฐฐ๊ฒฝ ์์ญ์ RPN์๋ 0.1, classification network์๋ 0.01์ weight๋ฅผ ๋ถ์ฌํ๋ ๋ฐฉ์์ผ๋ก ๊ตฌํ๋ฉ๋๋ค.
4) Adjusting Region Pass-Through During Detection
๋ง์ง๋ง์ผ๋ก, detection stage์ RPN์์ classification network๋ก ์ ๋ฌ๋๋ ROI์ ์๋ฅผ ๋ณ๊ฒฝํฉ๋๋ค. ๊ตํต ํ์ง ๋๋ฉ์ธ์์๋ ์ผ๋ฐ์ ์ผ๋ก ๋ง์ ์์ ์์ ๊ฐ์ฒด๊ฐ ์กด์ฌํ๊ธฐ ๋๋ฌธ์ ํต๊ณผ๋๋ region์ ์๋ฅผ ์กฐ์ ํด์ผ ํฉ๋๋ค.
NMS ์ด์ ์ ํ๋์ FPN level ๋น region ์๋ฅผ 1000๊ฐ์์ 10000๊ฐ๋ก ๋๋ฆฌ๊ณ , ๋ชจ๋ FPN level์ ROI๋ฅผ ๋ณํฉํ๊ณ NMS 2000๊ฐ์ region์ ์ํํ๋ ๊ฒ์ ์ ์ง๋ฉ๋๋ค.
Augmentation
Traffic sign ๋๋ฉ์ธ์ ํน์ฑ์ผ๋ก ์ธํด ๊ธฐ์กด traffic sign ์ธ์คํด์ค์ ์ธ์์ ์ธ distortion์ ๊ฐํด ๋ง์ ์์ ์ํ์ ์์ฑํฉ๋๋ค. ์ ์๋ ๋ฐ์ดํฐ์ ์ ๊ตํต ํ์งํ์ pixel-wise ๋ก annotate ๋์ด ์์ผ๋ฏ๋ก ํ์ต ์ด๋ฏธ์ง์์ ๊ตํต ํ์งํ๋ง ๋ถ๋ฆฌํ ์ ์์ต๋๋ค. ๋ถ๋ฆฌ๋ ๊ตํต ํ์งํ์ 1) geometric/shape distortion (perspective change, changes in scale) ๋ฐ 2) appearance distortion (variations in brightness and contrast) ๋ ๊ฐ์ง์ augmentation์ด ์ํ๋ฉ๋๋ค.
Geometric, appearance distortion์ ์ ์ฉํ๊ธฐ ์ ์ ๋จผ์ ๊ฐ ๊ตํต ํ์งํ ์ธ์คํด์ค๋ฅผ normalize ํฉ๋๋ค. ์ด๋ ์ฌ๋ฌ ๊ฐ๋์์ ๋ฐ๋ผ๋ณธ ๊ตํต ํ์งํ์ projective transformation์ ํตํด ์ ๋ฉด์์ ๋ฐ๋ผ๋ณธ ํ์งํ์ผ๋ก ๋ณ๊ฒฝํ๋ geometric normalize์ intensity channel ์ contrast๋ฅผ ์กฐ์ ํ๋ appearance normalize๋ฅผ ํฌํจํฉ๋๋ค. ์ฆ, ๊ฐ ํ์งํ์ ์ ๋ฉด์์ ๋ฐ๋ผ๋ณธ contrast๊ฐ ์ ๊ทํ๋ ์ธ์คํ์ค๋ก ๋ณ๊ฒฝํ๋ ๊ฒ์ ๋๋ค.
* Original Image → Geometric/Apprearance Normalize → Synthetically generated distortions
์ดํ ๊ฐ๋ฅํ ์ฌ์ค์ ์ธ synthetic ํ์ต ์ํ์ ์์ฑํ๊ธฐ ์ํด ํ์ต ๋ฐ์ดํฐ์ ์ geometry, appearance์ ๋ถํฌ๋ฅผ ๋ฐ๋์ต๋๋ค. Geometry change ์ ๊ฒฝ์ฐ Euler rotation angle ๋ถํฌ๋ฅผ ์ถ์ ํ๊ณ appearance change์ ๊ฒฝ์ฐ ํ๊ท intensity ๋ถํฌ๋ฅผ ์ถ์ ํ์ต๋๋ค. ๋ํ, geometry normalized ๋ ์ธ์คํด์ค์ ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ scale ๋ถํฌ๋ฅผ ์ถ์ ํ์ต๋๋ค.
Synthetic distortion์ ์์ฑํ ๋ ํด๋น ๋ถํฌ์์ ๋ฌด์์ ๊ฐ์ ์ํ๋งํฉ๋๋ค. ํ์ง๋ง ๊ด์ธก๋ ๋ถํฌ์ ๋ถ์ฐ๋ณด๋ค ๋ ๋ฐฐ ํฐ ๋ถ์ฐ์ ์ฌ์ฉํ์ฌ ๋ ํฐ distortion์ ์์ฑํ๋๋ก ํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ค์ ์ค์ ์ emulate ํ๊ธฐ ์ํด ์๋ก ์์ฑํ ๊ตํต ํ์งํ ์ธ์คํด์ค๋ฅผ ๊ฑฐ๋ฆฌ ํ๊ฒฝ๊ณผ ๊ฐ์ ๋ฐฐ๊ฒฝ ์ด๋ฏธ์ง์ ํ์ ๋๋ก๋ง ๋ณด์ด๋ ํ๋จ ์ค์๋ถ๋ฅผ ํผํด ๋ฌด์์ ์์น์ ๋ฐฐ์นํฉ๋๋ค.
์ด๋ฌํ augmentation์ ์ ์ฉํ๋ ์ด์ ๋ ๊ตํต ํ์งํ์ ํ ํด๋์ค์ ๋ชจ์์ ๊ฑฐ์ ๋์ผํ์ง๋ง, ๊ด์ธก๋๋ ์์น์ ๋ฐ๋ผ perspective transformation๊ณผ ์กฐ๋ช ๋ฑ์ ํ๊ฒฝ์ ๋ฐ๋ผ geometric, appearance์ ์ฐจ์ด๊ฐ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
*์ ๋ฆฌ
๊ฒฐ๋ก ์ ์ผ๋ก Traffic sign detection ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด 1) OHEM์ ์ฌ์ฉํ์ฌ ์ด๋ ค์ด ์์ ๋ฅผ ์ง์ค์ ์ผ๋ก ํ์ตํ๊ณ , 2) ์์ ์ฌ์ด์ฆ์ ROI๋ ํฐ ์ฌ์ด์ฆ์ ROI์ ๋์ผํ ์์ค์ผ๋ก ์ ํํ๊ฒ ํ๊ณ , 3) ๋ฐฐ๊ฒฝ ๋ณด๋ค ์ ๊ฒฝ์ ์ง์คํ๋๋ก ํ๊ณ , 4) RPN์์ ์ถ์ถํ๋ ROI ์๋ฅผ ๋๋ฆฌ๊ณ , 5) Geomteric/Appearance distortion์ ์ฃผ๋ augmentation์ ์ฌ์ฉํ๋๋ก ํ์ต๋๋ค.
Experiments
์คํ์ Swedish traffic-sign dataset (STSD) ์ ์๋ก ์ ์ํ DFG traffic-sign dataset์ผ๋ก ์งํ๋ฉ๋๋ค. ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ Caffe2 ๊ธฐ๋ฐ์ Detectron์ผ๋ก Faster R-CNN ๊ณผ Mask R-CNN์ ๊ตฌํํ์ฌ ์ฌ์ฉํฉ๋๋ค. Backbone์ ResNet50์ ๋๋ค. GPU ๋น batch 2๋ฅผ (์ด๋ฏธ์ง 2๊ฐ)๋ฅผ ์ฌ์ฉํ๋ฉฐ STSD์์๋ GPU 2๊ฐ, DFG์์๋ GPU 4๊ฐ๋ก ์คํํฉ๋๋ค. (STSD : batch ๋น 4๊ฐ ์ด๋ฏธ์ง, DFG : batch ๋น 8๊ฐ ์ด๋ฏธ์ง)
๋ณธ ์คํ์์๋ 1) PASCAL ์ ๊ธฐ๋ฐํ mAP50์ 2) COCO ์ ๊ธฐ๋ฐํ mAP50:95 ์ metric ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. mAP50์ ๊ณ ์ ๋ IoU overlap์ ์ฌ์ฉํ๋ ๊ฒ์ด๊ณ , mAP50:95๋ overlap ๋ฒ์ [0.50, 0.95]์ ๋ํด 0.05 ์ฆ๋ถ์ผ๋ก ํ๊ท ์ ๋ธ ๊ฐ์ ๋๋ค. ๋ฐ๋ผ์ COCO ๊ธฐ๋ฐ์ mAP50:95๋ region overlap์ ํ์ง์ ๋ ์ค์ ์ ๋๋ metric ์ ๋๋ค.
False-positive rate(1 - Precision)๋ ์ผ๋ง๋ ๋ง์ ํ์ง๊ฐ ๊ฑฐ์ง์ธ๊ฐ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ , miss rate(1 - Recall)๋ ์ผ๋ง๋ ๋ง์ ๊ตํต ํ์งํ์ด ํ์ง ๋์ง ์์๋์ง๋ฅผ ๋ํ๋ด๋ ๋น์จ์ ๋๋ค.
* Precision์ ํ์งํ ๊ฐ์ฒด ์ค ์ ๋ต์ ๋ง์ถ ๊ฐ์ฒด์ ๋ํ ์งํ์ด๊ณ , Recall์ ํ์งํด์ผํ๋ ๋ชจ๋ ๊ฐ์ฒด ์ค ์ ๋ต์ ๋ง์ถ ๊ฐ์ฒด์ ๋ํ ์งํ. ๋๋ฌธ์ ์ผ๋ฐ์ ์ผ๋ก precision ๊ณผ recall์ ๋ฐ๋น๋ก ๊ด๊ณ.