๋ณธ ๋ ผ๋ฌธ์ 2021๋ International Conference on Robotics and Automation (ICRA) ๋ผ๋ ํํ์ ๊ฒ์ฌ๋์๊ณ , RGB+depth image ๋ก semantic segmentation task๋ฅผ ์ํํ๋ ์ฐ๊ตฌ๋ฅผ ์๊ฐํ๊ธฐ ์ํด ์ค๋ช ํฉ๋๋ค.
Depth ์ด๋ฏธ์ง๋ ๊ด์ธก์(์นด๋ฉ๋ผ) ์์ ๊ฑฐ๋ฆฌ๋ฅผ ํํํ๋ฏ๋ก RGB ์ด๋ฏธ์ง์์๋ ๊ฐ์ฒด๊ฐ ๋ถ๋ฆฌ๋๋ ์ง์ ์ฒ๋ผ ๋ณด์ผ์ง๋ผ๋(์กฐ๋ช , ๊ทธ๋ฆผ์์ ๋ฐ๋ผ) depth ์ด๋ฏธ์ง์์๋ ๋์ผํ(continuousํ) ๊ฐ์ฒด๋ก ๋ณด์ผ ์ ์๊ธฐ ๋๋ฌธ์ RGB ์ด๋ฏธ์ง์ depth ์ด๋ฏธ์ง๋ฅผ ํจ๊ป ์ฌ์ฉํ๋ฉด segmentation ์ฑ๋ฅ์ด ์ฌ๋ผ๊ฐ ๊ฒ์ด๋ผ ์์ธกํ ์ ์์ต๋๋ค.
(๋ณธ ๋ ผ๋ฌธ์์๋ depth ์ด๋ฏธ์ง๊ฐ rgb ์ด๋ฏธ์ง์ complementary geometric information์ ์ ๊ณตํ๋ค๊ณ ํํ)
๊ฐ์ฅ ๊ฐ๋จํ๊ฒ ์๊ฐํด๋ณผ ์ ์๋ ๋ฐฉ๋ฒ์ด rgb-encoder, depth-encoder๋ก rgb, depth์ feature๋ฅผ ์ถ์ถํ๊ณ decoder๋ก feature๋ฅผ ๋๊ฒจ์ฃผ๊ธฐ ์ ์ feature๋ฅผ mergingํ๋ ๊ฒ์ ๋๋ค.
์๋ figure๋ฅผ ๋ณด๋ฉด rgb, depth ์ด๋ฏธ์ง๋ฅผ ๊ฐ๊ฐ ๋ค๋ฅธ encoder์ ์ฃผ์ ํ๊ณ depth-encoder์์ ์ถ์ถ๋๋ feature๋ค์ layer ์ค๊ฐ์ค๊ฐ์์ rgb-encoder ์ชฝ์ผ๋ก ๋๊ฒจ์ค์ RGB-D Fusion ์ ์ํํฉ๋๋ค.
- RGB-D Fusion
RGB์ depth ์ด๋ฏธ์ง๋ฅผ ๊ฐ๊ฐ SE-block ์ ์ฌ์ฉํ์ฌ channel-wise attention์ ์ํํ๊ณ element-wise ๋ํด์ ์ค๋๋ค. ์ด๋ RGB์ depth ์ด๋ฏธ์ง๊ฐ ์๋ก ๋ค๋ฅธ ๋คํธ์ํฌ์์ ์ธ์ฝ๋ฉ๋์์ผ๋ feature๋ฅผ ํฉ์น๊ธฐ์ ์ channel calibration์ ํด์ค์, RGB์ depth ์ด๋ฏธ์ง ์ ๋ณด๊ฐ ๋ฐธ๋ฐ์ค ์๊ฒ ํฉ์ณ์ง ์ ์๋๋ก ํ๋ ๊ฒ ๊ฐ์ต๋๋ค.
- Context Module
PSPNet ์ Pyramid Pooling Module๊ณผ ์ ์ฌํ๊ฒ ์ฌ๋ฌ branch ๋ฅผ ์ฌ์ฉํ์ฌ ์๋ก ๋ค๋ฅธ scale์ feature๋ค์ aggregateํฉ๋๋ค.
๊ทธ๋ฆฌ๊ณ ๊ณ์ฐ๋ ๊ฐ์๋ฅผ ์ํด resnet์ basic block์ spatially factorized version(NBt1D)์ผ๋ก ๋์ฒดํฉ๋๋ค. ์ด๋ mobilenet ์ฒ๋ผ ๋ชจ๋ธ์ ๊ฒฝ๋ํ ์ํค๊ธฐ ์ํด 3x3 conv ๋ฅผ 3x1 conv์ 1x3 conv๋ก ๋ถํด์์ผ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ผ๋ก ERFNet์์ ์ฒ์ ์ ์๋์์ต๋๋ค.
- Experimental Results
๋ด ์๊ฐ
์ฌ๋ฌ method๋ฅผ ์ ์ ํ ํตํฉํ์ฌ RGB, Depth ์ด๋ฏธ์ง๋ฅผ ๋ชจ๋ ์ธ์ฝ๋ฉํ์ฌ semantic segmentation์ ์ํํ๋๋ก ์ค๊ณ๋ ๋คํธ์ํฌ์ด์ง๋ง, ์ฝ๊ฐ์ ์ฑ๋ฅ ํฅ์์ ์ํด encoder๊ฐ 2๊ฐ๊ฐ ์๊ธฐ๋ ๋จ์ ์ด ์ฌ์ ํ ์กด์ฌํ๋ ๋คํธ์ํฌ์ ๋๋ค.
๋ํ feature๋ฅผ fusion ํ๋ ๋ชจ๋์ด ๋จ์ํ SE block์ ์ฌ์ฉํ๋๋ฐ ์ด์ ๊ฐ์ ๋ฐฉ๋ฒ์ด RGB ์ depth ์ด๋ฏธ์ง๋ฅผ ๋ฐธ๋ฐ์ค ์๊ฒ ์ ์ ํ ํฉ์ณ์ฃผ๋์ง ์๋ฌธ์ ๋๋ค.
(๋คํธ์ํฌ์ ๋งก๊ฒจ๋ฒ๋ฆฌ๋ ๋๋์ด๋ผ, ablation study์์ SE block์ ์ฌ์ฉํด์ ์ฑ๋ฅ์ด ํฅ์๋ ๊ฒ์ ๋ณผ ์ ์์ง๋ง, SE block์ attention module ์ด๋ผ ์ด๋์ ๋ถ์ฌ๋ ์ฝ๊ฐ์ ์ฑ๋ฅ ํฅ์์ ์์ผ๋ฏ๋ก..)