[논문 리뷰] Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis / RGB-D 영상에서의 segementation

본 논문은 2021년 International Conference on Robotics and Automation (ICRA) 라는 학회에 게재되었고, RGB+depth image 로 semantic segmentation task를 수행하는 연구를 소개하기 위해 설명합니다.

Depth 이미지는 관측자(카메라) 와의 거리를 표현하므로 RGB 이미지에서는 객체가 분리되는 지점처럼 보일지라도(조명, 그림자에 따라) depth 이미지에서는 동일한(continuous한) 객체로 보일 수 있기 때문에 RGB 이미지와 depth 이미지를 함께 사용하면 segmentation 성능이 올라갈 것이라 예측할 수 있습니다.

(본 논문에서는 depth 이미지가 rgb 이미지에 complementary geometric information을 제공한다고 표현)

가장 간단하게 생각해볼 수 있는 방법이 rgb-encoder, depth-encoder로 rgb, depth의 feature를 추출하고 decoder로 feature를 넘겨주기 전에 feature를 merging하는 것입니다.

아래 figure를 보면 rgb, depth 이미지를 각각 다른 encoder에 주입하고 depth-encoder에서 추출되는 feature들을 layer 중간중간에서 rgb-encoder 쪽으로 넘겨줘서 RGB-D Fusion 을 수행합니다.

- RGB-D Fusion

RGB와 depth 이미지를 각각 SE-block 을 사용하여 channel-wise attention을 수행하고 element-wise 더해서 줍니다. 이는 RGB와 depth 이미지가 서로 다른 네트워크에서 인코딩되었으니 feature를 합치기전에 channel calibration을 해줘서, RGB와 depth 이미지 정보가 밸런스 있게 합쳐질 수 있도록 하는 것 같습니다.

- Context Module

PSPNet 의 Pyramid Pooling Module과 유사하게 여러 branch 를 사용하여 서로 다른 scale의 feature들을 aggregate합니다.

그리고 계산량 감소를 위해 resnet의 basic block을 spatially factorized version(NBt1D)으로 대체합니다. 이는 mobilenet 처럼 모델을 경량화 시키기 위해 3x3 conv 를 3x1 conv와 1x3 conv로 분해시켜서 사용하는 방법으로 ERFNet에서 처음 제안되었습니다.

- Experimental Results

내 생각

여러 method를 적절히 통합하여 RGB, Depth 이미지를 모두 인코딩하여 semantic segmentation을 수행하도록 설계된 네트워크이지만, 약간의 성능 향상을 위해 encoder가 2개가 생기는 단점이 여전히 존재하는 네트워크입니다.

또한 feature를 fusion 하는 모듈이 단순히 SE block을 사용했는데 이와 같은 방법이 RGB 와 depth 이미지를 밸런스 있게 적절히 합쳐주는지 의문입니다.

(네트워크에 맡겨버리는 느낌이라, ablation study에서 SE block을 사용해서 성능이 향상된 것을 볼 수 있지만, SE block은 attention module 이라 어디에 붙여도 약간의 성능 향상은 있으므로..)

'🏛 Research > Detection & Segmentation' 카테고리의 다른 글

[논문 리뷰] FaPN: Feature-aligned Pyramid Network for Dense Image Prediction (0)	2022.01.19
[간단 설명] Semi-Supervised Semantic Segmentation / Segmentation에서 unlabeled 데이터를 사용하여 학습하는 방법 (0)	2022.01.13
[논문 리뷰] Feature Pyramid Networks for Object Detection / FPN / 객체의 스케일에 invariant한 네트워크 (0)	2022.01.13
[논문 리뷰] Pyramid Scene Parsing Network / PSPNet / Pyramid Pooling (0)	2021.12.05
[논문 리뷰] Unified Perceptual Parsing for Scene Understanding / UperNet / Multi-task learning (0)	2021.12.04

- RGB-D Fusion

- Context Module

- Experimental Results

내 생각

'🏛 Research > Detection & Segmentation' 카테고리의 다른 글

티스토리툴바