[논문 리뷰] Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation / DeepLab v3+ / semantic segmentation의 기초

Object Detection 에 YOLO 가 있다면 Segmentation 분야에선 DeepLab 이 정말 유명한 것 같습니다. 본 논문은 ECCV 2018 에 발표되어 DeepLabV3+ 를 제안합니다. Segmentation에서의 중요한 요소들을 배울 수 있고, base 실험 시 아직도 많이 사용하기도 하고 저도 연구하며 썼던 네트워크라 정리해두려 합니다.

Abstract

Spatial Pyramid pooling module 또는 encoder-decoder 구조는 semantic segmentation 작업을 위해 deep neural network에 사용됩니다. 전자는 multiple effective FoV 에서 filter 또는 pooling 으로 들어오는 feature의 multi-scale contextual 정보를 인코딩할 수 있고, 후자는 공간정보를 점진적으로 복구하여 더 선명한 객체 경계를 캡처할 수 있게 합니다. 본 논문에서는 두 가지 방법의 장점을 결합하는 것을 제안하고, 제안된 모델인 DeepLabv3+ 는 특히 객체 겨예를 따라 segmentation 결과를 개선하기 위해 간단하고 효과적인 decoder 모듈을 추가하여 DeepLabv3 를 확장합니다. 또한 Xception 모델을 추가로 분석하고 Atrous Spatial Pyramid Pooling과 decoder 모듈에 Depth-wise separable convolution을 적용하여 더 빠르고 강력한 encoder-decoder network를 만듭니다. 제안하는 구조는 PASCAL VOC 2012 및 Cityspaces 데이터셋에서 SoTA 성능을 달성합니다.

DeepLab V1 부터 V3+ 까지 Atrous convolution, Atrous Spatial Pyramid Pooling, Depthwise Separable Convolution 등을 적용했는데 하나 하나씩 정리하겠습니다.

Atrous Convolution

Atrous Convolution은 필터 내부에 convolution 연산에 사용되는 원소 사이 거리를 띄우는 convolution 방법입니다. Kernel size는 3x3 으로 동일하더라도 위 그림처럼 rate 가 1인 경우에는 일반적인 convolution이고 rate가 6이 되면 빨간색 픽셀간의 거리가 6이 되는 것입니다. 즉 rate가 커질수록 convolution filter 내부의 빈공간이 커지고 더 넓은 영역의 correltation을 추출하지만 세밀한 디테일보단 큰 영역의 러프한 correlation을 추출한다고 볼 수 있습니다. 즉, Atrous convolution을 사용하면 trainable parameter 의 수는 유지한채 receptive field를 크게 사용할 수 있는 장점이 생겨 segmentation task에서 스케일이 큰 객체를 더욱 잘 검출할 수 있게 됩니다. 반면에 디테일한 정보는 줄어든다는 단점이 생깁니다.

Atrous Spatial Pyramid Pooling

DeepLabv3+ 구조는 Encoder 끝단에서 Decoder로 정보를 넘겨주기 전에 Atrous Spatial Pyramid Pooling (ASPP)를 수행하는데, Spatial Pyramid Pooling 에서 Atrous 방식이 추가된 구조입니다. Feature map에 서로 다른 rate를 가지는 Atrous convolution을 병렬적으로 사용하고 추출된 feature map 들에 1x1 conv 연산을 수행한 뒤 합치는 방식입니다.

이러한 방식은 이미지에서 서로 다른 스케일을 가진 객체를 더욱 잘 검출해낼 수 있도록 합니다. Object detection 이나 Segmentation 분야에서 웬만하면 기본적으로 사용하는 스타일입니다.

Depthwise Separable Convolution

Depthwise Separable Convolution은 standard convolution을 2 가지 스텝(Depthwise → Pointwise)으로 나누어 수행하는 방식인데, 파라미터 수를 많이 줄일 수 있어서 네트워크 경량화를 위해 많이 사용되는 방법입니다.

예를 들어, standard convolution 에서는 64*32*32(C*H*W)에 channel size를 64→128 로 임베딩해주는 3x3 conv. 를 적용하면 convolution filter size는 3*3*64*128이 됩니다.

하지만, Depthwise Separable Convolution 은 conv 연산을 공간축과 채널축으로 나누어서 진행하기 때문에 3*3*64 + 64*128 이 되기 때문에 standard convolution 대비 파라미터수가 많이 줄어듭니다.

이러한 연산 방법은 네트워크를 많이 경량화 시켜주지만, feature map의 spatial 한 정보와 channel 정보의 correltation을 한번에 추출하지 않기 때문에 임베딩 성능은 standard convolution 보다 떨어지게 됩니다.

제 생각으로는, 어떠한 정보(feature)이던지 충분히 임베딩이 되는 어떤 saturation이 있습니다. 근데, 사실 이 임계점을 찾는 것이 쉽지 않습니다. 충분히 임베딩된 feature는 추가적인 conv 연산을 하더라도 불필요한 과정일 수 있고 오히려 노이즈를 가하는 형태가 될 수 있기 때문에 어느정도 임베딩이 된 feature인 경우에는 Depthwise Separable Convolution 같은 경량화 convolution 구조를 쓰는 것이 효율적이라고 생각합니다. 사실 이런 개념은 네트워크만 봐서 해결되는게 아니고 네트워크 대비 풀려고 하는 task의 복잡도를 봐야하기 때문에 딱 어느 부분에 경량화 네트워크가 필요하다고 보기는 어렵고 성능과 계산량과의 trade-off 를 생각해서 배치하는 것이 중요한 것 같습니다.

DeepLabv3+

DeepLabv3+ 구조는 앞에서 설명한 Atrous Convolution, Atrous Spatial Pyramid Pooling, Depth-wise Separable Convolution을 Encoder-Decoder 구조에 적용한 구조입니다. 또한 다른 segmentation network 와 유사하게 encoder layer 중간 중간의 feature를 decoder 단에 더해주는 방식을 사용합니다. 이는 High encoding된 low resolution의 feature에 high resolution 정보를 추가하여 boundary 예측 성능을 높여주는 역할을 수행합니다. V3에서 decoder 과정에서 bilinear upsampling 후 더해주는 방식을 사용했으나, V3+ 에서는 encoder output feature에 1x1 conv 로 channel 수를 줄이고 concat 하는 방식을 사용합니다(U-Net 방식과 유사).

또한 V3+ 에서는 Encoder에 약간 수정한 Xception module을 사용하는데 이는 feature map에 여러 size의 conv filter 를 병렬적으로 적용하고 다시 합치는 방식인 inception module 에 기초한 방식에 convolution을 point-wise conv. → depth-wise conv.(Depth-wise saparable conv 방식의 반대) 방식을 도입한 module입니다. 여기에 V3+ 는 모든 pooling layer를 Depth-wise saparable convolution으로 대체하고 BN과 ReLU를 일부 추가하여 사용했습니다.

Modified Xception을 encoder로 사용한 경우 2% 가량이나 성능 향상이 있었습니다.

내 생각

전체적으로 객체의 다양한 scale에 robust 하게 성능을 내기 위한 방법과 모델을 경량화하기 위한 방법을 잘 조합하여 좋은 성능을 내는 네트워크 입니다. Segmentation 에 중요한 포인트들을 잘 집어주고 있어서 많은 도움이 되는 논문이었습니다.

'🏛 Research > Detection & Segmentation' 카테고리의 다른 글

[논문 리뷰] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers (0)	2022.08.09
[논문 리뷰] Deep Learning for Large-Scale Traffic-Sign Detection and Recognition / 교통 표지판 검출 (0)	2022.07.08
[논문 리뷰] FaPN: Feature-aligned Pyramid Network for Dense Image Prediction (0)	2022.01.19
[간단 설명] Semi-Supervised Semantic Segmentation / Segmentation에서 unlabeled 데이터를 사용하여 학습하는 방법 (0)	2022.01.13
[논문 리뷰] Feature Pyramid Networks for Object Detection / FPN / 객체의 스케일에 invariant한 네트워크 (0)	2022.01.13

CV DOODLE

[논문 리뷰] Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation / DeepLab v3+ / semantic segmentation의 기초

Abstract

Atrous Convolution

Atrous Spatial Pyramid Pooling

Depthwise Separable Convolution

DeepLabv3+

내 생각

'🏛 Research > Detection & Segmentation' 카테고리의 다른 글

티스토리툴바

[논문 리뷰] Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation / DeepLab v3+ / semantic segmentation의 기초

Abstract

Atrous Convolution

Atrous Spatial Pyramid Pooling

Depthwise Separable Convolution

DeepLabv3+

내 생각

'🏛 Research > Detection & Segmentation' 카테고리의 다른 글

관련글

티스토리툴바