[논문 리뷰] Unified Perceptual Parsing for Scene Understanding / UperNet / Multi-task learning

본 논문은 ECCV 2018에 게재된 논문으로 다양한 visual concepts 인식하는(multi-task learning) Unified Perceptual Parsing 이라는 새로운 task 를 제안합니다.

Introduction

위 그림은 거실(scene)에 테이블, 그림, 벽과 같은 다양한 객체(object)로 이루어져있고 동시에 테이블은 테이블 다리, 상판, apron(part) 등으로 구성되어 있습니다. 또한 테이블은 나무(material)로 만들어졌고 소파 표면은 kinitted(texture) 되어 있습니다. 이러한 카테고리들은 scene understanding, object/material/part/texture recognition task에서 각각 독립적으로 수행되어 왔습니다.

본 논문에서는 이러한 작업들을 동시에 수행하기 위해 UPP(Unified Perceptual Parsing) 이라는 새로운 task와 이를 해결하기 위핸 새로운 학습방법을 제안합니다. 이를 위해 해결해야할 몇가지 문제점들이 있는데...

1) 모든 level의 시각 정보가 label된 dataset 이 없음

scene parsing을 위한 ADE20K, texture recognition을 위한 DTD, material recognition을 위한 OpenSurfaces 등 dataset이 각각 존재합니다.

2) 서로 다른 perceptual level의 annoation이 heterogeneous

예를 들어 ADE20K는 pixel-wise label이 되어있고, DTD 는 image-wise label이 되어있습니다.

본 논문에서는 위의 문제를 해결하기 위해 서로 다른 dataset의 이질성을 극복하고 다양한 level의 visual concept 들을 동시에 학습하는 framework를 제안합니다.

Datasets

다양한 visual concept들을 포함하는 Broadly and Densely Labeled Dataset(Broden) 을 활용합니다. Broden은 ADE20K, Pascal-Context, Pascal-Part, OpenSurface 및 DTD가 통합된 dataset입니다. 이 dataset에는 object, object parts, material 에 대한 정보가 pixel-wise labeling 되어 있고 scene 과 texture는 image-wise labeling 되어 있습니다. 하지만, 이 dataset은 class 별 샘플이 imbalance 하기 때문에 유사한 class 를 병합하는 등의 몇가지 수정을 거쳐서 Broden+ dataset을 구축합니다.

아래는 Broden+ dataset의 예시입니다.

Designing Networks for Unified Perceptual Parsing

위 그림은 본 논문에서 제안하는 UperNet(Unified Perceptual Parsing Network) 이며 Feature Pyramid Network(FPN) 를 기반으로 만들어졌습니다. 또한 효과적인 global prior representation을 추출하는 PSPNet 의 PPM(Pyramid Pooling Module) 을 backbone net 의 마지막 layer에 연결합니다.

그리고 여러 visual task들을 동시에 학습하기 위해 task 별로 conv. layer가 포함된 Head를 연결하여 segmentation을 수행합니다. 많은 parameter 수를 가지는 backbone net을 공유하고 가벼운 Head만 task별로 추가한 구조로, 각 Head를 통과한 output feature의 channel 개수는 해당 task의 class 개수와 동일합니다.

- Scene : image-wise prediction이 필요하기 때문에 backbone net → PPM Head → Scene Head 통과 후 scene 을 예측합니다. Scene Head는 3x3 conv + GAP + classifier 로 이루어져 있습니다.

- Object / Part : Object와 part는 모든 level의 feature map을 결합하여 예측한 경우에 가장 성능이 높다는 것을 실험적으로 발견하여 low~high level feature 들을 fuse 하고 object와 part에 각각 head를 연결하여 예측합니다. object, part, material head는 3x3 conv + classifier 로 이루어져 있습니다. (segmentation을 위해 공간 정보를 소실하면 안되기 때문에 GAP 사용 X)

- Material : low-level feature만 사용합니다. 본 논문에서도 material 인식을 위해 context 정보가 중요하다는 것을 강조하고 있지만, low-level feature만 사용하는 것이 조금 이상(?) 합니다.

(아마, object와 part 등의 shape 정보가 중요한 task와 material은 high-level 에서 학습되어야 할 정보의 성격이 많이 다르기 때문에 material 을 low~high level 정보를 모두 이용해서 학습시키면 네트워크 성능이 떨어지기 때문이 아닐까 생각...)

- Texture : texture의 경우 scene, object 등의 task에서 학습해야하는 feature와 성격이 많이 다르기 때문에 backbone net에서 low-level feature만 추출하여 학습시에는 texture 이미지 한장을 pixel-wise annotation 된 것으로 간주하여 학습시킵니다. (DTD dataset의 샘플들은 Field of View 전체가 해당 클래스로 이루어져있기 때문). 또한 backbone net에는 gradient를 전달하지 않고(학습에 영향을 끼치지 않고) 3x3 conv 4개가 연결된 texture head만 학습하도록 합니다.

https://mvje.tistory.com/33

Experiments

실험은 training data를 여러 task를 하나씩 추가해가며 진행했습니다. 당연한 결과이지만 task 수가 많아질 수록 성능은 조금씩 떨어집니다. 하지만, 아주 미비한 성능저하이기 때문에 scene, object, part, material 등의 visual task들이 하나의 네트워크를 이용해서 효과적으로 수행될 수 있음을 보여줍니다.

하지만 UperNet 은 각 task들의 분류 결과를 상호보완적으로 활용하지는 않습니다. 예를 들어 scene과 object, object와 material, material 과 texture는 real world 에서 깊은 상관관계를 가지기 때문입니다. 이러한 관계를 이용하면 여러 task들을 동시에 학습하면서 발생하는 시너지로 오히려 task 별 성능이 더욱 좋아지게 만들 수도 있지 않을까 생각합니다.

아래는 시각화된 실험 결과입니다.

'🏛 Research > Detection & Segmentation' 카테고리의 다른 글

[논문 리뷰] FaPN: Feature-aligned Pyramid Network for Dense Image Prediction (0)	2022.01.19
[간단 설명] Semi-Supervised Semantic Segmentation / Segmentation에서 unlabeled 데이터를 사용하여 학습하는 방법 (0)	2022.01.13
[논문 리뷰] Feature Pyramid Networks for Object Detection / FPN / 객체의 스케일에 invariant한 네트워크 (0)	2022.01.13
[논문 리뷰] Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis / RGB-D 영상에서의 segementation (0)	2022.01.12
[논문 리뷰] Pyramid Scene Parsing Network / PSPNet / Pyramid Pooling (0)	2021.12.05

Introduction

Datasets

Designing Networks for Unified Perceptual Parsing

Experiments

'🏛 Research > Detection & Segmentation' 카테고리의 다른 글

티스토리툴바