본문 바로가기
🏛 Research/Material & Texture Recognition

[논문 리뷰] Deep Encoding Pooling Network (DEP), Texture-Encoded Angular Network (TEAN)

by 뭅즤 2022. 2. 20.
반응형

본 포스팅에서는 Deep Texture Encoding Network(DeepTEN)의 업그레이드 버전인 Deep Encoding Pooling Network(DEP-Net)과, DEP-Net과 Differential Angular Imaging Network(DAIN) 구조를 융합한 Texture-Encoded Angular Network(TEAN) 를 소개합니다.

 

A. Deep Texture Manifold for Ground Terrain Recognition / CVPR 2018

B. Differential Viewpoints for Ground Terrain Material Recognition / TPAMI 2020

 

A. Deep Texture Manifold for Ground Terrain Recognition (DEP-Net)

Introduction

 

Homogeneous texture and real-world texture

위 그림의 첫 번째 행은 homogeneous texture로 이미지 전체가 하나의 공통된 texture를 공유하고 있습니다. 하지만, 아래 행은 조금 더 real world의 이미지들로 분류하고자하는 대상이 주변의 context와 함께 존재합니다. 그리고 이러한 공간적 context information은 material, texture를 분류하는 데 도움을 줍니다. (e.g. 2행 제일 오른쪽 이미지는 둥글고 주변 시멘트로 둘러쌓여있는 것으로 보아 '금속 멘홀 뚜껑'임을 더욱 잘 유추할 수 있습니다.)

 

그런데 저자들의 previous method인 DeepTEN은 dictionary learning 방식으로 texture를 represent하기 때문에 이미지의 spatial한 정보를 무시합니다. 때문에 본 논문에서는, texture의 spatial orderless한 정보와 local spatial 정보를 통합하는 Deep Encoding Pooling Network(DEP-Net) 을 제안합니다.

 

DEP-manifold

ground terrian recognition task에서 많은 class의 경계가 모호합니다. 예를 들어, 위 그림에서 'aspalt' 와 'stone-aspalt', 'leaf'와 'grass' 등은  상당히 유사합니다. 따라서 class label 뿐만 아니라 가장 가까운 class, 즉 manifold 에서 위치를 찾는 것이 중요합니다. 때문에 DEP-Net에서 학습한 discriminant 한 feature를 활용하여 DEP-manifold 라는 새로운 texture manifold를 제안합니다. 이는 class 간의 distance 관계를 제공하고 모호한 class 경계를 implicit하게 나타내는 수단을 제공하는 fully supervised 방식으로 feature space의 parametric distribution을 학습합니다.

 

ground terrian dataset 이 아니더라도, material dataset에서 일부 반짝임이 있는 paper는 plastic과 유사하고, local한 부분만 보는 경우에 색이 있는 metal과 leather 도 상당히 유사합니다. 본 논문에서는 texture manifold 를 설명하면서 제안하는 network가 class를 오분류하더라도 feature space 상에서 유사한 class와의 거리가 가깝다는 것을 보여줍니다.

 

사실 material, texture 이미지들은(특히 인위적으로 만들어낸) 시각적인 특징으로 모든 class를 정확히 분류하는 것은 불가능합니다. 플라스틱이지만 사람이 보기에는 종이 또는 금속처럼 보이는 것도 있고, 가죽이지만 플라스틱처럼 보이는 경우도 많습니다. 이런 경우에는 network가 class를 오분류할 가능성이 매우 높지만, 실제 시각적인 정보만으로 특정 class와 유사하다라는 의미있는 정보를 줄 수 있기 때문에 feature space에서 유사한 class끼리는 모여있는 것이 중요합니다.

 

 

Proposed Methods

제안하는 DEP-Net은 backbone network 의 output feature map을 2개의 branch로 넣어줍니다. 첫번 째 barnch는  orderless한 texture 정보를 encoding하는 Texture Encoding(DeepTEN), 두번 째 branch는 local spatial 정보를 encoding하는 Avg pooling 구조입니다. 이 후, 출력된 2개의 feature 를 bilinear model로 합쳐서 class를 분류합니다.

 

DEP-Net은 network 중간에서 이러한 two-way 구조를 사용하여 texture/material의 orderless한 정보와 local spatial 정보를 모두 encoding합니다.

  

 

Experimental Results

GTOS-mobile, DTD, MINC-2500 dataset에 대한 실험결과입니다.

 

 

B. Differential Viewpoints for Ground Terrain Material Recognition (TEAN)

 

DAIN vs. TEAN

본 논문에서는 multiple viewpoint를 가지는 GTOS dataset 을 이용하여 DEP-Net에 reflectance branch 를 추가한 Texture-Encoded Angular Network (TEAN) 을 제안합니다.

 

 

Multi-view DAIN

 

previous work에서 Differential Angular Imaging Network (DAIN) 을 제안했고, 이 network는 color image feature와 differential angular image feature를 network 중간에서 merging하여 multiple image에서 material의 color 정보와 reflectance 정보를 모두 인코딩하여 class를 분류합니다. 

 

 

TEAN은 txture branch로 DEP-Net을 사용하여 texture의 orderless한 정보와 local spatial 정보를 encoding하고, differential angular image를 input으로 받는 reflectance branch는 viewpoint에 따른 angular gradient를 encoding 합니다. 즉, TEAN은 texture orderelss info. + local spatial info. + partial reflectance info. 를 모두 encoding 하기 때문에 분류 성능을 향상시킵니다.

 

또한 DEP, DAIN, TEAN 들은 single-view, multi-view에서 모두 사용가능합니다. 다만, multi-view의 경우에는 해당 network를 weight sharing backbone net으로 사용하고 최종 output(view 개수만큼의 feature map) 들을 voting 또는 pooling 하여 최종 분류를 진행합니다. 

 

 

 

Experimental Results

본 논문에서는, GTOS dataset에 대한 vanilla CNN, DEP, DAIN, TEAN 의 single-view, multi-view 실험 결과를 제공합니다. 

 

반응형