본문 바로가기
🏛 Research/Material & Texture Recognition

[논문 리뷰] Material Recognition from Local Appearance in Global Context

by 뭅즤 2022. 2. 11.
반응형

2016 arXiv에 게재된 논문이지만, material recognition에 context information 을 explict 하게 활용하는 연구이기에 소개합니다.

 

Motivation

좌측 그림에서 컵의 표면만 보면 종이인지 플라스틱인지 금속인지 사람이 봐도 재질 유형을 파악하기 어렵습니다. 하지만, '컵' 이라는 object 정보를 얻으면 컵 + 색상으로 미루어 보아 해당 표면은 '플라스틱'이라는 것을 유추할 수 있습니다. 

 

이렇듯 material은 object, scene과 같은 context information과 깊은 상관관계가 있습니다. 우측 그림의 위쪽 표를 보면 airplane에는 metal이 주로 관측되고 sink에는 ceramic, metal 등이 주로 관측됩니다. 아래 쪽 표를 보면 Botanical Garden 에는 Foilage가, Harbor에는 water가 주로 관측됩니다. 

 

물론 인공적으로 가공된 공간에는 이러한 context 정보가 재질 분류에 방해될 수 있지만, real world의 자연스러운 공간에서는 object와 scene 과 같은 context 정보를 알고 있다면 재질을 분류하는데 도움이 될 것이라 가정할 수 있습니다.

 

기존 네트워크들은 이러한 context information을 implicit 하게 이미 이용하고 있습니다. CNN의 receptive field가 network가 깊어지면서 점점 커지기 때문입니다. 하지만, 본 논문에서는 context information을 explicit 하게 intergrate하여 material semantic segmentation 성능을 향상시킬 수 있음을 보여줍니다.

 

* context information : 문맥 정보라고 해석할 수 있는데, 어떤 객체가 있을 때 객체를 둘러싼 주변의 정보를 칭한다. 

 

 

Proposed Methods

material segmentation network(main-network)에 object, scene 정보를 explicit 하게 제공하기 위해 이미 scene, object로 pre-train 된 network가 필요합니다. input 이미지를 scene, object network에 포워드시켜서 얻어진 feature map을 main-network의 output feature map에 channel축으로 concat 시키는 방식으로 context information을 통합합니다. 이 후 통합된 feature map에 conv layer를 거쳐서 최종 material segmenation을 수행하게 됩니다.

 

context 정보를 통합하는 방법은 명확하고 간단하지만, 재질 분류를 위해 pre-train 된 network가 추가적으로 필요하다는 것이 큰 단점(파라미터 수, 계산량)인 것 같습니다.

 

Experimental Results

실험 결과를 보면 큰 차이로 scene(place), object 와 같은 context 정보를 통합했을 때 결과가 좋습니다.

 

사실 명확한 비교를 하려면 비슷한 파라미터 수를 가지도록 two-stream network 를 training 시킨 네트워크를 base model 로 삼아야 할 것 같습니다. 단순히 파라미터만 증가시켜도 결과가 좋아질 수 있기 때문입니다. 

 

 

 

Proposed method가 비효율적이고 evaluation 방식의 신뢰도가 높지는 않지만, context information(object, scene)을 explicit 하게 활용하면 material recognition 성능을 향상시킬 수 있다는 것을 보여주는 연구 결과입니다.

반응형