๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ› Research/Detection & Segmentation

[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] Pyramid Scene Parsing Network / PSPNet / Pyramid Pooling

by ๋ญ…์ฆค 2021. 12. 5.
๋ฐ˜์‘ํ˜•

๋ณธ ๋…ผ๋ฌธ์€ CVPR2017์— ๊ฒŒ์žฌ๋˜์—ˆ์œผ๋ฉฐ PSPNet(ImageNet scene parsing challenge 2016์—์„œ 1๋“ฑ)์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ํ˜„์žฌ๋Š” ๋” ์„ฑ๋Šฅ์ด ์ข‹์€ ์—ฐ๊ตฌ๊ฐ€ ๋งŽ์ด ์†Œ๊ฐœ๋˜์—ˆ์ง€๋งŒ semantic segmentation์— global contextual information์„ ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•œ Pyramid Pooling Module ์„ ์ •๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ๋ฆฌ๋ทฐ๋ฅผ ์ž‘์„ฑํ•ฉ๋‹ˆ๋‹ค.


Motivation

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๊ธฐ์กด์˜ segmentation ์•Œ๊ณ ๋ฆฌ์ฆ˜์— 3๊ฐ€์ง€ ๋ฌธ์ œ์ ์ด ์žˆ๋‹ค๊ณ  ์ง€์ ํ•ฉ๋‹ˆ๋‹ค. (์œ„ ๊ทธ๋ฆผ์—์„œ๋Š” FCN ๊ณผ ๋น„๊ต)

 

1) Mismatched Relationship : ์ฃผ๋ณ€ ํ™˜๊ฒฝ(contextual information)๊ณผ ๋งž์ง€ ์•Š๋Š” ํ”ฝ์…€ ๋ถ„๋ฅ˜. ์˜ˆ๋ฅผ ๋“ค์–ด ํ˜ธ์ˆ˜ ๊ทผ์ฒ˜์˜ ์ž๋™์ฐจ, ๋„๋กœ ์œ„์˜ ๋ณดํŠธ ๊ฐ™์€ ๊ฒฝ์šฐ.

 

2) Confusion Categories : ํ—ท๊ฐˆ๋ฆด ์ˆ˜ ์žˆ๋Š” ํ”ฝ์…€ ๋ถ„๋ฅ˜. builing ์œผ๋กœ ๋ถ„๋ฅ˜๋œ ํ”ฝ์…€ ๋‚ด๋ถ€์— skyscraper ๋กœ ์˜ค๋ถ„๋ฅ˜ ๋œ ๊ฒฝ์šฐ. ํ•˜์ง€๋งŒ ์šฐ๋ฆฌ๋Š” ๋นŒ๋”ฉ์†์— ๊ณ ์ธต๋นŒ๋”ฉ์ด ์žˆ์„ ์ˆ˜ ์—†๋‹ค๋Š” ์‚ฌ์‹ค์„ ์•Œ๊ณ  ์žˆ์Œ.

 

3) Inconspicuous Classes : ๋ˆˆ์— ์ž˜ ๋„์ง€ ์•Š๋Š” ๋ฌผ์ฒด์˜ ํ”ฝ์…€ ๋ถ„๋ฅ˜. ์˜ˆ์‹œ์—์„œ๋Š” texture๊ฐ€ ๋น„์Šทํ•œ ์ด๋ถˆ๊ณผ ๋ฒ ๊ฐœ์—์„œ ๋ฒ ๊ฐœ๋ฅผ ๋ถ„๋ฅ˜ํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ.  ํ•˜์ง€๋งŒ ์šฐ๋ฆฌ๋Š” ์นจ๋Œ€์˜ ๋์ชฝ ๋˜๋Š” ๋ฒฝ ๊ฐ€๊นŒ์ด์— ๋ณดํ†ต ๋ฒ ๊ฐœ๊ฐ€ ์œ„์น˜ํ•œ๋‹ค๋Š” ์‚ฌ์‹ค์„ ์•Œ๊ณ  ์žˆ์Œ.

 

๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” PSPNet์˜ ์œ„์˜ 3๊ฐ€์ง€ ๋ฌธ์ œ์ ์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด global contextual information์„ ํ™œ์šฉํ•˜๋ ค ํ•ฉ๋‹ˆ๋‹ค. local ์ •๋ณด๋ฟ๋งŒ์ด ์•„๋‹ˆ๋ผ global context ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๋ฉด ํ”ฝ์…€์„ ๋ถ„๋ฅ˜ํ• ๋•Œ ์ „์ฒด์ ์ธ scene์˜ ์ƒํ™ฉ์„ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ๊ณ  real world์—์„œ ์ธ๊ฐ„์ด ํ†ต์ƒ์ ์œผ๋กœ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๊ฐœ๋…(ํŠน์ • object๊ฐ€ ์กด์žฌํ•˜๋Š” ์žฅ์†Œ ๋˜๋Š” ์œ„์น˜)๋ฅผ ์ด์šฉํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

 

๋ฌผ๋ก  ์ด๋Ÿฌํ•œ global contextual information์ด segmentation์— ๋ฐฉํ•ด๋˜๋Š” ์š”์†Œ๋กœ ์ž‘์šฉํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ž์—ฐ์Šค๋Ÿฝ์ง€๋Š” ์•Š์ง€๋งŒ, ํ˜ธ์ˆ˜ ๊ทผ์ฒ˜์— ์ž๋™์ฐจ๊ฐ€ ์žˆ์„ ์ˆ˜๋„ ์žˆ๊ณ  ์นจ๋Œ€ ์ค‘๊ฐ„์— ๋ฒ ๊ฐœ๊ฐ€ ์œ„์น˜ํ•˜๊ฑฐ๋‚˜ ๋†๊ตฌ ์ฝ”ํŠธ ์œ„์—์„œ ๋ฐฅ์„ ๋จน๋Š” ์‚ฌ๋žŒ ๋“ฑ์˜ ํ™˜๊ฒฝ์—์„œ๋Š” global context ๊ฐ€ ์˜คํžˆ๋ ค ๋ฐฉํ•ด๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ์ˆœ๊ฐ„์ด ์–ผ๋งˆ๋‚˜ ์žˆ๊ฒ ์–ด? ๋ผ๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ์ž์œจ์ฃผํ–‰ ๋“ฑ์˜ ์ธ๊ฐ„์˜ ์ƒ๋ช…๊ณผ ์ง๊ฒฐ๋˜๋Š” task์—์„œ๋Š” outlier ๊ฐ™์€ ์œ„์™€ ๊ฐ™์€ ์ƒํ™ฉ์—์„œ ์œ„ํ—˜ํ•œ ์ˆœ๊ฐ„์ด ๋ฐœ์ƒํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

 

Methods

๊ทธ๋ž˜์„œ ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ global contextual information์„ ์–ด๋–ป๊ฒŒ ํ™œ์šฉํ•˜๋ƒ๋ฉด, ์œ„ ๊ทธ๋ฆผ์˜ Pyramid Pooling Module์—์„œ ๋ณด๋Š” ๊ฒƒ์ฒ˜๋Ÿผ backbone network์—์„œ ์ถ”์ถœ๋œ output feature๋ฅผ ์—ฌ๋Ÿฌ๊ฐœ์˜ ์‚ฌ์ด์ฆˆ๋กœ pooling์„ ํ•˜๊ณ (spatial domain์—์„œ) ๋‹ค์‹œ ์ด๋“ค์„ upsamplingํ•˜์—ฌ ๊ธฐ์กด์˜ feature์— concatํ•ด์„œ ์ตœ์ข… prediction์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

 

๊ธฐ์กด feature map์˜ ์ฑ„๋„ ์‚ฌ์ด์ฆˆ๊ฐ€ N ์ผ๋•Œ pooling๋œ feature ์‚ฌ์ด์ฆˆ๋Š” ๊ฐ๊ฐ€ 1x1xN, 2x2xN, 3x3xN, 6x6xN ์ž…๋‹ˆ๋‹ค. 1x1xN์œผ๋กœ pooling๋œ feature์˜ ๊ฒฝ์šฐ ์ด๋ฏธ์ง€ ์ „์ฒด์— ๋Œ€ํ•œ global context๋ฅผ ๋‹ด๊ณ  ์žˆ๊ณ , 2x2xN์˜ ๊ฒฝ์šฐ ์ด๋ฏธ์ง€ ์ „์ฒด๋ฅผ 4๊ฐœ์˜ ์˜์—ญ์œผ๋กœ ๋‚˜๋ˆ„์–ด ์˜์—ญ๋ณ„ global context ๋ฅผ ๋‚ดํฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๋“ฏ ์—ฌ๋Ÿฌ ์‚ฌ์ด์ฆˆ๋กœ pooling์„ ํ•œ ๊ฒฐ๊ณผ๊ฐ€ ์ด๋ฏธ์ง€ ์ „์ฒด๋ฅผ ์—ฌ๋Ÿฌ ์Šค์ผ€์ผ์˜ ๊ทธ๋ฆฌ๋“œ๋กœ ๋‚˜๋ˆ„์–ด global context๋ฅผ ๊ฐ€์ง€๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค. 

๊ทธ๋ฆฌ๊ณ  pooling๋œ feature๋“ค์„ conv ์— ํ†ต๊ณผ์‹œ์ผœ N๊ฐœ์˜ ์ฑ„๋„์„ N/4 ๊ฐœ์˜ ์ฑ„๋„๋กœ ๋ฐ”๊ฟ”์ค˜์„œ ๊ธฐ์กด feature์™€ global context info. ๋ฅผ ๊ฐ€์ง€๋Š” feature์˜ ์ฑ„๋„ ์ˆ˜๊ฐ€ 1:1์ด ๋˜๋„๋ก ๋งž์ถฐ์ค๋‹ˆ๋‹ค. 

 

์ด๋Ÿฌํ•œ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ–ˆ์„๋•Œ, spatial domain์—์„œ์˜ ์ž„์˜์˜ ์˜์—ญ์€ localํ•œ ์ •๋ณด์™€ ์—ฌ๋Ÿฌ ์Šค์ผ€์ผ์˜ global context ์ •๋ณด๋ฅผ ๋ชจ๋‘ ๊ฐ€์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

Results

Pyramid Pooling Module์˜ ํšจ์œจ์„ฑ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•œ ablation ์‹คํ—˜์˜ ๊ฒฐ๊ณผ์ด๋ฉฐ ์—ฌ๋Ÿฌ ์‚ฌ์ด์ฆˆ๋กœ pooling ํ•  ์ˆ˜๋ก, max ๋ณด๋‹ค๋Š” average pooling์„ ํ•  ๋•Œ, conv๋กœ dimension์„ ์ค„์ผ ๋•Œ ์„ฑ๋Šฅ์ด ์ข‹์•„์ง€๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

max pooling์€ ํ•˜๋‚˜์˜ ๊ฐ•ํ•œ ๊ฐ’์—๋งŒ ์˜ํ–ฅ์„ ๋ฐ›๊ธฐ ๋•Œ๋ฌธ์— context information์„ ๋‹ด๊ธฐ์— ์ ์ ˆํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  dimension reduction์€ conv layer๊ฐ€ ์ถ”๊ฐ€๋˜๋‹ˆ๊นŒ ์„ฑ๋Šฅ์ด ์ข‹์•„์งˆ ์ˆ˜ ๋ฐ–์— ์—†๊ธฐ์— fair ํ•œ ๋น„๊ต๋Š” ์•„๋‹Œ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.

๋ฐ˜์‘ํ˜•