๋ณธ ๋ ผ๋ฌธ์ CVPR2017์ ๊ฒ์ฌ๋์์ผ๋ฉฐ PSPNet(ImageNet scene parsing challenge 2016์์ 1๋ฑ)์ ์ ์ํฉ๋๋ค. ํ์ฌ๋ ๋ ์ฑ๋ฅ์ด ์ข์ ์ฐ๊ตฌ๊ฐ ๋ง์ด ์๊ฐ๋์์ง๋ง semantic segmentation์ global contextual information์ ํ์ฉํ๊ธฐ ์ํ Pyramid Pooling Module ์ ์ ๋ฆฌํ๊ธฐ ์ํด ๋ฆฌ๋ทฐ๋ฅผ ์์ฑํฉ๋๋ค.
Motivation
๋ณธ ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ segmentation ์๊ณ ๋ฆฌ์ฆ์ 3๊ฐ์ง ๋ฌธ์ ์ ์ด ์๋ค๊ณ ์ง์ ํฉ๋๋ค. (์ ๊ทธ๋ฆผ์์๋ FCN ๊ณผ ๋น๊ต)
1) Mismatched Relationship : ์ฃผ๋ณ ํ๊ฒฝ(contextual information)๊ณผ ๋ง์ง ์๋ ํฝ์ ๋ถ๋ฅ. ์๋ฅผ ๋ค์ด ํธ์ ๊ทผ์ฒ์ ์๋์ฐจ, ๋๋ก ์์ ๋ณดํธ ๊ฐ์ ๊ฒฝ์ฐ.
2) Confusion Categories : ํท๊ฐ๋ฆด ์ ์๋ ํฝ์ ๋ถ๋ฅ. builing ์ผ๋ก ๋ถ๋ฅ๋ ํฝ์ ๋ด๋ถ์ skyscraper ๋ก ์ค๋ถ๋ฅ ๋ ๊ฒฝ์ฐ. ํ์ง๋ง ์ฐ๋ฆฌ๋ ๋น๋ฉ์์ ๊ณ ์ธต๋น๋ฉ์ด ์์ ์ ์๋ค๋ ์ฌ์ค์ ์๊ณ ์์.
3) Inconspicuous Classes : ๋์ ์ ๋์ง ์๋ ๋ฌผ์ฒด์ ํฝ์ ๋ถ๋ฅ. ์์์์๋ texture๊ฐ ๋น์ทํ ์ด๋ถ๊ณผ ๋ฒ ๊ฐ์์ ๋ฒ ๊ฐ๋ฅผ ๋ถ๋ฅํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ. ํ์ง๋ง ์ฐ๋ฆฌ๋ ์นจ๋์ ๋์ชฝ ๋๋ ๋ฒฝ ๊ฐ๊น์ด์ ๋ณดํต ๋ฒ ๊ฐ๊ฐ ์์นํ๋ค๋ ์ฌ์ค์ ์๊ณ ์์.
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ PSPNet์ ์์ 3๊ฐ์ง ๋ฌธ์ ์ ์ ๊ฐ์ ํ๊ธฐ ์ํด global contextual information์ ํ์ฉํ๋ ค ํฉ๋๋ค. local ์ ๋ณด๋ฟ๋ง์ด ์๋๋ผ global context ์ ๋ณด๋ฅผ ํ์ฉํ๋ฉด ํฝ์ ์ ๋ถ๋ฅํ ๋ ์ ์ฒด์ ์ธ scene์ ์ํฉ์ ๊ณ ๋ คํ ์ ์๊ณ real world์์ ์ธ๊ฐ์ด ํต์์ ์ผ๋ก ๊ฐ์ง๊ณ ์๋ ๊ฐ๋ (ํน์ object๊ฐ ์กด์ฌํ๋ ์ฅ์ ๋๋ ์์น)๋ฅผ ์ด์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ฌผ๋ก ์ด๋ฌํ global contextual information์ด segmentation์ ๋ฐฉํด๋๋ ์์๋ก ์์ฉํ ์๋ ์์ต๋๋ค. ์์ฐ์ค๋ฝ์ง๋ ์์ง๋ง, ํธ์ ๊ทผ์ฒ์ ์๋์ฐจ๊ฐ ์์ ์๋ ์๊ณ ์นจ๋ ์ค๊ฐ์ ๋ฒ ๊ฐ๊ฐ ์์นํ๊ฑฐ๋ ๋๊ตฌ ์ฝํธ ์์์ ๋ฐฅ์ ๋จน๋ ์ฌ๋ ๋ฑ์ ํ๊ฒฝ์์๋ global context ๊ฐ ์คํ๋ ค ๋ฐฉํด๋ ์ ์์ต๋๋ค. ๊ทธ๋ฐ ์๊ฐ์ด ์ผ๋ง๋ ์๊ฒ ์ด? ๋ผ๊ณ ์๊ฐํ ์ ์์ง๋ง ์์จ์ฃผํ ๋ฑ์ ์ธ๊ฐ์ ์๋ช ๊ณผ ์ง๊ฒฐ๋๋ task์์๋ outlier ๊ฐ์ ์์ ๊ฐ์ ์ํฉ์์ ์ํํ ์๊ฐ์ด ๋ฐ์ํ ์๋ ์์ต๋๋ค.
Methods
๊ทธ๋์ ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ global contextual information์ ์ด๋ป๊ฒ ํ์ฉํ๋๋ฉด, ์ ๊ทธ๋ฆผ์ Pyramid Pooling Module์์ ๋ณด๋ ๊ฒ์ฒ๋ผ backbone network์์ ์ถ์ถ๋ output feature๋ฅผ ์ฌ๋ฌ๊ฐ์ ์ฌ์ด์ฆ๋ก pooling์ ํ๊ณ (spatial domain์์) ๋ค์ ์ด๋ค์ upsamplingํ์ฌ ๊ธฐ์กด์ feature์ concatํด์ ์ต์ข prediction์ ์ํํฉ๋๋ค.
๊ธฐ์กด feature map์ ์ฑ๋ ์ฌ์ด์ฆ๊ฐ N ์ผ๋ pooling๋ feature ์ฌ์ด์ฆ๋ ๊ฐ๊ฐ 1x1xN, 2x2xN, 3x3xN, 6x6xN ์ ๋๋ค. 1x1xN์ผ๋ก pooling๋ feature์ ๊ฒฝ์ฐ ์ด๋ฏธ์ง ์ ์ฒด์ ๋ํ global context๋ฅผ ๋ด๊ณ ์๊ณ , 2x2xN์ ๊ฒฝ์ฐ ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ 4๊ฐ์ ์์ญ์ผ๋ก ๋๋์ด ์์ญ๋ณ global context ๋ฅผ ๋ดํฌํฉ๋๋ค. ์ด๋ ๋ฏ ์ฌ๋ฌ ์ฌ์ด์ฆ๋ก pooling์ ํ ๊ฒฐ๊ณผ๊ฐ ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ์ฌ๋ฌ ์ค์ผ์ผ์ ๊ทธ๋ฆฌ๋๋ก ๋๋์ด global context๋ฅผ ๊ฐ์ง๋๋ก ๋ง๋ญ๋๋ค.
๊ทธ๋ฆฌ๊ณ pooling๋ feature๋ค์ conv ์ ํต๊ณผ์์ผ N๊ฐ์ ์ฑ๋์ N/4 ๊ฐ์ ์ฑ๋๋ก ๋ฐ๊ฟ์ค์ ๊ธฐ์กด feature์ global context info. ๋ฅผ ๊ฐ์ง๋ feature์ ์ฑ๋ ์๊ฐ 1:1์ด ๋๋๋ก ๋ง์ถฐ์ค๋๋ค.
์ด๋ฌํ ์ฐ์ฐ์ ์ํํ์๋, spatial domain์์์ ์์์ ์์ญ์ localํ ์ ๋ณด์ ์ฌ๋ฌ ์ค์ผ์ผ์ global context ์ ๋ณด๋ฅผ ๋ชจ๋ ๊ฐ์ง๊ฒ ๋ฉ๋๋ค.
Results
Pyramid Pooling Module์ ํจ์จ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํ ablation ์คํ์ ๊ฒฐ๊ณผ์ด๋ฉฐ ์ฌ๋ฌ ์ฌ์ด์ฆ๋ก pooling ํ ์๋ก, max ๋ณด๋ค๋ average pooling์ ํ ๋, conv๋ก dimension์ ์ค์ผ ๋ ์ฑ๋ฅ์ด ์ข์์ง๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
max pooling์ ํ๋์ ๊ฐํ ๊ฐ์๋ง ์ํฅ์ ๋ฐ๊ธฐ ๋๋ฌธ์ context information์ ๋ด๊ธฐ์ ์ ์ ํ์ง ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ dimension reduction์ conv layer๊ฐ ์ถ๊ฐ๋๋๊น ์ฑ๋ฅ์ด ์ข์์ง ์ ๋ฐ์ ์๊ธฐ์ fair ํ ๋น๊ต๋ ์๋ ๊ฒ ๊ฐ์ต๋๋ค.