๋ณธ ๋ ผ๋ฌธ์ ECCV 2018์ ๊ฒ์ฌ๋ ๋ ผ๋ฌธ์ผ๋ก ๋ค์ํ visual concepts ์ธ์ํ๋(multi-task learning) Unified Perceptual Parsing ์ด๋ผ๋ ์๋ก์ด task ๋ฅผ ์ ์ํฉ๋๋ค.
Introduction
์ ๊ทธ๋ฆผ์ ๊ฑฐ์ค(scene)์ ํ ์ด๋ธ, ๊ทธ๋ฆผ, ๋ฒฝ๊ณผ ๊ฐ์ ๋ค์ํ ๊ฐ์ฒด(object)๋ก ์ด๋ฃจ์ด์ ธ์๊ณ ๋์์ ํ ์ด๋ธ์ ํ ์ด๋ธ ๋ค๋ฆฌ, ์ํ, apron(part) ๋ฑ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๋ํ ํ ์ด๋ธ์ ๋๋ฌด(material)๋ก ๋ง๋ค์ด์ก๊ณ ์ํ ํ๋ฉด์ kinitted(texture) ๋์ด ์์ต๋๋ค. ์ด๋ฌํ ์นดํ ๊ณ ๋ฆฌ๋ค์ scene understanding, object/material/part/texture recognition task์์ ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ์ํ๋์ด ์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์์ ๋ค์ ๋์์ ์ํํ๊ธฐ ์ํด UPP(Unified Perceptual Parsing) ์ด๋ผ๋ ์๋ก์ด task์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํธ ์๋ก์ด ํ์ต๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ์ํด ํด๊ฒฐํด์ผํ ๋ช๊ฐ์ง ๋ฌธ์ ์ ๋ค์ด ์๋๋ฐ...
1) ๋ชจ๋ level์ ์๊ฐ ์ ๋ณด๊ฐ label๋ dataset ์ด ์์
scene parsing์ ์ํ ADE20K, texture recognition์ ์ํ DTD, material recognition์ ์ํ OpenSurfaces ๋ฑ dataset์ด ๊ฐ๊ฐ ์กด์ฌํฉ๋๋ค.
2) ์๋ก ๋ค๋ฅธ perceptual level์ annoation์ด heterogeneous
์๋ฅผ ๋ค์ด ADE20K๋ pixel-wise label์ด ๋์ด์๊ณ , DTD ๋ image-wise label์ด ๋์ด์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์๋ก ๋ค๋ฅธ dataset์ ์ด์ง์ฑ์ ๊ทน๋ณตํ๊ณ ๋ค์ํ level์ visual concept ๋ค์ ๋์์ ํ์ตํ๋ framework๋ฅผ ์ ์ํฉ๋๋ค.
Datasets
๋ค์ํ visual concept๋ค์ ํฌํจํ๋ Broadly and Densely Labeled Dataset(Broden) ์ ํ์ฉํฉ๋๋ค. Broden์ ADE20K, Pascal-Context, Pascal-Part, OpenSurface ๋ฐ DTD๊ฐ ํตํฉ๋ dataset์ ๋๋ค. ์ด dataset์๋ object, object parts, material ์ ๋ํ ์ ๋ณด๊ฐ pixel-wise labeling ๋์ด ์๊ณ scene ๊ณผ texture๋ image-wise labeling ๋์ด ์์ต๋๋ค. ํ์ง๋ง, ์ด dataset์ class ๋ณ ์ํ์ด imbalance ํ๊ธฐ ๋๋ฌธ์ ์ ์ฌํ class ๋ฅผ ๋ณํฉํ๋ ๋ฑ์ ๋ช๊ฐ์ง ์์ ์ ๊ฑฐ์ณ์ Broden+ dataset์ ๊ตฌ์ถํฉ๋๋ค.
์๋๋ Broden+ dataset์ ์์์ ๋๋ค.
Designing Networks for Unified Perceptual Parsing
์ ๊ทธ๋ฆผ์ ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ UperNet(Unified Perceptual Parsing Network) ์ด๋ฉฐ Feature Pyramid Network(FPN) ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค์ด์ก์ต๋๋ค. ๋ํ ํจ๊ณผ์ ์ธ global prior representation์ ์ถ์ถํ๋ PSPNet ์ PPM(Pyramid Pooling Module) ์ backbone net ์ ๋ง์ง๋ง layer์ ์ฐ๊ฒฐํฉ๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ฌ๋ฌ visual task๋ค์ ๋์์ ํ์ตํ๊ธฐ ์ํด task ๋ณ๋ก conv. layer๊ฐ ํฌํจ๋ Head๋ฅผ ์ฐ๊ฒฐํ์ฌ segmentation์ ์ํํฉ๋๋ค. ๋ง์ parameter ์๋ฅผ ๊ฐ์ง๋ backbone net์ ๊ณต์ ํ๊ณ ๊ฐ๋ฒผ์ด Head๋ง task๋ณ๋ก ์ถ๊ฐํ ๊ตฌ์กฐ๋ก, ๊ฐ Head๋ฅผ ํต๊ณผํ output feature์ channel ๊ฐ์๋ ํด๋น task์ class ๊ฐ์์ ๋์ผํฉ๋๋ค.
- Scene : image-wise prediction์ด ํ์ํ๊ธฐ ๋๋ฌธ์ backbone net → PPM Head → Scene Head ํต๊ณผ ํ scene ์ ์์ธกํฉ๋๋ค. Scene Head๋ 3x3 conv + GAP + classifier ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค.
- Object / Part : Object์ part๋ ๋ชจ๋ level์ feature map์ ๊ฒฐํฉํ์ฌ ์์ธกํ ๊ฒฝ์ฐ์ ๊ฐ์ฅ ์ฑ๋ฅ์ด ๋๋ค๋ ๊ฒ์ ์คํ์ ์ผ๋ก ๋ฐ๊ฒฌํ์ฌ low~high level feature ๋ค์ fuse ํ๊ณ object์ part์ ๊ฐ๊ฐ head๋ฅผ ์ฐ๊ฒฐํ์ฌ ์์ธกํฉ๋๋ค. object, part, material head๋ 3x3 conv + classifier ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. (segmentation์ ์ํด ๊ณต๊ฐ ์ ๋ณด๋ฅผ ์์คํ๋ฉด ์๋๊ธฐ ๋๋ฌธ์ GAP ์ฌ์ฉ X)
- Material : low-level feature๋ง ์ฌ์ฉํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ material ์ธ์์ ์ํด context ์ ๋ณด๊ฐ ์ค์ํ๋ค๋ ๊ฒ์ ๊ฐ์กฐํ๊ณ ์์ง๋ง, low-level feature๋ง ์ฌ์ฉํ๋ ๊ฒ์ด ์กฐ๊ธ ์ด์(?) ํฉ๋๋ค.
(์๋ง, object์ part ๋ฑ์ shape ์ ๋ณด๊ฐ ์ค์ํ task์ material์ high-level ์์ ํ์ต๋์ด์ผ ํ ์ ๋ณด์ ์ฑ๊ฒฉ์ด ๋ง์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ material ์ low~high level ์ ๋ณด๋ฅผ ๋ชจ๋ ์ด์ฉํด์ ํ์ต์ํค๋ฉด ๋คํธ์ํฌ ์ฑ๋ฅ์ด ๋จ์ด์ง๊ธฐ ๋๋ฌธ์ด ์๋๊น ์๊ฐ...)
- Texture : texture์ ๊ฒฝ์ฐ scene, object ๋ฑ์ task์์ ํ์ตํด์ผํ๋ feature์ ์ฑ๊ฒฉ์ด ๋ง์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ backbone net์์ low-level feature๋ง ์ถ์ถํ์ฌ ํ์ต์์๋ texture ์ด๋ฏธ์ง ํ์ฅ์ pixel-wise annotation ๋ ๊ฒ์ผ๋ก ๊ฐ์ฃผํ์ฌ ํ์ต์ํต๋๋ค. (DTD dataset์ ์ํ๋ค์ Field of View ์ ์ฒด๊ฐ ํด๋น ํด๋์ค๋ก ์ด๋ฃจ์ด์ ธ์๊ธฐ ๋๋ฌธ). ๋ํ backbone net์๋ gradient๋ฅผ ์ ๋ฌํ์ง ์๊ณ (ํ์ต์ ์ํฅ์ ๋ผ์น์ง ์๊ณ ) 3x3 conv 4๊ฐ๊ฐ ์ฐ๊ฒฐ๋ texture head๋ง ํ์ตํ๋๋ก ํฉ๋๋ค.
Experiments
์คํ์ training data๋ฅผ ์ฌ๋ฌ task๋ฅผ ํ๋์ฉ ์ถ๊ฐํด๊ฐ๋ฉฐ ์งํํ์ต๋๋ค. ๋น์ฐํ ๊ฒฐ๊ณผ์ด์ง๋ง task ์๊ฐ ๋ง์์ง ์๋ก ์ฑ๋ฅ์ ์กฐ๊ธ์ฉ ๋จ์ด์ง๋๋ค. ํ์ง๋ง, ์์ฃผ ๋ฏธ๋นํ ์ฑ๋ฅ์ ํ์ด๊ธฐ ๋๋ฌธ์ scene, object, part, material ๋ฑ์ visual task๋ค์ด ํ๋์ ๋คํธ์ํฌ๋ฅผ ์ด์ฉํด์ ํจ๊ณผ์ ์ผ๋ก ์ํ๋ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
ํ์ง๋ง UperNet ์ ๊ฐ task๋ค์ ๋ถ๋ฅ ๊ฒฐ๊ณผ๋ฅผ ์ํธ๋ณด์์ ์ผ๋ก ํ์ฉํ์ง๋ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด scene๊ณผ object, object์ material, material ๊ณผ texture๋ real world ์์ ๊น์ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ฌํ ๊ด๊ณ๋ฅผ ์ด์ฉํ๋ฉด ์ฌ๋ฌ task๋ค์ ๋์์ ํ์ตํ๋ฉด์ ๋ฐ์ํ๋ ์๋์ง๋ก ์คํ๋ ค task ๋ณ ์ฑ๋ฅ์ด ๋์ฑ ์ข์์ง๊ฒ ๋ง๋ค ์๋ ์์ง ์์๊น ์๊ฐํฉ๋๋ค.
์๋๋ ์๊ฐํ๋ ์คํ ๊ฒฐ๊ณผ์ ๋๋ค.