CVPR2017์ ๊ฒ์ฌ๋ material recognition ๊ด๋ จ ๋ ผ๋ฌธ์ ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง ์บก์ฒ์ small anugular variation๋ฅผ ์ด์ฉํ์ฌ ์ฌ์ง ๋ถ๋ฅ ์ฑ๋ฅ์ ๋์ด๋ DAIN(Differential Angular Imaging Network)๋ฅผ ์ ์ํฉ๋๋ค.
Introduction
Real world scene์ ๋๋ฌด, ๋๋ฆฌ์, ํ, ๊ธ์, ์ธ๋ผ๋ฏน ๋ฑ๊ณผ ๊ฐ์ ๋ค์ํ ์ฌ์ง๋ก ๋ง๋ค์ด์ง ํ๋ฉด์ผ๋ก ๊ตฌ์ฑ๋์ด ์๊ณ , ์ด๋ ์ด๋ฏธ์ง์์ ํ๋ถํ visual variation์ ๋ฐ์์ํต๋๋ค. Material recognition์ autonomous agent, human-machine ์์คํ ๊ณผ ๊ฐ์ ์์ฉ ๋ถ์ผ์ ๋ํ ์์ธํ ์ฌ์ง ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๊ฒ์ ๋ชฉํ๋ก ์ต๊ทผ ๋ช ๋ ๋์ ํ๋ฐํ ์ฐ๊ตฌ๊ฐ ์งํ๋์์ต๋๋ค.
Material appearance modeling์ ์ด๊ธฐ ์ฐ๊ตฌ๋ ์ ๋ฐํ ์ธก์ ์ ์๊ตฌํ๋ BRDF, BTF ๋ฑ์ ์ฌ์ฉํ๋ ์คํ์ค ๊ธฐ๋ฐ์ ๋ฐ์ฌ์จ ์ธก์ ์ ์ง์คํ์ต๋๋ค. ์ด๋ฌํ reflectance ๊ธฐ๋ฐ์ ์ฐ๊ตฌ๋ surface์ ๊ณ ์ ํ invariantํ ํน์ฑ์ ๊ด์ธกํ์ฌ fine-grainedํ ์ฌ์ง ์ธ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ฅ์ ์ด ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์คํ์ค ๊ธฐ๋ฐ์ ์ด๋ฏธ์ง ์บก์ฒ๋ ์ ํ์กฐ๊ฑด์ด ๋ง๊ธฐ ๋๋ฌธ์ ์ผ์ธ์์๋ ๋๋ฆฌ ์ฌ์ฉ๋์ง ๋ชปํ์ต๋๋ค. ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์ฌ์ง ์ธ์์ ์ต๊ทผ ์ฐ๊ตฌ๋ single-view ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ classifier๋ฅผ ํ์ต์ํค๊ณ multi-view reflectance ์ ๋ณด๊ฐ ์๋ arbitrary image์ ์ ์ฉํ ์ ์๋ ๋ฐฉ๋ฒ๋ค์ด ์์ต๋๋ค. ํ์ง๋ง, ์ด๋ฌํ ๋ฐฉ๋ฒ์ ์ผ๋ฐ์ ์ผ๋ก ๊ณ ์ ํ ์ฌ์ง์ appearance ์ ๋ณด๋ณด๋ค๋ context ์ ๋ณด์ ๋์ฑ ์ง์คํฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ in-scene์ appearance๋ฅผ captureํ์ง๋ง control ๋ viewpoint angle๋ฅผ ์ฌ์ฉํฉ๋๋ค. (๋ก๋ด์ด ์์ง์ด๋ฉด์ ํ scene์์ ํน์ ๊ฐ๋๋ก ๊ฐ์ ๋ฐ๊ฟ ๊ฐ๋ฉฐ ์ฐ์ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ๋จ ๋ง). ์ด๋ฌํ ์ธก์ ์ reflectance function์ sampling์ ์ ๊ณตํฉ๋๋ค. ์ด๋ multiple viewing angles์ด ์ฌ์ง ์ธ์์ ์ด๋ป๊ฒ ๋์์ด ๋ ์ง๋ผ๋ ์ง๋ฌธ๊ณผ ์ฐ๊ฒฐ๋ฉ๋๋ค. ์ด์ ์ฐ๊ตฌ์์๋ shape reconsturction์ ์ํด differential camera motion ๋๋ object motion์ ์ฌ์ฉํ์ต๋๋ค. ์ฌ๊ธฐ์ ์ฐ๋ฆฌ๋ ์๋ก์ด ์ง๋ฌธ์ ๊ณ ๋ คํฉ๋๋ค. viewing angle์ ์์ ๋ณํ๊ฐ ์ธ์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํค๋์ง? ์ด์ ์ฌ์ง ์ธ์ ์ฐ๊ตฌ์์ angular filtering ์ ํ์๋ฅผ ๋ณด์ฌ์คฌ์ง๋ง ์ด๋ค์ mirror ๊ธฐ๋ฐ ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ์ฌ BRDF์ ์ฌ๋ผ์ด์ค๋ฅผ ์บก์ณํ๊ฑฐ๋ light-field ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ์ฌ differential viewpoint variation์ ๊ตฌ์ฑํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ผ๋ฐ ์นด๋ฉ๋ผ๋ก ์์ผ๊ฐ์ ์ฐจ์ด๊ฐ ๋ณํํ๋ ํ๋ฉด์ ์บก์ฒํ๊ณ angular gradient์ ๊ทผ์ฌ์น๋ฅผ ๊ณ์ฐํ ๊ฒ์ ์ ์ํฉ๋๋ค. ํน์ ์์ผ๊ฐ v, differential viewpint v + δ ์ ๋ํ ์ด๋ฏธ์ง ์บก์ฒ๋ฅผ ์ฌ์ฉํ๋ angular differential iamging ์ด๋ผ๋ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ด์ ์ 22.5๋์ ๊ฐ์ ํฐ ๊ฐ๋ ๊ฐ๊ฒฉ์ ๊ฐ์ง ์คํ์ค ๊ธฐ๋ฐ์ ๋ฐ์ฌ์จ ์ธก์ ๋ฐฉ๋ฒ๊ณผ ๋์กฐ๋ฉ๋๋ค. ์ํ ์คํ ๋ ์ค ์นด๋ฉ๋ผ ๋๋ ์์ง์ด๋ ์นด๋ฉ๋ผ๋ก ๊ตฌํํ ์ ์๋ differential angular imaging์ด ์ฌ์ง reflectance ์์ฑ์ ๋ํ ํต์ฌ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
- Dataset
GTOS(Ground Terrain in Outdoor Scenes) dataset์ ์ฌ์ฉ. GTOS๋ multiple viewpoint, illumination conditions ๊ทธ๋ฆฌ๊ณ angular different imaging์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ 40๊ฐ์ ground terrain ์ฌ์ง dataset์ ๋๋ค.
multi-view ์ด๋ฏธ์ง๋ ์ ๊ทธ๋ฆผ์ ๊ฒ์์ ์ ,๋ฐ์ค์ ํด๋นํ๋ 10๋ ์ฐจ์ด๋ฅผ ๊ฐ์ง๋ 9๊ฐ์ multi-view๋ก ์ด๋ฃจ์ด์ ธ ์๊ณ , differential angle variation์ ๋ชจ๋ view๋ง๋ค(9๊ฐ) 5๋ ์ฐจ์ด๋ฅผ ๊ฐ์ง๋ view 1๊ฐ์ฉ(๋ น์ ์ , ๋ฐ์ค) ์ถ๊ฐ๋ก ๊ตฌ์ฑ๋์ด ํ๋์ smaple๋น ์ด 18๊ฐ์ viewing direction์ ๊ฐ์ง๊ฒ ๋ฉ๋๋ค.
Differential Angular Imaging
๊ฐ๋จํ ์ค๋ช ํ๋ฉด intensity ∂Iv/∂v angular gradient๋ฅผ ๊ทผ์ฌํ์ฌ ์์ δ๋ฅผ ๊ฐ์ง๋ I(v + δ) − I(v)๋ก ์ฌ์ฉํฉ๋๋ค.
์ ์ด๋ฏธ์ง๋ค(2ํ)์ differential angular image๋ค์ ์์์ด๋ฉฐ ์ด ์ด๋ฏธ์ง๋ค์ reflectance ์ 3D relief texture์ angular gradient ์ ๋ณด๋ฅผ ๋ดํฌํ๊ณ ์์ต๋๋ค.
5๋์ viewpoint ์ฐจ์ด๋ก ๋ง๋ค์ด์ง differential ์ด๋ฏธ์ง๋ค์ด๋ฉฐ, ์ก์์ผ๋ก ๋ด๋ ๋ฐ์ฌ์ ๋์ ํ๋ฉด ๊ฑฐ์น ๊ธฐ ๋ฑ์ด color ์ด๋ฏธ์ง๋ณด๋ค ์ ๋ณด์ด๋ ์ ์ผ๋ก ๋ณด์ ํด๋น ์ด๋ฏธ์ง๋ค๋ก ๋ถ๋ฅ ์ฑ๋ฅ์ ๋์ผ ์ ์์ ๊ฒ์ด๋ผ๋ ์๊ฐ์ด ๋ญ๋๋ค.
์ด์ ์ด๋ฌํ color, differential angular image ๋ค์ DAIN์ input์ผ๋ก ์ฌ์ฉํ์ฌ ์ฌ์ง์ ๋ถ๋ฅํ๊ฒ ๋ฉ๋๋ค.
DAIN
color, diff ์ด๋ฏธ์ง๋ฅผ ์ธ์ฝ๋ฉํ ์ ๋ณด๋ฅผ ํฉ์ณ ์ฌ์ง์ ๋ถ๋ฅํ๊ธฐ ์ํด 3๊ฐ์ง ๋คํธ์ํฌ๋ก ์คํ์ ์งํํฉ๋๋ค.
1) Final layer combination
color, diff ์ด๋ฏธ์ง๋ฅผ ๊ฐ๊ฐ ์๋ก ๋ค๋ฅธ CNN์ ๋ฃ์ด ๊ฐ CNN์ด color, diff ์ด๋ฏธ์ง๋ฅผ ์ธ์ฝ๋ฉํ๊ธฐ ์ํด ์ ์ ํ ํ์ต๋ ๊ฒ ์ ๋๋ค. ํ์ง๋ง, ์ต์ข output๋ง์ ํฉ์ณ class๋ฅผ ๋ถ๋ฅํ๋ฏ๋ก low-level feature๋ค์ด ๋ฌด์๋ ์ ์๋ ๋จ์ ์ด ์์ ๊ฒ ๊ฐ์ต๋๋ค.
2) Intermediate combination
color, diff ๊ฐ๊ฐ์ lower layer์์ ์ถ๋ ฅ๋ feature๋ฅผ ํฉ์ณ ํ๋์ higher layer์ ๋ฃ์ด ํด๋์ค๋ฅผ ๋ถ๋ฅํ๋ฏ๋ก, color, diff ์ ๋ณด๊ฐ ์ค๊ฐ์ smoothing๋์ด๋ฒ๋ฆฌ๋ ๋จ์ ์ด ๋ฐ์ํ ๋ฏ ํฉ๋๋ค. ๋ํ higher layer ๋ฅผ ํ๋๋ง ์ฌ์ฉํ์ฌ ํ๋ผ๋ฏธํฐ๊ฐ ๊ฐ์ํ๋ฏ๋ก ๊ทธ ์ด์ ๋ก ์ธํ ์ฑ๋ฅ๊ฐ์ ๋ํ ์กด์ฌํ ์ ์์ต๋๋ค.
3) DAIN
1,2๋ฒ ๋คํธ์ํฌ์ ๋จ์ ์ ๋ณด์ํ๊ธฐ ์ํด low-level feature๋ฅผ ํฉ์น์ง๋ง color ์ด๋ฏธ์ง์ feature๋ ๊ทธ๋๋ก higher layer๋ฅผ ํต๊ณผ์์ผ diff. ์ด๋ฏธ์ง์ ์ ๋ณด๊ฐ ์์ด์ง ์๋๋ก ํ์ฌ ์ฑ๋ฅ์ ๊ฐ์ ์ํต๋๋ค.
- Multiview DAIN
singleview ๋ 0.5๋ ์ฐจ์ด์ small angular ์ ํด๋นํ๋ reflectance ๋ง์ ํ์ฉํ ์ ์์ต๋๋ค. ๋ฐ๋ฉด์ multiview ์ด๋ฏธ์ง๋ค์ ์ฌ์ฉํ๋ฉด ๋ ๋์ ๊ฐ๋์ reflectance ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ ์ฌ์ง ๋ถ๋ฅ์ ๋์์ด ๋ ๊ฒ์ด๋ผ ์์ธกํ ์ ์์ต๋๋ค. ๊ฐ ์ด๋ฏธ์ง๋ค์ weight sharing๋ lower layer์ ๋ฃ๊ณ ์ถ์ถ๋ feature๋ค์ 3D pooling๊ณผ 3D filter(trainable)๋ฅผ ์ฃผ์ ํ์ฌ feature dimension์ ์ค์ธ ํ higher layer์ ํต๊ณผ์์ผ ์ฌ์ง์ ๋ถ๋ฅํฉ๋๋ค.
multiview data๊ฐ ์ฌ์ฉ๋๊ธด ํ์ง๋ง ์ฌ์ค์ view๋ณ correlation์ ๋ณด๋ ๊ณณ์ 3D filter ๋ฟ์ด๋ฏ๋ก multi-view์ ํจ๊ณผ์ ์ธ ๋คํธ์ํฌ๋ ์๋๋ผ๋ ์๊ฐ์ด ๋ญ๋๋ค. singleview์ ๋นํด ์ฝ 2% ๊ฐ๋ ์ฑ๋ฅ์ด ์ฆ๊ฐํฉ๋๋ค.
My conclusion
์ฌ์ง ๋ถ๋ฅ์ ์์ ๊ฐ๋ ์ฐจ์ด๋ก ๊ด์ธกํ ์ ์๋ ํ๋ฉด์ partialํ reflectance ์ ๋ณด๋ก ๋ถ๋ฅ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ค๋ ์ ์ ์คํ์ ์ผ๋ก ์๊ฒ ๋์์ต๋๋ค. ๋ํ color, diff ์ด๋ฏธ์ง, multiview ์ด๋ฏธ์ง๋ค์ ํ์ฉํ๊ธฐ ์ํด ๋คํธ์ํฌ๋ฅผ ์ด๋ป๊ฒ ๊ตฌ์ฑํ ์ ์๋์ง ๋ฐฐ์ธ ์ ์๋ ๋ ผ๋ฌธ์ด์์ต๋๋ค.