์์์ N๊ฐ์ view๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ Multi-view Stereo Reconstuction task์์ ์ ํต์ ์ธ ๋ฐฉ๋ฒ์ด ์๋, CNN ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ๋ ํ์ต ๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ์ ์ ์ํ๋ ์ฒซ ์ฐ๊ตฌ์ด๊ธฐ์ ์๊ฐํ๋ ค ํฉ๋๋ค. ์ง๊ธ์ ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ MVSNet ๋ณด๋ค ์ฑ๋ฅ์ด ์ข์ ๋คํธ์ํฌ๊ฐ ๋ง์ง๋ง, ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ์์ด๋์ด๋ฅผ ์ฌ์ฉํ๋ ์ฐ๊ตฌ๊ฐ ๋ง์ต๋๋ค.
(22๋ ์ด ๊ธฐ์ค SoTA๋ Transformer ๊ธฐ๋ฐ์ TransMVSNet์ ๋๋ค.)
Abstract
๋ณธ ๋ ผ๋ฌธ์์๋ multi-view(๋ค์์ ) ์ด๋ฏธ์ง์์ depth map inference๋ฅผ ์ํ end-to-end ๋ฅ๋ฌ๋ ์ํคํ ์ฒ๋ฅผ ์๊ฐํฉ๋๋ค. ๋คํธ์ํฌ์์ ๋ค์์ ์ด๋ฏธ์ง๋ค์ feature๋ฅผ ์ถ์ถํ ํ ๋ฏธ๋ถ๊ฐ๋ฅํ homography warping์ ํตํด reference ์นด๋ฉ๋ผ frustum์ 3D cost volume์ ๊ตฌ์ถํฉ๋๋ค. ๋ค์์ผ๋ก 3D conv ๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ธฐ depth map์ regularizeํ๊ณ regressํ ๋ค์ reference ์ด๋ฏธ์ง๋ก refineํ์ฌ ์ต์ข ์ถ๋ ฅ์ ์์ฑํฉ๋๋ค. ๋ณธ ๋คํธ์ํฌ๋ ์ฌ๋ฌ feature๋ค์ ํ๋์ cost feature๋ก ๋งคํํ๋ variance ๊ธฐ๋ฐ metric์ ์ฌ์ฉํ์ฌ ์์์ N-view (N๊ฐ์ view ๊ฐ์) ์ ๋ ฅ์ ์ ์ฐํ๊ฒ ์ฒ๋ฆฌํฉ๋๋ค. ์ ์๋ MVSNet์ DTU dataset์์ ์์ฐ๋๊ณ ๊ฐ๋จํ ํ์ฒ๋ฆฌ๋ฅผ ํตํด ์ด์ SOTA๋ฅผ ํจ์ฌ ๋ฅ๊ฐํ๊ณ ๋ฐํ์์ ๋ช๋ฐฐ ๋ ๋น ๋ฆ ๋๋ค.
Introduction
Multi-view Stereo (MVS)๋ ์์ญ ๋ ๋์ ์ฐ๊ตฌ๋ ์ปดํจํฐ ๋น์ ์ ํต์ฌ ๋ฌธ์ ์ธ ์ค์ฒฉ ์ด๋ฏธ์ง๋ค์์ dense representation์ ์ถ์ ํฉ๋๋ค. ์ ํต์ ์ธ ๋ฐฉ๋ฒ์ dense correspondence์ ๊ณ์ฐํ๊ธฐ ์ํด handcrafted similarity matrice์ ์์ง๋์ด๋ง๋ regularizations์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ Lambertian ์๋์ด๋ก์์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง๋ง low-textured, specular, reflective ํ ์์ญ์ dense matching์ด ์ฝ์ง ์์์ ๋ถ์์ ํ reconstruction ๊ฒฐ๊ณผ๋ก ์ด์ด์ง๋๋ค.
์ต๊ทผ(2018๋ ๊ธฐ์ค..) CNN ์ฐ๊ตฌ์ ์ฑ๊ณต์ผ๋ก stereo reconstruction์ ๊ฐ์ ํ๊ธฐ ์ํ ๊ด์ฌ์ด ๋ง์ต๋๋ค. ๊ฐ๋ ์ ์ผ๋ก learning ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋งค์นญ์ ์ํด specualr ๋ฐ reflective ๊ฐ์ global ํ semantic ์ ๋ณด๋ฅผ ๋์ ํ ์ ์์ต๋๋ค. Hand-crafted similarity matrices ๋๋ egineered regularization ์ ํ์ต๊ฐ๋ฅํ ๋คํธ์ํฌ๋ก ๋์ฒดํ์ฌ two-view sterero matching์ ๋ํ ๋ช ๊ฐ์ง ์๋๊ฐ ์์์ต๋๋ค. ๊ทธ๋ค์ stereo ๋ฒค์น๋งํฌ์์ ์ ํต์ ์ธ ๋ฐฉ๋ฒ์ ๋ฅ๊ฐํ๋ ์ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ค์ ๋ก stereo matching ์์ ์ ์ด๋ฏธ์ง ์์ ๋ฏธ๋ฆฌ ๋ณด์ ํ์ฌ ์นด๋ฉ๋ผ ํ๋ผ๋ฏธํฐ์ ์ ๊ฒฝ์ฐ์ง ์๊ณ ์ํ ํฝ์ ๋จ์ disparity ์ถ์ ์ด ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ CNN ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ ์ฉํ๋ ๊ฒ์ด ์๋ฒฝํ ์ ํฉํฉ๋๋ค.
๊ทธ๋ฌ๋ ํ์ต๋ two-view stereo๋ฅผ multi-view ์๋๋ฆฌ์ค๋ก ํ์ฅํ๋ ๊ฒ์ ๊ฐ๋จํ์ง ์์ต๋๋ค. Stereo matching ๊ณผ๋ ๋ฌ๋ฆฌ MVS์ ๋ํ ์ ๋ ฅ ์ด๋ฏธ์ง๋ ์์์ ์นด๋ฉ๋ผ geometry ์ผ ์ ์๊ณ , ์ด๋ training-based ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๊ธฐ๊ฐ ๊น๋ค๋กญ์ต๋๋ค. ์ด ๋ฌธ์ ๋ฅผ ์ง์ ํด๊ฒฐํ๋ ค๋ ์๋๋ ๊ฑฐ์ ์์ต๋๋ค. SurfaceNet์ ๋ชจ๋ ์ด๋ฏธ์ง ํฝ์ ์์๊ณผ ์นด๋ฉ๋ผ ์ ๋ณด๋ฅผ ๋คํธ์ํฌ์ ์ ๋ ฅ์ผ๋ก single volume์ ๊ฒฐํฉํ๋ Colored Voxel Cubes (CVC)๋ฅผ ๋ฏธ๋ฆฌ ๊ตฌ์ฑํฉ๋๋ค. ๋์กฐ์ ์ผ๋ก, Learned Stereo Machine (LSM)์ end-to-end ํ์ต/์ถ๋ก ์ ๊ฐ๋ฅํ๋๋ก ๋ฏธ๋ถ๊ฐ๋ฅํ projection/unprojection์ ์ง์ ํ์ฉํฉ๋๋ค. ํ์ง๋ง, ๋ ๊ฐ์ง ๋ฐฉ๋ฒ ๋ชจ๋ regular grid์ volumetric representation์ ํ์ฉํฉ๋๋ค. ๋๋ฌธ์ 3D volume์ ๋ง๋ํ ๋ฉ๋ชจ๋ฆฌ ์๋น๋ก ์ธํด ๋คํธ์ํฌ ํ์ฅ์ด ๊ฑฐ์ ๋ถ๊ฐ๋ฅํฉ๋๋ค. LSM์ low volume resolution์ synthetic ๊ฐ์ฒด๋ง ์ฒ๋ฆฌํ๊ณ SurfaceNet์ large-scale reconstruction์ ์ค๋ ์๊ฐ์ด ๊ฑธ๋ฆฝ๋๋ค. ํ์ฌ(2018) ํ๋ MVS ๋ฒค์น๋งํฌ์ ์ ๋๋ ์ฌ์ ํ ์ ํต์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ์ ์ ๋๊ณ ์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์์์ ์ธ๊ธํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด 3D scene ์ด ์๋ ํ ๋ฒ์ ํ๋์ depth map์ ๊ณ์ฐํ๋ depth map inference๋ฅผ ์ํ end-to-end ๋ฅ๋ฌ๋ ์ํคํ ์ฒ๋ฅผ ์ ์ํฉ๋๋ค. ๋ค๋ฅธ depth map ๊ธฐ๋ฐ MVS ๋ฐฉ๋ฒ๋ค๊ณผ ์ ์ฌํ๊ฒ ์ ์ํ๋ ๋คํธ์ํฌ์ธ MVSNet ์ ํ๋์ reference ์ด๋ฏธ์ง์ ์ฌ๋ฌ source ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ reference ์ด๋ฏธ์ง์ ๋ํ depth map์ ์ถ์ ํฉ๋๋ค. ์ฌ๊ธฐ์ ํต์ฌ์ ๋คํธ์ํฌ์ ์นด๋ฉ๋ผ geometry๋ฅผ implicitํ๊ฒ ์ธ์ฝ๋ฉํ์ฌ 2D image feature์์ 3D cost volume ์ ๊ตฌ์ถํ๊ณ end-to-end ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ homograpy warping ์์ ์ ๋๋ค. ์ ๋ ฅ์์ ์์์ view ์์ source ์ด๋ฏธ์ง๋ค์ ์ ์ฉํ๊ธฐ ์ํด ์ฌ๋ฌ view ๋ณ feature๋ฅผ ํ๋์ cost volume์ผ๋ก ๋งคํํ๋ distribution ๊ธฐ๋ฐ metric์ ์ ์ํฉ๋๋ค. ์ด cost volume์ multi-scale 3D convolution์ ๊ฑฐ์น๊ณ initial depth map์ regressํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก boundary ์์ญ์ ์ ํ๋๋ฅผ ํฅ์์ํค๊ธฐ ์ํด reference ์ด๋ฏธ์ง๋ก depth map์ ๊ฐ์ ํฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ ์ด์ ์ ์ ๊ทผ ๋ฐฉ์๊ณผ ๋ ๊ฐ์ง ์ฐจ์ด์ ์ด ์์ต๋๋ค.
1) Depth map inference๋ฅผ ์ํด 3D cost volume์ Euclidean space ๋์ camera frustum์ ๊ตฌ์ถ๋ฉ๋๋ค.
2) MVS reconstruction์ view ๋น depth map ์ถ์ ์ ํตํด large-scale reconstruction์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
Related work
- MVS Reconstruction
Ouput representation์ ๋ฐ๋ผ MVS method๋ direct point cloud reconstruction, volumetric reconstuction, depth map reconstruction์ผ๋ก ๋ถ๋ฅ๋ฉ๋๋ค. Point cloud ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ผ๋ฐ์ ์ผ๋ก reconstruction์ ์ ์ง์ ์ผ๋ก ์กฐ๋ฐํํ๊ธฐ ์ํด propagation ์ ๋ต์ ์์กดํ๋ 3D point์์ ์ง์ ์ํ๋ฉ๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ point cloud์ ์ ํ๊ฐ ์์ฐจ์ ์ผ๋ก ์งํ๋๊ธฐ ๋๋ฌธ์ ์์ ํ ๋ณ๋ ฌํ๋๊ธฐ ์ด๋ ต๊ณ ์ผ๋ฐ์ ์ผ๋ก ์๊ฐ์ด ๋ง์ด ๊ฑธ๋ฆฝ๋๋ค. Volumetric ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ 3D ๊ณต๊ฐ์ ์ผ๋ฐ grid๋ก ๋๋ ๋ค์ ๊ฐ voxel์ด ํ๋ฉด์ ๋ถ์ด์๋์ง ์ถ์ ํฉ๋๋ค. ์ด ํํ์ ๋จ์ ์ space discretization error์ ๋์ ๋ฉ๋ชจ๋ฆฌ ์๋น์ ๋๋ค. ๋์กฐ์ ์ผ๋ก detph map์ ๋ชจ๋ ๋ฐฉ๋ฒ ์ค์์ ๊ฐ์ฅ ์ ์ฐํ ํํ์ผ๋ก ๋ณต์กํ MVS ๋ฌธ์ ๋ฅผ ํ ๋ฒ์ ํ๋์ reference ์ด๋ฏธ์ง์ ์์์ source ์ด๋ฏธ์ง์๋ง ์ด์ ์ ๋ง์ถ๋ depth map ์ถ์ ์ ๋น๊ต์ ์์ ๋ฌธ์ ๋ก ๋ถ๋ฆฌํฉ๋๋ค. ๋ํ depth map์ point cloud ๋๋ volumetric reconstruction์ ์ฝ๊ฒ ์ตํฉ๋ ์ ์์ต๋๋ค.
- Learned Stereo
์คํ ๋ ์ค์ ๋ํ ์ต๊ทผ ์ฐ๊ตฌ์์๋ ๊ธฐ์กด์ handcrafted ์ด๋ฏธ์ง feature์ matching metric์ ์ฌ์ฉํ๋ ๋์ ๋ ๋์ pair-wise matching์ ์ํด ๋ฅ๋ฌ๋ ๊ธฐ์ ์ ์ ์ฉํฉ๋๋ค. ๋ ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๋งค์นญ์ํค๋ ๋ฅ๋ฌ๋ ๋คํธ์ํฌ, 3D cost volume์ 3D CNN์ผ๋ก ์ ๊ทํํ๋ end-to-end ์๊ณ ๋ฆฌ์ฆ๋ค์ด ์๊ฐ๋์ด์๊ณ , ์ด๋ฏธ ๊ธฐ์กด ์คํ ๋ ์ค ์ ๊ทผ ๋ฐฉ์์ ํจ์ฌ ๋ฅ๊ฐํฉ๋๋ค.
- Learned MVS
ํ์ต๋ MVS ์ ๊ทผ ๋ฐฉ์์ ๋ํ ์๋๋ ๋ ์ ์ต๋๋ค. MVS reconstruction์ ์ํ ์ ํต์ ์ธ cost metric์ ๋์ฒดํ๊ธฐ ์ํ multi-patch similarity์ด ์ ์๋์์ต๋๋ค. MVS ๋ฌธ์ ์ ๋ํ ์ฒซ ๋ฒ์งธ ํ์ต ๊ธฐ๋ฐ ํ์ดํ๋ผ์ธ์ ์ ๊ตํ voxel๋ณ view ์ ํ์ผ๋ก cost volume์ ์ ๊ทํํ๊ณ ์ถ๋ก ํ๋ SurfaceNet์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ๊ณผ ๊ฐ์ฅ ๊ด๋ จ์๋ ์ ๊ทผ ๋ฐฉ์์ LSM์ผ๋ก ์นด๋ฉ๋ผ ํ๋ผ๋ฏธํฐ๊ฐ ๋คํธ์ํฌ์์ cost volume์ ํ์ฑํ๊ธฐ ์ํ projection ์์ ์ผ๋ก ์ธ์ฝ๋ฉ๋๊ณ 3D CNN์ด voxel์ด ํ๋ฉด์ ์ํ๋์ง ๋ถ๋ฅํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ํ์ง๋ง volumetric ํํ์ ์ผ๋ฐ์ ์ธ ๋จ์ ์ผ๋ก ์ธํด SurfaceNet ๋ฐ LSM์ ๋คํธ์ํฌ๋ small-scale reconstruction์ผ๋ก ์ ํ๋ฉ๋๋ค. ๋์กฐ์ ์ผ๋ก ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ MVSNet์ ๋งค๋ฒ ํ๋์ reference ์ด๋ฏธ์ง์ ๋ํ depth map์ ์์ฑํ๋ ๋ฐ ์ค์ ์ ๋๋ฏ๋ก large-scale scene์ ์ง์ ์ ์ผ๋ก reconstruct ํ ์ ์์ต๋๋ค.
MVSNet
1. Image Features
MVSNet์ ์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ Dense matching์ ์ํด N๊ฐ์ ์ ๋ ฅ ์ด๋ฏธ์ง์์ N๊ฐ์ deep feature๋ฅผ ์ถ์ถํ๋ ๊ฒ์ ๋๋ค. 8-layer 2D CNN์ด ์ ์ฉ๋์์ผ๋ฉฐ ์ผ๋ฐ์ ์ธ matching ์์ ๊ณผ ๋์ผํ๊ฒ weight ๋ฅผ sharing ํฉ๋๋ค. 2D CNN์ ์ถ๋ ฅ์ ์ ๋ ฅ ์ด๋ฏธ์ง ๋๋น 4๋ฐฐ ๋งํผ ์ถ์๋ 32์ฑ๋์ feature์ ๋๋ค.
2. Cost Volume
๋ค์ ๋จ๊ณ๋ ์ถ์ถ๋ feature map๊ณผ ์ ๋ ฅ ์นด๋ฉ๋ผ์์ 3D cost volume์ ๊ตฌ์ถํ๋ ๊ฒ์ ๋๋ค. ์ด์ ์ฐ๊ตฌ์์๋ regular grid๋ฅผ ์ฌ์ฉํ์ฌ ๊ณต๊ฐ์ ๋ถํ ํ์ง๋ง ๋ณธ ๋ ผ๋ฌธ์ depth map ์ถ์ ์์ ์์๋ reference ์นด๋ฉ๋ผ frustum์ cost volume์ ๊ตฌ์ฑํฉ๋๋ค. I1์ reference ์ด๋ฏธ์ง, Ii๋ source ์ด๋ฏธ์ง, {Ki, Ri, ti}๋ ๊ฐ๊ฐ feature map์ ํด๋นํ๋ ์นด๋ฉ๋ก intrinsics, rotations, translations์ ํด๋นํฉ๋๋ค.
Differentiable Homography
๋ชจ๋ feature map์ N๊ฐ์ feature volume์ ํ์ฑํ๊ธฐ ์ํด reference ์นด๋ฉ๋ผ์ ์๋ก ๋ค๋ฅธ ์ ๋ฉด ํํ ํ๋ฉด์ผ๋ก warping๋ฉ๋๋ค. Warped feature map ์์ depth d์์ Fi ๋ก์ coordinate mapping ์ planar transformation x'~Hi(d)*x์ ์ํด ๊ฒฐ์ ๋ฉ๋๋ค. Hi(d)๋ i๋ฒ์งธ feature map ๊ณผ depth d์์์ reference feature map ์ฌ์ด์ Homography ์ ๋๋ค.
2D feature ์ถ์ถ๊ณผ 3D regularization ๋คํธ์ํฌ๋ฅผ ์ฐ๊ฒฐํ๋ ํต์ฌ ๋จ๊ณ๋ก warping ์์ ์ด ๋ฏธ๋ถ ๊ฐ๋ฅํ๋๋ก ๊ตฌํ๋์ด depth map ์ถ์ ์ end-to-end ํ์ต์ด ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
Cost Metric
N๊ฐ์ feature volume์ ํ๋์ cost volume C๋ก ๋ง๋ค๊ธฐ ์ํด N-view similarity ์ธก์ ์ ์ํ variacne-based cost metric M์ ์ ์ํฉ๋๋ค. W(์ด๋ฏธ์ง ๋๋น), H(์ด๋ฏธ์ง ๋์ด), D(Depth sample number), F(Channel number of the feature map), V= W/4*H/4*D*F ์ผ ๋, cost metric ์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํฉ๋๋ค. Vi ๋ ๋ชจ๋ feature volume์ average volume ์ด๊ณ ๋ชจ๋ operation ์ element-wise ์ ๋๋ค.
๋๋ถ๋ถ์ ์ ํต์ ์ธ MVS ๋ฐฉ๋ฒ์ reference ์ด๋ฏธ์ง์ ๋ชจ๋ source ์ด๋ฏธ์ง ๊ฐ์ pairwise cost๋ฅผ heuristicํ ๋ฐฉ์์ผ๋ก ์ง๊ณํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ metric ์ค๊ณ๋ ๋ชจ๋ view ๊ฐ matching cost์ ๋๋ฑํ๊ฒ ๊ธฐ์ฌํด์ผ ํ๊ณ reference ์ด๋ฏธ์ง์ ์ฐ์ ์์๋ฅผ ๋์ง ์๋๋ค๋ ์ ์ ๋ฅผ ๋ฐ๋ฆ ๋๋ค(์ต๊ทผ ์ฐ๊ตฌ์ ๋ฐ๋ผ). ์ต๊ทผ ์ฐ๊ตฌ๊ฐ multi-patch similarity๋ฅผ ์ถ๋ก ํ๊ธฐ ์ํด ๋ค์ค CNN layer๋ก average ์ฐ์ฐ์ ์ ์ฉํฉ๋๋ค. ์ฌ๊ธฐ์ 'average' ์ฐ์ฐ ์์ฒด๊ฐ feature ์ฐจ์ด์ ๋ํ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ง ์๊ณ , ๋คํธ์ํฌ๊ฐ similarity๋ฅผ ์ถ๋ก ํ๋ ๋ฐ ๋์์ด ๋๋ pre- ๋ฐ post- CNN ๊ณ์ธต์ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์ 'variance' ์ฐ์ฐ์ ์ฌ์ฉํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ variance-based cost metric์ multi-view feature ์ฐจ์ด๋ฅผ ๋ช ์์ ์ผ๋ก ์ธก์ ํฉ๋๋ค. ์คํ์์ ์ด๋ฌํ ๋ช ์์ ์ฐจ์ด ์ธก์ ์ด ๊ฒ์ฆ ์ ํ๋๋ฅผ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
Cost Volume Regularization
์ด๋ฏธ์ง feature ์์ ๊ณ์ฐ๋ raw cost volume์ ๋ ธ์ด์ฆ(Non-lambertian ํ๋ฉด ๋๋ object occlusion์ ์ํ)๋ก ์ค์ผ๋ ์ ์๊ธฐ ๋๋ฌธ์ depth map์ ์ถ๋ก ํ๊ธฐ ์ํด smoothness constraint์ ํตํฉ๋์ด์ผ ํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ regularization ๋จ๊ณ๋ depth ์ถ๋ก ์ ์ํ probability volume P ๋ฅผ ์์ฑํ๊ธฐ ์ํด ์์ cost volume C ๋ฅผ refine ํ๊ธฐ ์ํด ์ค๊ณ๋์์ต๋๋ค. ์ต๊ทผ ์ฐ๊ตฌ์์ ์๊ฐ์ ๋ฐ์ cost volume regularization์ multi-scale 3D CNN์ ์ ์ฉํฉ๋๋ค. ์ฌ๊ธฐ์ 4-scale ๋คํธ์ํฌ๋ encoder-decoder ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋น๊ต์ ๋ฎ์ ๋ฉ๋ชจ๋ฆฌ ๋ฐ ๊ณ์ฐ๋์ผ๋ก ํฐ receptive field ์์ neighboring information์ ์ง๊ณํ๋ 3D version UNet๊ณผ ์ ์ฌํฉ๋๋ค. ๋ง์ง๋ง์ probability normalization์ ์ํด depth ์ถ์ผ๋ก softmax ์ฐ์ฐ์ ์ ์ฉํฉ๋๋ค.
๊ฒฐ๊ณผ probability volume์ ํฝ์ ๋น depth ์ถ์ ๋ฟ๋ง ์๋๋ผ ์ถ์ ์ ๋ขฐ๋ ์ธก์ ์๋ ์ฌ์ฉํ ์ ์๋ค๋ ์ ์์ depth map ์ถ๋ก ์ ์ ์ ํฉ๋๋ค. ์ด ํ ๋ด์ฉ์์ probability distribution์ ๋ถ์ํ์ฌ depth reconstruction ํ์ง์ ์ฝ๊ฒ ๊ฒฐ์ ํ ์ ์๊ณ ๊ฐ๊ฒฐํ์ง๋ง ํจ๊ณผ์ ์ธ outlier filtering ์ผ๋ก ์ด์ด์ง๋๋ค.
3. Depth Map
Initial Estimation
Probability volume P์์ depth map D๋ฅผ ๋ง๋๋ ๊ฐ์ฅ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ ํฝ์ ๋จ์ argmax ์ ๋๋ค. ํ์ง๋ง, argmax ์ฐ์ฐ์ ํ์ ํฝ์ ์ถ์ ์ ํ ์ ์์ผ๋ฉฐ ๋ฏธ๋ถํ ์ ์๊ธฐ ๋๋ฌธ์ backpropagation์ผ๋ก ํ์ตํ ์ ์์ต๋๋ค. ๋์ , depth ์ถ์ ๋ฐ๋ผ expectation, ์ฆ ๋ชจ๋ hypotheses์ ๋ํ probability weighted sum์ ๊ณ์ฐํฉ๋๋ค.
์ฌ๊ธฐ์ P(d)๋ ๊น์ด d์ ๋ํ ๋ชจ๋ ํฝ์ ์ ๋ํ ํ๋ฅ ์ถ์ ์ผ๋ก ์ ์์ soft argmin์ ํด๋นํฉ๋๋ค. ์ด๋ ๋ฏธ๋ถ๊ฐ๋ฅํ๊ณ argmax ๊ฒฐ๊ณผ๋ฅผ ๊ทผ์ฌํ ์ ์์ต๋๋ค. Depth hypotheses ๋ cost volume ๊ตฌ์ฑ ์ค ๋ฒ์ [dmin, dmax] ๋ด์์ ๊ท ์ผํ๊ฒ ์ํ๋ง๋์ง๋ง ์ฌ๊ธฐ์ expectation ๊ฐ์ continuous ํ depth ์ถ์ ์ ํ ์ ์์ต๋๋ค.
* Fig.2 (c)์ ๊ฐ๋ก์ถ์ด depth hypotheses index, y์ถ์ probability, ๋นจ๊ฐ์ ์ soft argmin ๊ฒฐ๊ณผ์ ๋๋ค.
Probability Map
Multi-scale 3D CNN์ probabiltiy๋ฅผ single-modal๋ก ์ ๊ทํํ๋ ๊ฐ๋ ฅํ ๊ธฐ๋ฅ์ ๊ฐ์ก์ง๋ง, ์๋ชป ์ผ์นํ๋ ํฝ์ ์ ๊ฒฝ์ฐ ํ๋ฅ ๋ถํฌ๊ฐ ํฉ์ด์ ธ ์๊ณ ํ๋์ peak์ ์ง์คํ ์ ์์ต๋๋ค(์ ๊ทธ๋ฆผ์ (c)). ์ด๋ฌํ ๊ด์ ์ ๊ธฐ์ดํ์ฌ depth ์ถ์ ์ ํ์ง d_hat ์ ground truth depth๊ฐ ์ถ์ ์น ๊ทผ์ฒ์ ์์ ๋ฒ์ ๋ด์ ์์ ํ๋ฅ ๋ก ์ ์ํฉ๋๋ค. Depth hypotheses๋ ์นด๋ฉ๋ผ frustum์ ๋ฐ๋ผ ์ด์ฐ์ ์ผ๋ก ์ํ๋ง๋๋ฏ๋ก ์ถ์ ํ์ง์ ์ธก์ ํ๊ธฐ ์ํด ๊ฐ์ฅ ๊ฐ๊น์ด 4๊ฐ์ depth hypotheses์ ๋ํ probability sum์ ์ทจํฉ๋๋ค. ์ด๋ฌํ probability sum ๋ฐฉ๋ฒ์ outlier filtering์ ๋์ฑ ์ ์ํํฉ๋๋ค.
Depth Map Refinement
Probability volume์์ retrieve ๋ depth map์ ์ ๊ทํ๋ ์ถ๋ ฅ์ด์ง๋ง, ํฐ receptive field๋ก ์ธํด reconstruction ๊ฒฝ๊ณ๊ฐ ๊ณผ๋ํ๊ฒ oversmoothing ๋ ์ ์์ต๋๋ค. Reference ์ด๋ฏธ์ง์๋ boundary ์ ๋ณด๊ฐ ํฌํจ๋์ด ์์ผ๋ฏ๋ก reference ์ด๋ฏธ์ง๋ฅผ depth map์ ๊ฐ์ ํ๊ธฐ ์ํ ๊ฐ์ด๋๋ก ์ฌ์ฉํฉ๋๋ค. ์ต๊ทผ์ image matting ์๊ณ ๋ฆฌ์ฆ์์ ์๊ฐ์ ๋ฐ์ MVSNet์ ๋์ depth residual learning network๋ฅผ ์ ์ฉํฉ๋๋ค. Initial depth map๊ณผ ํฌ๊ธฐ๊ฐ ์กฐ์ ๋ reference ์ด๋ฏธ์ง๋ 4-channel ์ ๋ ฅ์ผ๋ก concat ๋๊ณ 32-channel 2D convolutional layer์ 1-channel convolutional layer ํ๋๋ฅผ ๊ฑฐ์ณ depth residual์ ํ์ตํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ initial depth map์ ๋ค์ ์ถ๊ฐํ์ฌ refine๋ depth map์ ์์ฑํฉ๋๋ค. ๋ํ, ํน์ depth scale ์์ ํธํฅ๋๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด ์ด๊ธฐ depth ํฌ๊ธฐ๋ฅผ [0,1] ๋ฒ์๋ก ์ฌ์ ์ค์ผ์ผ๋งํ๊ณ refine ํ์ ๋ค์ ๋ณํํฉ๋๋ค.
4. Loss
Initial depth map๊ณผ refine ๋ depth map ๋ชจ๋์ ๋ํ loss๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.
Depth Map Fusion
๋ค๋ฅธ multi-view stereo ๋ฐฉ๋ฒ๊ณผ ์ ์ฌํ๊ฒ depth map fusion ๋จ๊ณ๋ฅผ ์ ์ฉํ์ฌ ์๋ก ๋ค๋ฅธ view์ depth map์ ํตํฉํ์ฌ ํตํฉ๋ point cloud๋ฅผ ์์ฑํฉ๋๋ค. Visibility-based ์๊ณ ๋ฆฌ์ฆ์ ๋ค์ํ viewpoint์์ depth occlusion ๋ฐ violation์ ์ต์ํํฉ๋๋ค. Reconstruction ๋ ธ์ด์ฆ๋ฅผ ์ต์ํํ๊ธฐ ์ํด ํํฐ๋ง ๋จ๊ณ์์์ ๊ฐ์ด ๊ฐ ํฝ์ ์ ๋ํ visible view๋ฅผ ๊ฒฐ์ ํ๊ณ ํฝ์ ์ ์ต์ข ๊น์ด ์ถ์ ์ผ๋ก ๋ชจ๋ reprojected depths์ ๋ํ ํ๊ท ์ ์ทจํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ fusion๋ depth map์ space์ ์ง์ reprojectionํ์ฌ 3D point cloud๋ฅผ ์์ฑํฉ๋๋ค.
Experiments