๋ณธ ๋ ผ๋ฌธ์ ECCV2016์ ๊ฒ์ฌ๋ ๋ ผ๋ฌธ์ผ๋ก 4D light-field dataset์ ์ฒ์์ผ๋ก ์ฌ์ง ์ธ์์ ์ฌ์ฉํ ์ฐ๊ตฌ ์ ๋๋ค.
Light field?
light field ๋ ๋น์ ์๊ณต๊ฐ field์์ ํํํ๊ธฐ ์ํ plenoptic function์ผ๋ก ์ ์ํ ์ ์๋๋ฐ, ์ด์ค์์ ๋น์ ๋ฐฉํฅ(๊ฐ๋ก ๊ฐ๋, ์ธ๋ก๊ฐ๋), ๋น์ 2์ฐจ์ ์์น(x,y) 4๊ฐ์ ํ๋ผ๋ฏธํฐ๋ง์ ์ฌ์ฉํ์ฌ 4D light-field๋ผ๊ณ ํฉ๋๋ค. Lytro Illum ๋ฑ์ 4D light-field ์นด๋ฉ๋ผ๋ micro lens array๋ฅผ main lens์ photo sensor ์ฌ์ด์ ์์น์์ผ ์ค๋ธ์ ํธ ํ ์ง์ ์์ ์ฌ๋ฌ ๋ฐฉํฅ์ผ๋ก ๋ฐฉ์ฌ๋์ด main lenz๋ฅผ ํต๊ณผํ๋ ๋น์ micro lens๋ก ๋ถ๋ฆฌ์์ผ ๋ฐ๋ก ์ ์ฅ์ํฌ ์ ์์ต๋๋ค. ์ด๋ base-line์ด ๊ต์ฅํ ์งง์ multi-view ์นด๋ฉ๋ผ์ ์ ์ฌํ๊ฒ ๋ณผ ์๋ ์๊ธฐ ๋๋ฌธ์ multi-view ์นด๋ฉ๋ผ๋ก ํ ์ ์์๋ depth estimation, 3D reconsturction, refocusing ๋ฑ์ task์ 4D light-field ์นด๋ฉ๋ผ๋ฅผ ํ์ฉํ ์ฐ๊ตฌ๊ฐ ๋ง์ด ์๊ฐ๋์ด ์์ต๋๋ค.
4D ligth field ์ด๋ฏธ์ง๋ spatial domain ๊ณผ angular domain์ด ์กด์ฌํ๋๋ฐ, ๊ธ๋ก ์ฝ์ผ๋ฉด ๋ง์ด ํท๊ฐ๋ฆฌ๋ ๋ถ๋ถ์ ๋๋ค. spatial domain์ ์ด๋ฏธ์ง์์ 2์ฐจ์ ๊ณต๊ฐ ์ขํ๊ณ๋ฅผ ๋ปํ๊ณ , angular domain์ object ํ ํฌ์ธํธ๋ฅผ ๋ณด๊ณ ์์ง๋ง ์กฐ๊ธ์ฉ ์๋ก ๋ค๋ฅธ ๊ฐ๋์์ ๋ณธ ์ขํ๊ณ๋ฅผ ๋ปํฉ๋๋ค. ์ผ๋ฐ ์นด๋ฉ๋ผ์ ํด์๋๊ฐ 100x100 ์ด๋ผ๊ณ ํ ๋ ์ด๋ spatial domain์ด๊ณ , light field์์ spatial domain์ด 100x100, angular domain์ด 7x7 ์ด๋ฉด ์ด 700x700 ์ raw data ์ด๋ฏธ์ง๋ฅผ ์ป์ ์ ์๊ณ ์ฌ๊ธฐ์ angular domain(7*7) ๋งํผ์ ์๋ก ๋ค๋ฅธ ๊ฐ๋์์ ์ ์ฌ๋ ๋น์ ์ ์ฅํ๊ณ ์๋ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. task์ ๋ฐ๋ผ raw data(700x700)๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ๊ธฐ๋ ํ๊ณ ํ์ฒ๋ฆฌ ๊ณผ์ ์ ๊ฑฐ์ณ 100x100 ์ด๋ฏธ์ง๋ฅผ 7x7(49)๊ฐ ๋ก ๋ถ๋ฆฌ ์์ผ ์ฌ์ฉํ ์๋ ์์ต๋๋ค.
Introduction
๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฌํ 4D light field ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ง์ธ์์ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ๋์ด๊ณ ์ ํ์ต๋๋ค. light field ์นด๋ฉ๋ผ๋ baseline์ด ์งง์ multi-view ์นด๋ฉ๋ก ๋ณผ ์ ์๊ธฐ ๋๋ฌธ์, light filed ์ด๋ฏธ์ง์์ surface์ partialํ reflectance๋ฅผ ์ถ์ถํ ์ ์์ต๋๋ค.reflectance๋ ์ฌ์ง์ ์ข ๋ฅ์ ํ๋ฉด์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ ์ด๋์ ๋ ๊ณ ์ ํ ์์ฑ์ด๊ธฐ ๋๋ฌธ์ ์ฌ์ง ๋ถ๋ฅ์ ํ์ฉํ ์ ์์ต๋๋ค. (๋ฌผ๋ก ๋์ผ ์ฌ์ง์ผ์ง๋ผ๋ ํ๋ฉด์ roughness๋ฑ์ ๋ฐ๋ผ reflectance๋ ๋ง์ด ๋ฌ๋ผ์ง ์ ์์ง๋ง, ์ผ๋ฐ์ ์ธ ๊ฒฝ์ฐ ์ฌ์ง ๋ถ๋ฅ์ ์๋นํ ๋์์ ์ฃผ๋ feature์ ๋๋ค.)
๋ณธ ์ฐ๊ตฌ์์๋ 12๊ฐ์ ์ฌ์ง class, class๋ณ 100๊ฐ์ ์ด๋ฏธ์ง๋ก ์ด๋ฃจ์ด์ง dataset์ ์ ๊ณตํฉ๋๋ค. ๋ dataset์ผ๋ก patch-wise classification์ ์ํํ์ฌ patch model์ trainํ๊ณ FCN model์ fransferํ์ฌ semantic segmentation๊น์ง ์ํํฉ๋๋ค. ๋ํ 4D light field data๋ฅผ ์ธ์ฝ๋ฉํ๊ธฐ ์ํ ๋ช๊ฐ์ง CNN ๊ตฌ์กฐ๋ฅผ ์๊ฐํฉ๋๋ค. 2D ์ด๋ฏธ์ง์ ๋นํด 4D ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์ง ๋ถ๋ฅ ์ฑ๋ฅ์ 6-7% ๊ฐ๋ ๋์ด๋ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํฉ๋๋ค.
Light-field material dataset
dataset์ spatial resolution์ 376x541์ด๋ฉฐ angular resolution์ 14x14์ด์ง๋ง(์นด๋ฉ๋ผ ์ฑ๋ฅ) 7x7๊น์ง ์ ๊ณตํฉ๋๋ค. (light field ์นด๋ฉ๋ผ์ ํน์ฑ์ ๋์ชฝ angle๋ก ๊ฐ์๋ก ์กฐ๋๊ฐ ๋ง์ด ๋จ์ด์ง๋๋ค.)
ํฅ๋ฏธ๋ก์ด ์ ์ ๋ค๋ฅธ ์ฌ์ง dataset๊ณผ ๋ค๋ฅด๊ฒ light-field๋ง์ด ์ ๊ตฌ๋ณํ ์ ์๋ ํผ๋๋๋ class๋ฅผ ํฌํจํฉ๋๋ค. ์ ๊ทธ๋ฆผ์์ paper, sky 2D ์ด๋ฏธ์ง๋ ์ฌ๋์ด ๋ด๋ ๊ตฌ๋ณํ๊ธฐ ํ๋ค์ง๋ง light field ์ด๋ฏธ์ง๋ก๋ paper๋ ์นด๋ฉ๋ผ์์ ๊ฐ๊น์ด ๊ฑฐ๋ฆฌ์ ์๊ธฐ ๋๋ฌธ์ micro lens๋ก ์ธํด ๊ฒฉ์๋ฌด๋ฌ๊ฐ ๋ฐ์ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ค์ fabric๊ณผ fabric์ ์ดฌ์ ํ ์ธ์ํ paper ๋ํ color์ texture๋ ์ ์ฌํ์ง๋ง reflectance ์ฐจ์ด๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋คํธ์ํฌ๊ฐ ๊ตฌ๋ณ๊ฐ๋ฅํ๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค.
CNN architecture for 4D light-fields
1) View pool
๊ฐ view ๋ณ feature๋ฅผ ๊ฐ๊ฐ encoding ํ max pooling
view๋ณ ๊ฐ์ฅ ๊ฐํ๊ฒ ๊ด์ธก๋๋ feature๋ค๋ง ๋ชจ์์ ๋ถ๋ฅํ๊ณ ์ ํ๋ ๋ฐฉ๋ฒ์ธ ๊ฒ ๊ฐ๊ณ reflectance๋ฅผ ์ธ์ฝ๋ฉํ๊ธฐ๋ ์ด๋ ค์ด ๊ตฌ์กฐ์ ๋๋ค.
์ฌ์ค baseline์ด ๊ต์ฅํ ์งง๊ธฐ ๋๋ฌธ์ view๋ณ feature์ ์ฐจ์ด๊ฐ ๊ทธ๋ ๊ฒ ํฌ์ง ์์ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์ข์ ๋ฐฉ๋ฒ์ด ์๋ ๊ฒ์ ๋๋ค. (ํฐ ๊ฐ๋ ์ฐจ์ด๋ object์ ๋ค๋ฅธ ๋ถ๋ถ์ ๋ณผ๋๋ ๋์์ด ๋ ์ ์๋ ๋ฐฉ๋ฒ์ธ ๊ฒ ๊ฐ์ต๋๋ค.)
2) stack
๋ชจ๋ view์์ ์ถ์ถ๋ feature๋ฅผ ๋ค ์์ ๋ค์ ๋ค์ convolution filter์ ํต๊ณผ์์ผ view๋ณ correlation์ ๋ด ๋๋ค.
๊ฐ์ฅ ๋ฌด์ํ๊ฒ view๋ณ correlation์ ์ธ์ฝ๋ฉํ๊ธฐ ์ข์ ๋ฐฉ๋ฒ์ด์ง๋ง, ๋ชจ๋ view๋ฅผ ์คํํ๊ธฐ ๋๋ฌธ์ conv filter parameter ์๊ฐ ์๋นํ ๋ง์ด ์ฆ๊ฐํ ๊ฒ ๊ฐ์ต๋๋ค.
3) EPI
Multi-view์์ ๋ง์ด ์ฌ์ฉํ๋ EPI ๋ฐฉ์์ผ๋ก conv๋ฅผ ์ํํฉ๋๋ค. (์ฑ๋ฅ์ด stack ๋ณด๋ค ์ข์ง ์์ ์ ์ฌํ ๋ณด์ง ์์)
4) Angular filter
raw data ์ด๋ฏธ์ง์์ angular resolution์ ํด๋นํ๋ 7*7 ์ฌ์ด์ฆ๋ก ๋จผ์ conv(stride 7)๋ฅผ ์ํํ์ฌ ํ๋์ pixel์์ view๋ณ correlation์ ๋ณด๊ณ spatial domain์์ correlation์ ๋ณด๊ณ ์ ํฉ๋๋ค.
5) 4D filter
interleaved filter๋ผ ๋ถ๋ฅด๋๋ฐ, spatial domain correlation๋ง์ ๋ณด๋ spatial filter์ angular domain correlation ๋ง์ ๋ณด๋ angular filter๋ฅผ ๋ฒ๊ฐ์ ๊ฐ๋ฉฐ ์ฌ์ฉํด์ spatial, angular domain ์์ ๋์์ ์ ์ง์ ์ผ๋ก feature๋ฅผ low-level ์์ high-level๋ก ์ธ์ฝ๋ฉํฉ๋๋ค.
๊ฒฐ๊ณผ๋ angular domain correlation ์ ๋ณด๋ 2๊ฐ์ ๋ฐฉ๋ฒ์ด ๊ฐ์ฅ ํจ๊ณผ์ ์ธ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
Full scene material segmentation
FCN์ fine-tuningํ์ฌ ์์ ๊ฐ์ด segmentation๊น์ง ์ํํฉ๋๋ค.
My Conclusion
light field data๋ก surface๋ฅผ ๊ด์ธกํ๋ ์์ ๊ฐ๋ ์ฐจ์ด์์ ๊ด์ธก ๊ฐ๋ฅํ reflectance๊ฐ ์ฌ์ง ๋ถ๋ฅ์ ๋์์ ์ค ์ ์๋ค๋ ์ฌ์ค๊ณผ ํจ๊ป ligth field material recognition dataset์ ์ ๊ณตํ ๋ ผ๋ฌธ์ ๋๋ค.
21๋ ๊ฐ์ ๊ธฐ์ค์ผ๋ก ๋ณธ ๋ ผ๋ฌธ์ ๋ถ๋ฅ ์ฑ๋ฅ์ ๋ํ ๋ ผ๋ฌธ์ด 2๊ฐ ์ ๋ ๋ ๊ฒ์ฌ๋์ด ์์ต๋๋ค.