Non-local network ์ ๋ฆฌ...
CNN ์ ์์ layer์์๋ spatial domain์์์ localํ ์์ญ์ correlation์, ๊น์ layer์์๋ ์๋์ ์ผ๋ก globalํ ์์ญ๊น์ง์ correlation์ ์ถ์ถํ๋ local operator ๋ก ๋ณผ ์ ์์ต๋๋ค. ๋ํ layer๊ฐ ๊น์ด์ง๋๋ผ๋ ํ๋ฒ์ ์ฐ์ฐ์์ ์ ์ฒด ์์ญ์ correlation์ ์ถ์ถํ๋ non-local ์ฐ์ฐ๊ณผ๋ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ๋๋ฌธ์ CNN์ spatial domain ๋๋ temporal domain ์์์ ๊ฑฐ๋ฆฌ๊ฐ ๋จผ feature ๋ค๊ฐ์ correlation์ด ์ถ์ถ๋๊ธฐ ํ๋ ๊ตฌ์กฐ์ ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํ Non-local operation์ ์ ์ํฉ๋๋ค.
์๋ ๊ทธ๋ฆผ์ non-local block ์ด ํ์ต๋์์ ๋, ๊ฐ์ฅ ํฐ weighted arrow ๋ฅผ ์๊ฐํํ ๊ทธ๋ฆผ์ ๋๋ค. ํน์ object๊ฐ ๋ค๋ฅธ object์ correlation์ด ์๋ค๋ฉด spatial, temporal ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ๋๋ผ๋ ํฌ๊ฒ activate ๋๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
Motivation
์ด๋ฏธ์ง ๋ ธ์ด์ฆ ์ ๊ฑฐ filter์ธ Non-local Means Filter(NLM filter)์์ ์๊ฐ์ ์ป์ด ํ ์ง์ ๊ณผ ๋ค๋ฅธ ๋ชจ๋ ์ง์ ๊ณผ์ ๊ด๊ณ๋ฅผ ๊ณ์ฐํ๊ณ ์ ํฉ๋๋ค. ์๋ ์์์ yi๋ ํน์ i๋ฒ์งธ feature(feature map์์ ํน์ spatial point)์์ ๋ค๋ฅธ ์์น์ feature(j) ์์ similarity๋ฅผ ๊ณ์ฐ ํ embedding๋ j๋ฒ์งธ feature์ ๊ฐ์ ๊ณฑํ๊ณ , ์ด ์ฐ์ฐ์ ๋ชจ๋ ์์ญ์์ ์ํํ ๊ฒฐ๊ณผ์ ํฉ ์ ๋๋ค.
- f(xi, xj) : xi์ xj ์ similarity ๋ฅผ ๊ณ์ฐํ๋ ํจ์์ด๋ฉฐ, ๋ณธ ๋ ผ๋ฌธ์์๋ 4๊ฐ์ง์ ๋ฐฉ์์ ์ ์ํ๋๋ฐ ์ด๋ค ๋ฐฉ์์ ์จ๋ ์ฑ๋ฅ ํฅ์์ ๋น์ทํ๊ธฐ ๋๋ฌธ์ similarity๋ฅผ ๊ณ์ฐํ๋ ์์ฒด๊ฐ non-local ์ฐ์ฐ์์ ์ค์ํ ์ ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
- g(xj) : j ๋ฒ์งธ ์์น์ feature์ weight๋ฅผ ๊ณฑํด์ embeddingํ๋ ํจ์์ด๋ฉฐ, ๋จ์ํ ํน์ ์์น์ feature๋ฅผ ๊ฐ์ ธ์ค๋ ๋์ weight๋ฅผ ๊ณฑํด์ฃผ์ด ์๋ฏธ์๋ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ค ํฉ๋๋ค. ๊ณฑํด์ง๋ ํจ์ f๋ฅผ weight๋ก ์๊ฐํ๋ฉด i, j ๊ฐ์ similarity ๊ฐ ๋์ ๋ g(xj)๊ฐ ๋ ํฌ๊ฒ activate ๋ฉ๋๋ค.
- 1/C(x) : normalize term
๊ฒฐ๊ตญ ์ด๋ฌํ non-local ์ฐ์ฐ์ ์๋ฏธ๋ ์ด๋ค A์์ญ์ feature์ ์ด๋ฏธ์ง ์ ์ฒด ์์ญ(spatial, temporal)์ ๋ํ feature๋ค๊ณผ์ ๊ด๊ณ(similarity, correlation)์ ๊ณ์ฐํ๊ณ ๊ทธ ๊ด๊ณ์ฑ์ด ํด์๋ก(๊ด๊ณ์ฑ์ด ํฐ ์์ญ์ด B๋ผ๋ฉด), B์์ญ์ embedding๋ feature์ ๊ฐ์ ๋ ํฌ๊ฒ activate ์ํค๋ ๊ฒ์ด๋ผ ์๊ฐํฉ๋๋ค.
๋๋ฌธ์, single ์ด๋ฏธ์ง์์ (task์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ์ง๋ง classifaction ์ด๋ผ๋ฉด) ์ด๋ค 2๊ฐ ์ด์์ object ๋ค์ด ํจ๊ป ์กด์ฌํ๋ ๊ฒ์ด ์ด๋ฏธ์ง ๋ถ๋ฅ์ ๋์์ ์ค๋ค๋ฉด, ๊ณต๊ฐ์ ์ผ๋ก ๊ฐ๊น์ด ์์ง ์์๋ CNN์ ์ด๋ค์ ๊ด๊ณ๋ฅผ ์ง์ ์ ์ผ๋ก ์ถ์ถํ๊ธฐ ํ๋ค์ง๋ง, non-local ์ฐ์ฐ์ ์ด๋ค์ ๊ด๊ณ๋ฅผ ํ์ตํ ์ ์์ต๋๋ค. ๋ํ video ์ด๋ฏธ์ง๋ค์์๋ spatial, temporal ์ถ์์ ๋ชจ๋ non-localํ ๊ด๊ณ๋ฅผ ํ์ตํ ์ ์์ต๋๋ค.
Implementation
์ด๋ฌํ non-local ์ฐ์ฐ์ pixel-wise ๋ก ์คํํ๋ ๊ฒ์ ๋๋ฌด ๋ญ๋น์ ์ด๊ธฐ ๋๋ฌธ์, ์๋์ ๊ฐ์ ๋ฐฉ์์ผ๋ก feature ๋จ์์์ ์ํํฉ๋๋ค.
feature x(HW*1024)๋ฅผ transposeํด์(1024*HW) ์๋ก matrix multiplication ์ฐ์ฐ(f(xi,xj))์ ํตํด similarity ์ ๊ณ์ฐํฉ๋๋ค(HW*HW). ๋ค์ feature x๋ฅผ 1x1 conv(g(xj))๋ฅผ ํต๊ณผ์์ผ embedding ์์ผ์ฃผ๊ณ (HW*512), ์ด๋ฅผ ์์ ์ฐ์ฐ์์ ์ถ๋ ฅํ similarity map(HW*HW)๊ณผ matrix mul. ๋ฅผ ์ํํด์ non-local ์ฐ์ฐ์ด ๋๋ฉ๋๋ค.