ICLR 2017 ์ ๋ฐํ๋ ๋ ผ๋ฌธ์ผ๋ก ์ ๋ชฉ ๊ทธ๋๋ก end-to-end ๋ฐฉ์์ผ๋ก ์ด๋ฏธ์ง ์์ถ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ต์ ํํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ ๋ ผ๋ฌธ์ ๋๋ค.
์ด ๋ถ์ผ์ ๋ํ ์ง์์ด ๊ทธ๋ ๊ฒ ๋ง์ง ์์์ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ๊ฐ ํ์ (?)ํ ์ ์์ต๋๋ค... ใ
- ๊ธฐ๋ณธ์ ์ธ ์์ ์์ถ ์ค๋ช : https://mvje.tistory.com/86?category=1033082
Abstract
Nonlinear analysis transformation, uniform quantizer, nonlinear synthesis transformation ์ผ๋ก ๊ตฌ์ฑ๋ ์ด๋ฏธ์ง ์์ถ ๋ฐฉ๋ฒ์ ์ค๋ช ํฉ๋๋ค. ๋ณํ์ convolutional linear filter์ nonlinear activation function์ ํ ๋จ๊ณ๋ก ๊ตฌ์ฑํ์ฌ ์ฐ์๋ 3๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. Stochastic gradient descent ์ ๋ณํ์ ํตํด ํ์ต ์ด๋ฏธ์ง์์ rate-distortion ์ฑ๋ฅ์ ์ํด ์ ์ฒด ๋ชจ๋ธ์ jointly ํ๊ฒ optimize ํ์ฌ quantizer์์ ๋ฐ์ํ๋ ๋ถ์ฐ์ loss function์ ๋ํ continuous proxy๋ฅผ ๋์ ํฉ๋๋ค. ํน์ ์กฐ๊ฑด์์ ์ํ๋ loss function์ VAE(Variational AutoEncoder)์ ์ํด ๊ตฌํ๋ generative model์ log likelihood๋ก ํด์๋ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ ์์ถ ๋ชจ๋ธ์ trade-off ํ๋ผ๋ฏธํฐ์ ์ํด ์ง์ ๋ ๋๋ก rate-distortion ๊ณก์ ์ ๋ฐ๋ผ ์ฃผ์ด์ง ์ง์ ์์ ์๋ํด์ผ ํฉ๋๋ค. ํ ์คํธ ์ด๋ฏธ์ง์์ ์ต์ ํ๋ ๋ฐฉ๋ฒ์ด ํ์ค JPEG ๋ฐ JPEG2000 ์์ถ ๋ฐฉ๋ฒ๋ณด๋ค ๋ ๋์ rate-distortion ์ฑ๋ฅ์ด ๋์ต๋๋ค. ๋ํ MS-SSIM์ ์ฌ์ฉํ์ฌ ๊ฐ๊ด์ ์ธ ํ์ง ํ๊ฐ๋ฅผ ํตํด ์ง์๋๋ ๋ชจ๋ bit rate์์ ๋ชจ๋ ์ด๋ฏธ์ง์ ๋ํ ์๊ฐ์ ํ์ง์ ๊ทน์ ์ผ๋ก ๊ฐ์ ํ์ต๋๋ค.
Proposed Method
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ์ด๋ฏธ์ง ์์ถ ๊ตฌ์กฐ๋ ๊ธฐ๋ณธ์ ์ธ JPEG ์์ถ ์๊ณ ๋ฆฌ์ฆ(Transform → Quantization → Entropy Coding → Decoding → Inverse Transform)์ ํํ๋ฅผ ๊ฐ์ง๋๋ค.
์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ ๋ฅ๋ฌ๋์ ์ ์ฉํ๊ธฐ ์ํด ๊ธฐ์กด์๋ DCT๋ฅผ ์ฐ๋ Transform ๊ณผ์ ์ Neural Network๋ก ๋์ฒดํฉ๋๋ค. Quantization ์ฐ์ฐ์ continuous ํ ์ ํธ๋ฅผ discreteํ๊ฒ ๋ฐ๊ฟ์ฃผ๋ ์ฐ์ฐ์ด๊ธฐ ๋๋ฌธ์ ๋ฏธ๋ถ์ด ๋ถ๊ฐ๋ฅํด์ backpropagation์ด ๋ถ๊ฐ๋ฅํฉ๋๋ค. ๊ทธ๋์ ๋ณธ ๋ ผ๋ฌธ์์๋ quantization์ approximation ํ์ฌ ์ฌ์ฉํฉ๋๋ค. Inverse Transform ๊ณผ์ ์ Neural Network์ธ Transform ๊ณผ์ ์ ์์ ํ ์ญํจ์๋ ์๋์ง๋ง, ์ต์ข loss๋ฅผ mse๋ก ๊ณ์ฐํ์ฌ ๋คํธ์ํฌ๋ฅผ ์ ๋ฐ์ดํธํ๊ธฐ ๋๋ฌธ์ ์ญํจ์์ ํํ๋ฅผ ๋๋๋ก ํ์ต๋ ๊ฒ ์ ๋๋ค.
- x : image
- ga : Analysis transform (Encoding transform)
- gs : Synthesis transform (Decoding transform)
Architecture
์ ์ํ ๊ตฌ์กฐ๋ ํฌ๊ฒ Analysis(Encoding), Synthesis(Decoding)์ผ๋ก ๋๋๊ณ , ๊ฐ ๊ตฌ์กฐ๋ (Convolutional Filter + Pooling + activation function)*3์ผ๋ก ์ด๋ฃจ์ด์ง๋๋ค. ํน์ดํ ์ ์ activation function์ Generalized Divisive Normalization(GDN) ์ด๋ผ๋ ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค. Batch norm ๊ณผ ์ ์ฌํ๊ฒ ๋ฒ ํ์ ๊ฐ๋ง๋ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ์ด๊ณ , ์ด๋ฌํ task์์ ReLU ๋์ GDN์ ์ฌ์ฉํ๋ ๊ฒ์ด ํจ๊ณผ์ ์ด๋ผ๊ณ ํฉ๋๋ค.
(Conv+pooling+GDN) ์ ์ด 3๋ฒ ๋ฐ๋ณตํ๋๋ฐ ์ด๋ downsampling์ด 4*2*2 ๋งํผ ์ฆ, 16x16 ํจ์น ํ๋๋ฅผ ํ๋์ ๊ฐ์ผ๋ก ์์ถํ๋ ๊ฒ์ ๋๋ค. ์ด๋ 8x8 ์ ํ๋์ block์ผ๋ก ์ทจ๊ธํ๋ JPEG ๋ณด๋ค ๋ ํฐ ์์ถ๋ฅ ์ ๊ฐ์ง ๊ฒ์ด๋ผ๊ณ ์์ํ ์ ์์ต๋๋ค.
Loss Function
์ ๊ทธ๋ฆผ์์ R์ Quantization ์ดํ์ ์์ฑ๋ ๋นํธ์คํธ๋ฆผ์ ๊ธธ์ด๋ฅผ ์ต์ํ ์ํค๊ธฐ ์ํ loss์ด๊ณ D๋ ๋ณต์๋ ์ด๋ฏธ์ง์ ํ๋ฆฌํฐ๊ฐ ์๋ ์ด๋ฏธ์ง์ ํ๋ฆฌํฐ์ ์ ์ฌํ๋๋ก ํ๋ MSE loss์ ๋๋ค. ๋นํธ์คํธ๋ฆผ์ ๊ธธ์ด๋ฅผ ์ต์ํ์ํค๊ธฐ ์ํด์๋ ์ํธ๋กํผ๋ฅผ ์ต์ํํด์ผํ๋ฏ๋ก ์์ ๊ฐ์ loss ์์ ๊ฐ์ง๋๋ค.
Quantization Approximation
Quantization ๊ณผ์ ์ approximation ํ์ฌ ์ฌ์ฉํ๊ธฐ ์ํด ๋ฐ์ฌ๋ฆผ ์ฐ์ฐ์ด ์๋, y ๊ฐ์ ํน์ ํ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ ๋ฏธ๋ถ๊ฐ๋ฅํ๋๋ก ๋ณ๊ฒฝํฉ๋๋ค. ์ด๋ ์๋ ๋ฐ์ฌ๋ฆผ ์ฐ์ฐ์ด ํน์ ์ ์๊ฐ์ -1/2 ~ + 1/2 ์ฌ์ด์ ์๋ ๊ฐ์ ํน์ ์ ์๊ฐ์ผ๋ก ๋งคํ์ํค๋ ์ฐ์ฐ์ด๊ธฐ ๋๋ฌธ์, y ๊ฐ์ -1/2 ~ + 1/2 ์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํด์ฃผ๋ ๊ฒ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ quantization ๋ฐฉ๋ฒ(y hat)์ differential entropy์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ approximation ๋ฐฉ๋ฒ(y tilda)์ differential entropy ๋ฐฉ๋ฒ์ด ์์์ ์ผ๋ก ๋์ผํ๋ค๋ ๊ฒ์ ์ฆ๋ช ํฉ๋๋ค.
Experimental Results
Rate-distortion curve๋ ์์ชฝ์ผ๋ก ๊ฐ์๋ก ์ฑ๋ฅ์ด ์ข์ ๊ฒ์ด๊ณ ์ ์๋ ๋ฐฉ์์ด ๋ชจ๋ bit rate์์ JPEG๊ณผ JPEG2000์ ๋ฅ๊ฐํฉ๋๋ค.
์ค์ ๋ณต์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ์ ์๋ ๋ฐฉ๋ฒ์ ์ด๋ฏธ์ง๊ฐ ๋ ธ์ด์ฆ๊ฐ ๋ํ๊ณ ์กฐ๊ธ ๋ ํฝ์ ๋ค์ด ์ฐ์์ฑ์๊ฒ ๋ณด์ด๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
์ figure๋ 1ํ์ JPEG, 2ํ์ Proposed method, 3ํ์ JPEG200์ธ๋ฐ ์ค๋ฅธ์ชฝ์ผ๋ก ๊ฐ์๋ก ํ๋ฆฌํฐ๋ฅผ ์ค์ด๊ณ ์์ถ๋ฅ ์ ๋์ธ ์คํ๊ฒฐ๊ณผ์ ๋๋ค. ์์ถ๋ฅ ์ ๋์์ ๋ฐ๋ผ ํ๋ฆฌํฐ๊ฐ ์์ฃผ ๋ง์ด ๋จ์ด์ง๋ JPEG๊ณผ JPEG2000์ ๋นํด ์ ์๋ ๋ฐฉ๋ฒ์ ํ๋ฆฌํฐ๊ฐ ํฌ๊ฒ ์ ํด๋์ง ์๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
Discussion
์กฐ๊ธ ์๊ตฌ์ฌ์ด ๋๋ ๋ถ๋ถ์ ์๋ฌด๋๋ ๋ฅ๋ฌ๋ ๋ฐฉ๋ฒ ์์ฒด๊ฐ ํ์ต ๋ฐ์ดํฐ์ ์ ์ํฅ์ด ์๋นํ ํฌ๊ณ , ๋ ๋ฆฝ๋ Training data์ Test data๋ก ์คํํ๋๋ผ๋ ๋ data์ distribution์ด ํฌ์ง ์์ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ๋๋ฌธ์ ์์ ํ ๋ค๋ฅธ ๋ถํฌ์ ์ด๋ฏธ์ง๊ฐ ๋ค์ด์์ ๋๋ ์์ถ ์ฑ๋ฅ์ด ์ข์์ง? ๊ทธ๋ฆฌ๊ณ ์ ๋์ (PSNR, MS-SSIM)์ผ๋ก ํ๋ฆฌํฐ๊ฐ ์ข์ ์ด๋ฏธ์ง๊ฐ ์ค์ ๋ก ์๊ฐ์ ์ผ๋ก๋ ๋ฌด์กฐ๊ฑด ์ข์ ์ด๋ฏธ์ง ์ธ์ง?(๋ ผ๋ฌธ์์ ๊ธฐ์ฌํ ๊ฒฐ๊ณผ๋ฌผ๋ค์ด ์ฒด๋ฆฌํผํน์ธ์ง ์๋์ง) ๊ฐ ์กฐ๊ธ ๊ถ๊ธํฉ๋๋ค. ๋ฌผ๋ก 2017๋ ๋ ผ๋ฌธ์ด๋ผ ๋ ์ข์ ๋ฐฉ๋ฒ๋ค์ด ๋ง์ด ๋์์ ๊ฒ ๊ฐ์๋ฐ, ์์ง ์ฝ์ด๋ณด์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ... ์ถํ์ ๋ ์ฝ์ด๋ณผ ๊ธฐํ๊ฐ ์๊ธฐ๋ฉด ๊ธฐ๋กํ๋๋ก ํ๊ฒ ์ต๋๋ค.