ICLR 2017 ์ ๋ฐํ๋ ๋ ผ๋ฌธ์ผ๋ก ์ ๋ชฉ ๊ทธ๋๋ก end-to-end ๋ฐฉ์์ผ๋ก ์ด๋ฏธ์ง ์์ถ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ต์ ํํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ ๋ ผ๋ฌธ์ ๋๋ค.
์ด ๋ถ์ผ์ ๋ํ ์ง์์ด ๊ทธ๋ ๊ฒ ๋ง์ง ์์์ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ๊ฐ ํ์ (?)ํ ์ ์์ต๋๋ค... ใ
- ๊ธฐ๋ณธ์ ์ธ ์์ ์์ถ ์ค๋ช : https://mvje.tistory.com/86?category=1033082
์์ ์์ถ - JPEG, MPEG
์์ ์์ถ ๊ด๋ จ ๋ด์ฉ์ ๋ค์ ๊ณต๋ถํ ๊ธฐํ๊ฐ ์๊ฒจ์ ๊น๋จน๊ธฐ ์ ์ ์ ๋ฆฌํฉ๋๋ค! ๋ฏธ๋์ด ๋ฐ์ดํฐ๋ ๊ธฐํ๊ธ์์ ์ผ๋ก ๋ง์์ง๊ณ ์ด๋ฅผ ์ ์ฅํ ๊ณต๊ฐ์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๊ณ๊ฐ ์๊ธฐ ๋๋ฌธ์ ์์ ์์ถ์ ์ค์ํ
mvje.tistory.com
Abstract
Nonlinear analysis transformation, uniform quantizer, nonlinear synthesis transformation ์ผ๋ก ๊ตฌ์ฑ๋ ์ด๋ฏธ์ง ์์ถ ๋ฐฉ๋ฒ์ ์ค๋ช ํฉ๋๋ค. ๋ณํ์ convolutional linear filter์ nonlinear activation function์ ํ ๋จ๊ณ๋ก ๊ตฌ์ฑํ์ฌ ์ฐ์๋ 3๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. Stochastic gradient descent ์ ๋ณํ์ ํตํด ํ์ต ์ด๋ฏธ์ง์์ rate-distortion ์ฑ๋ฅ์ ์ํด ์ ์ฒด ๋ชจ๋ธ์ jointly ํ๊ฒ optimize ํ์ฌ quantizer์์ ๋ฐ์ํ๋ ๋ถ์ฐ์ loss function์ ๋ํ continuous proxy๋ฅผ ๋์ ํฉ๋๋ค. ํน์ ์กฐ๊ฑด์์ ์ํ๋ loss function์ VAE(Variational AutoEncoder)์ ์ํด ๊ตฌํ๋ generative model์ log likelihood๋ก ํด์๋ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ ์์ถ ๋ชจ๋ธ์ trade-off ํ๋ผ๋ฏธํฐ์ ์ํด ์ง์ ๋ ๋๋ก rate-distortion ๊ณก์ ์ ๋ฐ๋ผ ์ฃผ์ด์ง ์ง์ ์์ ์๋ํด์ผ ํฉ๋๋ค. ํ ์คํธ ์ด๋ฏธ์ง์์ ์ต์ ํ๋ ๋ฐฉ๋ฒ์ด ํ์ค JPEG ๋ฐ JPEG2000 ์์ถ ๋ฐฉ๋ฒ๋ณด๋ค ๋ ๋์ rate-distortion ์ฑ๋ฅ์ด ๋์ต๋๋ค. ๋ํ MS-SSIM์ ์ฌ์ฉํ์ฌ ๊ฐ๊ด์ ์ธ ํ์ง ํ๊ฐ๋ฅผ ํตํด ์ง์๋๋ ๋ชจ๋ bit rate์์ ๋ชจ๋ ์ด๋ฏธ์ง์ ๋ํ ์๊ฐ์ ํ์ง์ ๊ทน์ ์ผ๋ก ๊ฐ์ ํ์ต๋๋ค.
Proposed Method
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ์ด๋ฏธ์ง ์์ถ ๊ตฌ์กฐ๋ ๊ธฐ๋ณธ์ ์ธ JPEG ์์ถ ์๊ณ ๋ฆฌ์ฆ(Transform → Quantization → Entropy Coding → Decoding → Inverse Transform)์ ํํ๋ฅผ ๊ฐ์ง๋๋ค.
์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ ๋ฅ๋ฌ๋์ ์ ์ฉํ๊ธฐ ์ํด ๊ธฐ์กด์๋ DCT๋ฅผ ์ฐ๋ Transform ๊ณผ์ ์ Neural Network๋ก ๋์ฒดํฉ๋๋ค. Quantization ์ฐ์ฐ์ continuous ํ ์ ํธ๋ฅผ discreteํ๊ฒ ๋ฐ๊ฟ์ฃผ๋ ์ฐ์ฐ์ด๊ธฐ ๋๋ฌธ์ ๋ฏธ๋ถ์ด ๋ถ๊ฐ๋ฅํด์ backpropagation์ด ๋ถ๊ฐ๋ฅํฉ๋๋ค. ๊ทธ๋์ ๋ณธ ๋ ผ๋ฌธ์์๋ quantization์ approximation ํ์ฌ ์ฌ์ฉํฉ๋๋ค. Inverse Transform ๊ณผ์ ์ Neural Network์ธ Transform ๊ณผ์ ์ ์์ ํ ์ญํจ์๋ ์๋์ง๋ง, ์ต์ข loss๋ฅผ mse๋ก ๊ณ์ฐํ์ฌ ๋คํธ์ํฌ๋ฅผ ์ ๋ฐ์ดํธํ๊ธฐ ๋๋ฌธ์ ์ญํจ์์ ํํ๋ฅผ ๋๋๋ก ํ์ต๋ ๊ฒ ์ ๋๋ค.
- x : image
- ga : Analysis transform (Encoding transform)
- gs : Synthesis transform (Decoding transform)
Architecture
์ ์ํ ๊ตฌ์กฐ๋ ํฌ๊ฒ Analysis(Encoding), Synthesis(Decoding)์ผ๋ก ๋๋๊ณ , ๊ฐ ๊ตฌ์กฐ๋ (Convolutional Filter + Pooling + activation function)*3์ผ๋ก ์ด๋ฃจ์ด์ง๋๋ค. ํน์ดํ ์ ์ activation function์ Generalized Divisive Normalization(GDN) ์ด๋ผ๋ ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค. Batch norm ๊ณผ ์ ์ฌํ๊ฒ ๋ฒ ํ์ ๊ฐ๋ง๋ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ์ด๊ณ , ์ด๋ฌํ task์์ ReLU ๋์ GDN์ ์ฌ์ฉํ๋ ๊ฒ์ด ํจ๊ณผ์ ์ด๋ผ๊ณ ํฉ๋๋ค.
(Conv+pooling+GDN) ์ ์ด 3๋ฒ ๋ฐ๋ณตํ๋๋ฐ ์ด๋ downsampling์ด 4*2*2 ๋งํผ ์ฆ, 16x16 ํจ์น ํ๋๋ฅผ ํ๋์ ๊ฐ์ผ๋ก ์์ถํ๋ ๊ฒ์ ๋๋ค. ์ด๋ 8x8 ์ ํ๋์ block์ผ๋ก ์ทจ๊ธํ๋ JPEG ๋ณด๋ค ๋ ํฐ ์์ถ๋ฅ ์ ๊ฐ์ง ๊ฒ์ด๋ผ๊ณ ์์ํ ์ ์์ต๋๋ค.
Loss Function
์ ๊ทธ๋ฆผ์์ R์ Quantization ์ดํ์ ์์ฑ๋ ๋นํธ์คํธ๋ฆผ์ ๊ธธ์ด๋ฅผ ์ต์ํ ์ํค๊ธฐ ์ํ loss์ด๊ณ D๋ ๋ณต์๋ ์ด๋ฏธ์ง์ ํ๋ฆฌํฐ๊ฐ ์๋ ์ด๋ฏธ์ง์ ํ๋ฆฌํฐ์ ์ ์ฌํ๋๋ก ํ๋ MSE loss์ ๋๋ค. ๋นํธ์คํธ๋ฆผ์ ๊ธธ์ด๋ฅผ ์ต์ํ์ํค๊ธฐ ์ํด์๋ ์ํธ๋กํผ๋ฅผ ์ต์ํํด์ผํ๋ฏ๋ก ์์ ๊ฐ์ loss ์์ ๊ฐ์ง๋๋ค.
Quantization Approximation
Quantization ๊ณผ์ ์ approximation ํ์ฌ ์ฌ์ฉํ๊ธฐ ์ํด ๋ฐ์ฌ๋ฆผ ์ฐ์ฐ์ด ์๋, y ๊ฐ์ ํน์ ํ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ ๋ฏธ๋ถ๊ฐ๋ฅํ๋๋ก ๋ณ๊ฒฝํฉ๋๋ค. ์ด๋ ์๋ ๋ฐ์ฌ๋ฆผ ์ฐ์ฐ์ด ํน์ ์ ์๊ฐ์ -1/2 ~ + 1/2 ์ฌ์ด์ ์๋ ๊ฐ์ ํน์ ์ ์๊ฐ์ผ๋ก ๋งคํ์ํค๋ ์ฐ์ฐ์ด๊ธฐ ๋๋ฌธ์, y ๊ฐ์ -1/2 ~ + 1/2 ์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํด์ฃผ๋ ๊ฒ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ quantization ๋ฐฉ๋ฒ(y hat)์ differential entropy์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ approximation ๋ฐฉ๋ฒ(y tilda)์ differential entropy ๋ฐฉ๋ฒ์ด ์์์ ์ผ๋ก ๋์ผํ๋ค๋ ๊ฒ์ ์ฆ๋ช ํฉ๋๋ค.
Experimental Results
Rate-distortion curve๋ ์์ชฝ์ผ๋ก ๊ฐ์๋ก ์ฑ๋ฅ์ด ์ข์ ๊ฒ์ด๊ณ ์ ์๋ ๋ฐฉ์์ด ๋ชจ๋ bit rate์์ JPEG๊ณผ JPEG2000์ ๋ฅ๊ฐํฉ๋๋ค.
์ค์ ๋ณต์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ์ ์๋ ๋ฐฉ๋ฒ์ ์ด๋ฏธ์ง๊ฐ ๋ ธ์ด์ฆ๊ฐ ๋ํ๊ณ ์กฐ๊ธ ๋ ํฝ์ ๋ค์ด ์ฐ์์ฑ์๊ฒ ๋ณด์ด๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
์ figure๋ 1ํ์ JPEG, 2ํ์ Proposed method, 3ํ์ JPEG200์ธ๋ฐ ์ค๋ฅธ์ชฝ์ผ๋ก ๊ฐ์๋ก ํ๋ฆฌํฐ๋ฅผ ์ค์ด๊ณ ์์ถ๋ฅ ์ ๋์ธ ์คํ๊ฒฐ๊ณผ์ ๋๋ค. ์์ถ๋ฅ ์ ๋์์ ๋ฐ๋ผ ํ๋ฆฌํฐ๊ฐ ์์ฃผ ๋ง์ด ๋จ์ด์ง๋ JPEG๊ณผ JPEG2000์ ๋นํด ์ ์๋ ๋ฐฉ๋ฒ์ ํ๋ฆฌํฐ๊ฐ ํฌ๊ฒ ์ ํด๋์ง ์๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
Discussion
์กฐ๊ธ ์๊ตฌ์ฌ์ด ๋๋ ๋ถ๋ถ์ ์๋ฌด๋๋ ๋ฅ๋ฌ๋ ๋ฐฉ๋ฒ ์์ฒด๊ฐ ํ์ต ๋ฐ์ดํฐ์ ์ ์ํฅ์ด ์๋นํ ํฌ๊ณ , ๋ ๋ฆฝ๋ Training data์ Test data๋ก ์คํํ๋๋ผ๋ ๋ data์ distribution์ด ํฌ์ง ์์ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ๋๋ฌธ์ ์์ ํ ๋ค๋ฅธ ๋ถํฌ์ ์ด๋ฏธ์ง๊ฐ ๋ค์ด์์ ๋๋ ์์ถ ์ฑ๋ฅ์ด ์ข์์ง? ๊ทธ๋ฆฌ๊ณ ์ ๋์ (PSNR, MS-SSIM)์ผ๋ก ํ๋ฆฌํฐ๊ฐ ์ข์ ์ด๋ฏธ์ง๊ฐ ์ค์ ๋ก ์๊ฐ์ ์ผ๋ก๋ ๋ฌด์กฐ๊ฑด ์ข์ ์ด๋ฏธ์ง ์ธ์ง?(๋ ผ๋ฌธ์์ ๊ธฐ์ฌํ ๊ฒฐ๊ณผ๋ฌผ๋ค์ด ์ฒด๋ฆฌํผํน์ธ์ง ์๋์ง) ๊ฐ ์กฐ๊ธ ๊ถ๊ธํฉ๋๋ค. ๋ฌผ๋ก 2017๋ ๋ ผ๋ฌธ์ด๋ผ ๋ ์ข์ ๋ฐฉ๋ฒ๋ค์ด ๋ง์ด ๋์์ ๊ฒ ๊ฐ์๋ฐ, ์์ง ์ฝ์ด๋ณด์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ... ์ถํ์ ๋ ์ฝ์ด๋ณผ ๊ธฐํ๊ฐ ์๊ธฐ๋ฉด ๊ธฐ๋กํ๋๋ก ํ๊ฒ ์ต๋๋ค.