ICLR 2021์ ๊ฐ์ ๋ ๋ ผ๋ฌธ์ด๋ฉฐ object์ shape, texture์์ ๊ด๊ณ, ๊ทธ๋ฆฌ๊ณ object recognition ๋ฑ์ vision task์์ shape๊ณผ texture ์ ๋ณด๋ฅผ ๋ชจ๋ ์ด์ฉํ์ฌ ํ์ตํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํจ shape-texture debiased neural network๋ฅผ ์ ์ํฉ๋๋ค.
Introduction
Shape๊ณผ texture๋ ๋ชจ๋ object๋ฅผ ์ธ์ํ ๋ ์ค์ํ ๋จ์๋ค์
๋๋ค. ์ด๋ฏธ ์ด์ ์ object recognition ์ฐ๊ตฌ์์ shape๊ณผ texture๋ฅผ ์ ์ ํ๊ฒ ๊ฒฐํฉํ๋ฉด ์ธ์ ์ฑ๋ฅ์ ๋์ผ ์ ์์์ด ๋ฐํ์ก์ต๋๋ค. ‘IMAGENET-TRAINED CNNS ARE BIASED TOWARDS TEXTURE; INCREASING SHAPE BIAS IMPROVES ACCURACY AND ROBUSTNESS’ ๋
ผ๋ฌธ์์๋ ImageNet์ผ๋ก ํ์ต๋(training data์ ๋ฐ๋ผ) CNN์ด shape๋ณด๋ค texture์ ํธํฅ๋์ด ์๋ค๋ ๊ฒฐ๊ณผ๋ฅผ ์คํ์ ์ผ๋ก ์ฆ๋ช
ํ์ต๋๋ค. ์์ ๊ฐ๋จํ ์์๋ฅผ ๋ณด๋ฉด ํ์ต๋ CNN์ด ์ฝ๋ผ๋ฆฌ์ localํ ์ด๋ฏธ์ง๋ ์ฝ๋ผ๋ฆฌ๋ก ์ ํํ๊ฒ ์ธ์ํ๊ณ ๊ณ ์์ด ์ ์ฒด ์ด๋ฏธ์ง๋ ๊ณ ์์ด๋ก ์ธ์ํ์ง๋ง, ์ฝ๋ผ๋ฆฌ ํผ๋ถ์ ๊ณ ์์ด shape์ด ํฉ์ฑ๋ ์ด๋ฏธ์ง๋ texture์ ํด๋นํ๋ ์ฝ๋ผ๋ฆฌ๋ก ์์ธกํ๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
IN์ ImageNet, SIN์ stylized-ImageNet(AdaIN style-transfer๋ฅผ ์ด์ฉํ์ฌ shape์ ์ ์งํ ์ฑ style(texture)๋ฅผ ๋ฐ๊พผ ์ด๋ฏธ์ง)์ ๋๋ค. ์์ figure์์ SIN ์์๋ฅผ ๋ณด๋ฉด ํ๋์ ์ด๋ฏธ์ง๋ฅผ texture ์ ๋ณด๋ฅผ ๋ฐ๊ฟ์ ์ฌ๋ฌ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ์คํ๊ฒฐ๊ณผ์์ IN์ผ๋ก training์ํค๊ณ SIN์ผ๋ก test์ ๊ฒฐ๊ณผ๊ฐ ์ ์ผ ์ ์ข์ ๊ฒ์ผ๋ก ๋ณด์ IN(ImageNet ์๋ณธ)์ผ๋ก ํ์ต๋ CNN์ด texture์ ๋ง์ด bias ๋์ด ์๋ค๊ณ ํ๋จํ ์ ์์ต๋๋ค.
*AdaIN Style-transfer : feature space์์ statistics(mean,std)๊ฐ style์ ํํํ๋๋ฐ ์ค์ํ ์์๋ผ๋ ๊ฒ์ ์ด์ฉํ์ฌ contents-์ด๋ฏธ์ง(shape)์์ style์ ์ ๊ฑฐํ๊ณ style-์ด๋ฏธ์ง(texture)์ style์ ์ ์ฉ์ํค๋ ๋ฐฉ๋ฒ
๋ณธ ๋ ผ๋ฌธ์์๋ shape ๋๋ texture์ bias๋ representation์ผ๋ก ํ์ต๋ CNN์ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ๊ทธ๋ฆฌ๊ณ shape-biased, texture-biased ๋ชจ๋ธ์ด ์ํธ๋ณด์์ ์ด๊ณ ๋ ๊ฐ์ง ํน์ฑ ์ค ํ๋์ ์น์ฐ์น๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด texture ์ ๋ณด๊ฐ ์์ผ๋ฉด shape์ด ๋น์ทํ ์ค๋ ์ง์ ๋ ๋ชฌ์ ์ฐจ์ด๋ฅผ ๊ตฌ๋ณํ๊ธฐ ํ๋ค ์ ์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ๋ ๋์ representation์ ํ์ตํ๊ธฐ ์ํด shape-texture debiased neural network training framework๋ฅผ ์ ์ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ CNN training ์ํ์์ shape์ด๋ texture์ bias๋๋ ๊ฒ์ ๋ง๊ธฐ ์ํด ์๋์ผ๋ก optimalํ representation์ ์ฐพ๊ฒ ํ๋ ๋ฐฉ์์ด๋ฉฐ, ์๋ณธ training ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ฐํ๊ธฐ ์ํด shape๊ณผ texture ์๊ด๊ด๊ณ๋ฅผ ๋ฌด๋๋จ๋ฆฌ๋ cue conflict image๋ฅผ ์์ฑํ๊ธฐ ์ํด style transfer๋ฅผ ์ ์ฉํฉ๋๋ค. ๋ํ ์ด๋ฏธ์ง์ shape๊ณผ texture ๋ ๊ฐ์ง ๋ชจ๋ supervision(shape, texture label์ ๊ฐ์ง data ํ์)์ ์ ๊ณตํด์ผ ํฉ๋๋ค.
์๋์ figure์์ fur coat๋ ๋๋ถ๋ถ์ ์ฝํธ ๋๋ ์ท ์์๊ฐ ๊ฐ์ง๋ shape ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์์๊ณผ ๋์์ ํน์ ์ texture๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๋ shape-biased ๋ ๋ชจ๋ธ์ ์ท์ shape์๋ง ์ง์คํ๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ์ข ๋ฅ์ ์ท์ผ๋ก ์์ธกํ ์ ์๊ณ , texture-biased๋ ๋ชจ๋ธ์์๋ fur coat์ texture์๋ง ์ง์คํ๊ธฐ ๋๋ฌธ์ ๋น์ทํ local ํจํด์ ๊ฐ์ง๋ ๊ณ ์์ด ๋๋ ๋ค๋ฅธ ์ฌ๋ฌผ๋ก ์์ธกํ ์ ์์ต๋๋ค. ํนํ ์ท ๊ฐ์ ๊ฒฝ์ฐ shape์ด ์ผ์ ํ์ง ์๊ณ ์ ํ๊ฑฐ๋ ๊ตฌ๊ฒจ์ ธ ์์ ์ ์๊ธฐ ๋๋ฌธ์ texture ์ ๋ณด๊ฐ ํ์์ ์ ๋๋ค. ๋๋ฌธ์ object๋ฅผ ๋์ฑ ์ ํํ๊ฒ ํ์ตํ๊ณ ํ๋ณํ๊ธฐ ์ํด์๋ shape ์ ๋ณด์ texture ์ ๋ณด๋ฅผ ์ ์ ํ ํ์ฉํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
SHAPE/TEXTURE BIASED NEURAL NETWORKS
์๋ ๊ทธ๋ฆผ์ฒ๋ผ ์ด๋ฏธ์ง๋ shape-biased model์ด ๋ ์ ๋ถ๋ฅํ ์ ์๋ ๊ฒฝ์ฐ์ texture-biased model์ด ๋ ์ ๋ถ๋ฅํ ์ ์๋ ๊ฒฝ์ฐ๋ก ๋๋ฉ๋๋ค. ์ฃผ๋ก texture-bias model์ด ์ ๋ถ๋ฅํ ์ ์๋ ์ด๋ฏธ์ง๋ shape์ด ์ ํํ ๋์ด์์ง ์์์ ๊ฐ์ฒด๊ฐ ๋ค์ํ ๋ชจ์์ ๊ฐ์ง ์ ์๋ ๊ฒฝ์ฐ์ ํด๋นํฉ๋๋ค.
Stylized-ImageNet์ style transfer๋ฅผ ์ด์ฉํ์ฌ ImageNet dataset์ shape์ ์ ์งํ ์ฑ texture๋ฅผ ๋ณํ์ํจ dataset์ ๋๋ค. ๋๋ฌธ์ CNN์ด Stylized-ImageNet dataset์ผ๋ก training๋๋ ๊ฒฝ์ฐ model์ด shape์ bias๋ ๊ฒ์ ๋๋ค. ์ด์ ๋ ผ๋ฌธ์์๋ original dataset์ผ๋ก CNN์ ํ์ต์ํค๊ณ style-ImageNet์ผ๋ก fine-tuningํด์ texture-biased ๋์๋ ๋ชจ๋ธ์ shape์ ์ง์คํ๋๋ก ์กฐ์ ํ์ต๋๋ค.
- Data generation
๋ณธ ๋ ผ๋ฌธ์์๋ shape, texture ์ ๋ณด๊ฐ ํฉ์ฑ๋ ์ด๋ฏธ์ง๋ฅผ training ์ํ๋ก ์ ์ฉํ์ฌ shape-bias ๋๋ texture-bias ๋ชจ๋ธ์ ์ป์ต๋๋ค. Cue conflict image๋ ๊ท ์ผํ๊ฒ ๋ฌด์์๋ก ํ ์์ ์ด๋ฏธ์ง๋ฅผ ์ ํํ ๋ค์ style-transfer์ ์ ์ฉํ์ฌ shape๊ณผ texture ์ ๋ณด๋ฅผ ํผํฉํ ์ด๋ฏธ์ง์ ๋๋ค. ์๋ฅผ ๋ค์ด ์นจํฌ์ง shape๊ณผ ๋ ๋ชฌ texture๋ฅผ ํฉ์น conflict image๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
- Label assignment
Cue conflict image์ label์ ํ ๋นํ๋ ๋ฐฉ๋ฒ์ ํ์ต๋ ๋ชจ๋ธ์ bias๋ฅผ ์ ์ดํฉ๋๋ค. ๋ชจ๋ธ์ด texture์ ๋ ์ง์คํ๊ฒ ํ๋ ค๋ฉด cue conflict image์ ์ ์ฉ๋ ํ ์(์นจํฌ์ง, ๋ ๋ชฌ)์ ์ด๋ฏธ์ง์์ texture(๋ ๋ชฌ)์ ํด๋นํ๋ label์ ํ ๋นํ๊ณ shape์ ์ง์คํ๊ฒ ํ๋ ค๋ฉด shape(์นจํฌ์ง)์ ํด๋นํ๋ label์ ํ ๋นํฉ๋๋ค.
SHAPE-TEXTURE DEBIASED NEURAL NETWORK TRAINING
Prediction์ shape๊ณผ texture ์ ๋ณด๋ฅผ ๋ชจ๋ ์ด์ฉํ๊ธฐ ์ํด Mixup์์ ์๊ฐ์ ์ป์ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ soft labeling์ ํฉ๋๋ค. ์ฆ, shape-source ์ด๋ฏธ์ง ys์ one-hot label๊ณผ texture-source ์ด๋ฏธ yt์ one-hot label์ด ์ฃผ์ด์ง๋ฉด cue conflict image์ ํ ๋น๋ new label์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
Shape-texture coefficient γ ๋ 0~1 ๊ฐ์ผ๋ก shape๊ณผ texture ์ฌ์ด์ ์๋์ ์ค์์ฑ์ ์ ์ดํ๊ธฐ ์ํ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋๋ค. γ ๋ฅผ 0 ๋๋ 1๋ก ์ง์ ํ๋ฉด ๋ชจ๋ธ์ texture-bias ๋๋ shape-bias ๋ชจ๋ธ๋ก ํ์ต์ํฌ ์ ์์ต๋๋ค. ๋ ๊ฐ์ ๊ทน๋จ์ biased ๋ชจ๋ธ์ ๋ง๋ค๊ณ 0~1์ฌ์ด์์ optimalํ ํฌ์ธํธ๊ฐ ์กด์ฌํ ๊ฒ์ ๋๋ค. (์คํ์ ์ผ๋ก 0.7์ด sweet point์ ๋๋ค=shape ์ ๋ณด๊ฐ recognition์ ์๋์ ์ผ๋ก ๋ ์ค์ํ๋ค๋ ๊ฒฐ๊ณผ) ์ด๋ฌํ ๋ฐฉ๋ฒ์ shape-texture debiased neural network training์ด๋ผ๊ณ ์ด๋ฆ์ ์ง์ ํฉ๋๋ค.
๋ฐฉ๋ฒ์ ๋งค์ฐ ๊ฐ๋จํด ๋ณด์ด์ง๋ง, ํ ์์ ์ด๋ฏธ์ง๋ฅผ ๊ตฌ์ฑํ ๋ shape-source ์ด๋ฏธ์ง์ texture-source ์ด๋ฏธ์ง๋ฅผ ์ด๋ป๊ฒ ๋๋์ด ๋๋์ง ์๋ฌธ์ด ์๊น๋๋ค. ํ ์ด๋ฏธ์ง์์ shape ๊ณผ texture ์ ๋ณด ์ค ์ด๋ค ๊ฒ์ด dominantํ์ง handcrafted ํ๊ฒ ๋๋์๋์ง ์๋ฌธ์ ๋๋ค.
Semantic segmentation์ผ๋ก ์์ฉ ๋ํ ๊ฐ๋ฅํฉ๋๋ค. ์๋ figure์ฒ๋ผ Texture-source object๋ฅผ ๋ถํ ํ๊ณ shape label์ด ํ ๋น๋ shape source ์ด๋ฏธ์ง์ texture๋ฅผ style-transferํ์ฌ data๋ฅผ ๋ง๋ค ์ ์์ต๋๋ค.
RESULTS
์๋ figure์์ shape model๊ณผ texture model์ activation map ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด shape ๋ชจ๋ธ์ ๊ณ ์์ด, ์ฌ์์ ์ผ๊ตด์ activate ๋์ด์๋ ๋ฐ๋ฉด texture model์ ๊ฐ์ฒด์ ์ ์ฒด์ ๊ณ ๋ฃจ activate๋์ด ์๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
Table.1์ vanilla ํ์ต๊ณผ vanilla ํ์ต์์ epoch์ 2๋ฐฐ๋ก ํ์ฌ ์คํํ ๊ฒ, shape-biased, texture-biased, Debiased model์ ์คํ๊ฒฐ๊ณผ์ ๋๋ค. Shape ๋๋ texture์ bias ๋๋ ๊ฒฝ์ฐ ์ฑ๋ฅ์ด ์ ํ๋๋ ๊ฒ์ ๋ณผ ์ ์๊ณ , debiased model์ ๊ฒฝ์ฐ network ์ฌ์ด์ฆ๊ฐ ์ปค์ง์๋ก ์ฑ๋ฅ์ด ๋์ฑ ํฅ์๋๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. 2xepoch๊ณผ ๋น๊ตํ์ฌ ๋จ์ํ ํ์ต์ ๋ ๋ง์ด ํ๋ ๊ฒ์ ์๋ฏธ ์๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
Table.2์ debiased model์ด shape๊ณผ texture ์ ๋ณด๋ฅผ ๋ชจ๋ ์ ์ ํ ์ ํํํ๋๋ก ํ์ต๋์๋์ง ํ์ธํ๊ธฐ ์ํด shape dataset์ธ ImageNet-Sketch, ImageNet-R๊ณผ texture dataset์ธ Kylberg Texture, Flicker Material dataset์ผ๋ก ์คํํ ๊ฒฐ๊ณผ์ ๋๋ค. Shape dataset์ ๊ฒฝ์ฐ S-biased model ๋ณด๋ค๋ debiased model์ด ์ฑ๋ฅ์ด ๋ ์ข๊ณ texture dataset์ ๊ฒฝ์ฐ T-biased ๋ณด๋ค๋ ์ฑ๋ฅ์ด ์ข์ง ์์ง๋ง vanilla ๋ณด๋ค ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
Table.3,4๋ ImageNet-A(natural adversarial example ํฌํจ), ImageNet-C(75๊ฐ์ visual corruption ์ ์ฉ), stylized-ImageNet์์ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ๊ณผ FGSM adversarial attack์ ๋ํ robustness๋ฅผ ์คํํ ๊ฒฐ๊ณผ์ ๋๋ค. ๋ชจ๋ STOA์ ๊ฐ์ ์ฌํญ์ ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ ์ผ๊ด๋์ง ์์ง๋ง debiased ๋ชจ๋ธ์ vanilla training baseline์ ๋ฅ๊ฐํ๋ ์ ์ผํ ๋ฐฉ๋ฒ์ ๋๋ค.
๋ด ์๊ฐ..
๊ฐ๊ณตํ์ง ์์ ๋๋ถ๋ถ์ real world ๋ฐ์ดํฐ๋ก CNN์ ํ์ต์ํฌ ๋ ๊ทน๋จ์ ์ผ๋ก shape ๋๋ texture์ bias๋์ง๋ ์์ ๊ฒ์ ๋๋ค. Texture์ ์ด๋ ์ ๋ bias ๋๋ ๊ฒฝ์ฐ๋ ๋ถ๋ฅ ๋์ shape์ deformation์ด ํฌ๊ธฐ ๋๋ฌธ์ inner class์ shape์ด ์ผ์ ํ์ง ์์ง๋ง(๋๋ฌผ์ ๊ฒฝ์ฐ ๋ฐ๋ผ๋ณด๋ ๊ฐ๋๋ ๋๋ฌผ์ ์์ธ์ ๋ฐ๋ผ, ์ฌ๋ฌผ์ ์ธ๋ถ ์นดํ ๊ณ ๋ฆฌ๊ฐ ๋๋๊ธฐ ๋๋ฌธ์) ์ผ์ ๋ถ๋ถ ์ ์ฌํ texture๋ฅผ ๊ณต์ ํ๊ธฐ ๋๋ฌธ์ CNN์ด ์์ฐ์ค๋ texture์ bias๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค๊ณ ์๊ฐํฉ๋๋ค. ์ฆ, CNN์ด shape์ ์ง์คํ๋ค๋ฉด training data์ texture์ variation์ด ํฐ ๊ฒ์ด๊ณ texture์ ์ง์คํ๋ค๋ฉด shape์ variation์ด ํฌ๋ค๊ณ ๋ณผ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค. ๋๋ฌธ์ training data๊ฐ ์ ์ฒด data๋ฅผ ๋๋ณํ ์ ์์ ์ ๋๋ก ๋ฐฉ๋ํ๋ค๋ฉด shape ๋๋ texture์ bias๋๋๊ฒ ์คํ๋ ค ์์ฐ์ค๋ฝ๊ณ ๋ฐ๋์งํ ํ์ต๋ฐฉ๋ฒ์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค. ํ์ง๋ง, ์ธ์ ๋ training data๋ ๋ชจ๋ data๋ฅผ ๋๋ณํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ณธ ๋ ผ๋ฌธ์์ shape๊ณผ texture ์ ๋ณด๋ฅผ ๋ชจ๋ ์ ์ ํ ์ด์ฉํ๋๋ก ํ์ต์ ์ ๋ํ๋ ๊ฒ์ด๋ผ ์๊ฐํฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ proposed method๋ ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด shape ์ ๋ณด๋ ์ ์ฌํ์ง๋ง texture ์ ๋ณด๊ฐ ๋ค๋ฅธ(domain์ด ๋ค๋ฅธ) dataset์์๋ ์ฑ๋ฅํฅ์์ด ์์ ๊ฒ์ด๋ผ ์๊ฐํฉ๋๋ค. ํ์ง๋ง, ๋ฌธ์ ์ ์์ ๋ฐ๋ผ real ์ด๋ฏธ์ง๊ฐ ์๋ ์ด๋ฏธ์ง(sketch, painting,…)๋ค์ anomaly data๋ก ์ทจ๊ธํ๊ณ real ์ด๋ฏธ์ง๋ค๋ง ๋ถ๋ฅํ๊ธธ ๋ฐ๋ผ๋ task๋ ์๊ธฐ ๋๋ฌธ์ ์ ํ์ ์ผ๋ก ์ฌ์ฉํด์ผ ํ๋ค๊ณ ์๊ฐํฉ๋๋ค.
์๋๋ ๋ ผ๋ฌธ์ ์ฝ์ผ๋ฉฐ ์๊ธด ๋ ๊ฐ์ง ์๋ฌธ์ ์ ๋ํ ์ ๋ฆฌ์ ๋๋ค.
์ฒซ ๋ฒ์งธ๋ class ํน์ฑ์ ๋ฐ๋ผ(๋ฌด์์ ๋์ฑ dominant ํ์ง) shape/texture – source๋ก ์์์ ์ผ๋ก ๋๋์ง ์๊ณ random ํ๊ฒ ํ ์์ ์ด๋ฏธ์ง๋ฅผ ๊ณจ๋ผ์ ํ๋์ ์ด๋ฏธ์ง์ ๋ค๋ฅธ ํ๋์ ์ด๋ฏธ์ง์ style(texture) ์ ์ ์ฉ์์ผฐ์ ๋ ์ด๋ป๊ฒ ์ฑ๋ฅ์ด ๊ฐ์ ๋์๋์ง ์๋ฌธ์ ๋๋ค. Shape ์ ๋ณด๊ฐ ๋ ์ค์ํ ์ด๋ฏธ์ง๋ฅผ shape-source๋ก ์๋์ ์ผ๋ก texture ์ ๋ณด๊ฐ ์ค์ํ ์ด๋ฏธ์ง๋ฅผ texture-source๋ก ์ฌ์ฉํ๋ ๊ฒ์ด ํฉ๋ฆฌ์ ์ด๋ผ๊ณ ์๊ฐํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ ๋ฒ์งธ๋ style-transfer๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ๋ํ ์๋ฌธ์ ์ด ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ shape+texture ํฉ์ฑ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ์ํด AdaIN style-transfer๋ฅผ ์ฌ์ฉํ๋๋ฐ ์๋ฆฌ๋ ์๋ ์์์ ๋ฐ๋ฆ ๋๋ค.
(x : content-์ด๋ฏธ์ง, y : style-์ด๋ฏธ์ง)
์ ์์ feature space์์ statistics(mean, std)๊ฐ ์ด๋ฏธ์ง์ style(texture)๊ณผ ์๊ด๊ด๊ณ๊ฐ ์๊ธฐ ๋๋ฌธ์, x ์ด๋ฏธ์ง์์ style์ ์ ๊ฑฐํ๊ณ y ์ด๋ฏธ์ง์ style์ ์ ์ฉ์ํค๋ ๋ฐฉ์์ ๋๋ค. Style-transfer task์์๋ AdaIN ๊ณ์ฐ ์ดํ์ ์ด๋ฏธ์ง space๋ก decodingํ๊ธฐ ์ํด ๋คํธ์ํฌ๊ฐ ๋ ๋จ์์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง space์์ visual ์ ์ผ๋ก ํฉ์ฑ๋ ์ด๋ฏธ์ง๋ฅผ training์ ์ง์ ์ฌ์ฉํ๋๋ฐ, training ์ conflict ์ด๋ฏธ์ง ์ ์๋ณธ์ ๋คํธ์ํฌ์ ์ฃผ์ ํ๊ณ AdaIN ์์ผ๋ก feature ํฉ์ฑ ํ class๋ฅผ predictionํ๊ณ soft label๋ก loss๋ฅผ ์ค์ ํ์ต์ํค๋ ๊ฒ๊ณผ ๊ฒฐ๊ณผ๊ฐ ๋ค๋ฅผ์ง ๊ถ๊ธํฉ๋๋ค. ํฉ์ฑ๋ ์ด๋ฏธ์ง๋ feature level์์ decoding ๋ image ์ด๊ธฐ ๋๋ฌธ์ decoding ๋๊ธฐ ์ ์ feature level์์ ๊ทธ๋๋ก ์ฌ์ฉํ๋ ๊ฒ์ด shape๊ณผ texture๋ฅผ ๋ชจ๋ ๋ ์ ํํํ ์ ์์ง ์์๊น? ๋ผ๋ ์๊ฐ์ด ๋ค์์ต๋๋ค.