- Information(์ ๋ณด๋) : ๋ถํ์ค์ฑ์ ์ ๊ฑฐํ๊ธฐ ์ํด ํ์ํ ์ง๋ฌธ์ ์ ๋๋ ์ด๋ค ์ด๋ฒคํธ๊ฐ ๋ฐ์ํ๊ธฐ๊น์ง ํ์ํ ์ํ์ ์
- Entropy : ํ๋ฅ ๋ถํฌ P(x)์ ๋ํ ์ ๋ณด๋์ ๊ธฐ๋๊ฐ, ๋ถ๊ท ํํ ๋ถํฌ๋ณด๋ค ๊ท ๋ฑํ ๋ถํฌ์ ๊ฒฝ์ฐ ๋ถํ์ค์ฑ์ด ๋ ๋๊ธฐ ๋๋ฌธ์ ์ํธ๋กํผ๊ฐ ๋ ๋์
- Cross Entropy : ๋ฐ์ดํฐ์ ํ๋ฅ ๋ถํฌ๋ฅผ P(x), ๋ชจ๋ธ์ด ์ถ์ ํ๋ ํ๋ฅ ๋ถํฌ๋ฅผ Q(x)๋ผ ํ ๋, ๋ ํ๋ฅ ๋ถํฌ P์ Q์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๋ ์งํ
- KL-divergence : ๋ ํ๋ฅ ๋ถํฌ P, Q ๊ฐ ์์ ๋, P๋ฅผ ๊ทผ์ฌํ๊ธฐ ์ํ Q ๋ถํฌ๋ฅผ ํตํด ์ํ๋งํ ๋ ๋ฐ์ํ๋ ์ ๋ณด๋์ ์์ค (Cross Entropy(P,Q) - Entropy(P))
์ด ๋ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๋ชฉํ๋ ํ๋ฅ ๋ถํฌ P์ ๋ชจ๋ธ์ ์์ธก ํ๋ฅ ๋ถํฌ Q์ ์ฐจ์ด์ธ KL divergence๋ฅผ ์ต์ํํ๋ ๊ฒ์ด๊ณ , Entropy๋ ๊ณ ์ ๋ ๊ฐ์ด๋ฏ๋ก Cross Entropy๋ฅผ ์ต์ํํ๋ ๊ฒ์ด ๋ชฉํ๊ฐ ๋ฉ๋๋ค.
Cross Entropy Loss
- Classification ๋ฌธ์ ์์ ์ฃผ๋ก cross entropy loss ๋ฅผ ์ฌ์ฉ
- True distribution P๋ one-hot ์ธ์ฝ๋ฉ๋ vector๋ฅผ ์ฌ์ฉ(Ground Truth)
- Prediction distribution Q ๋ ๋ชจ๋ธ์ ์์ธก ๊ฐ์ผ๋ก softmax layer๋ฅผ ๊ฑฐ์น ํ์ ๊ฐ์ผ๋ก ํด๋์ค ๋ณ ํ๋ฅ ๊ฐ์ ๋ชจ๋ ํฉ์น๋ฉด 1
e.g.) P = [0, 1, 0], Q = [0.2, 0.7, 0.1] ์ผ ๋, cross entropy loss ๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ๋ค.
Mean Squared Error (MSE) Loss
- ์์ธก ๊ฐ๊ณผ ์ ๋ต๊ณผ์ ์ฐจ์ด๋ฅผ ์ ๊ณฑํ์ฌ ํ๊ท ์ ๋ธ ๊ฐ
- ์ค์ฐจ๊ฐ ์ปค์ง์๋ก ์ ๊ณฑ ์ฐ์ฐ์ผ๋ก ์ธํด ๊ฐ์ด ๋๋ ทํด์ง
- ์ฐ์์ ์ธ ๋ถํฌ๋ฅผ ์ถ์ ํ๋ regression ์์ ์ฃผ๋ก ์ฌ์ฉ
Cross Entropy Loss vs. MSE Loss
- ๋ฐ์ดํฐ๊ฐ ์ฐ์์ ์ธ ๋ถํฌ์ธ gaussian ๋ถํฌ์ ๊ฐ๊น์ธ ๋(continuous) → MSE Loss
- ๋ฐ์ดํฐ๊ฐ categoricalํ bernoulli ๋ถํฌ์ ๊ฐ๊น์ธ ๋(discrete) → Cross Entropy Loss
*ํ๋ฅ ๋ถํฌ ๊ด์ ์์ ๋ฅ๋ฌ๋ ๋คํธ์ํฌ์ ์ถ๋ ฅ์ ์ ํด์ง ํ๋ฅ ๋ถํฌ(๊ฐ์ฐ์์, ๋ฒ ๋ฃจ๋์ด,..)์์ ์ถ๋ ฅ์ด ๋์ฌ ํ๋ฅ ์ด๋ค. ํ์ต์ํค๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ f(x)์ ์ญํ ์ ํ๋ฅ ๋ถํฌ์ ๋ชจ์๋ฅผ ์ถ์ ํ๋ ๊ฒ์ด๊ณ , ๊ณ์ฐ๋ loss๋ ์ถ์ ๋ ๋ถํฌ์์ ground truth์ likelihood๋ฅผ ํ๊ฐํ๋ ๊ฒ์ด๋ค. Loss๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ๋ฅ๋ฌ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ๋ ๊ฒ์ likelihood๋ฅผ ์ต๋ํํ๋ ๊ฒ.