728x90 ๐ Theory/AI & ML12 [ML] Cross Entropy( + Loss) & MSE Loss ์ค๋ช Information(์ ๋ณด๋) : ๋ถํ์ค์ฑ์ ์ ๊ฑฐํ๊ธฐ ์ํด ํ์ํ ์ง๋ฌธ์ ์ ๋๋ ์ด๋ค ์ด๋ฒคํธ๊ฐ ๋ฐ์ํ๊ธฐ๊น์ง ํ์ํ ์ํ์ ์ Entropy : ํ๋ฅ ๋ถํฌ P(x)์ ๋ํ ์ ๋ณด๋์ ๊ธฐ๋๊ฐ, ๋ถ๊ท ํํ ๋ถํฌ๋ณด๋ค ๊ท ๋ฑํ ๋ถํฌ์ ๊ฒฝ์ฐ ๋ถํ์ค์ฑ์ด ๋ ๋๊ธฐ ๋๋ฌธ์ ์ํธ๋กํผ๊ฐ ๋ ๋์ Cross Entropy : ๋ฐ์ดํฐ์ ํ๋ฅ ๋ถํฌ๋ฅผ P(x), ๋ชจ๋ธ์ด ์ถ์ ํ๋ ํ๋ฅ ๋ถํฌ๋ฅผ Q(x)๋ผ ํ ๋, ๋ ํ๋ฅ ๋ถํฌ P์ Q์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๋ ์งํ KL-divergence : ๋ ํ๋ฅ ๋ถํฌ P, Q ๊ฐ ์์ ๋, P๋ฅผ ๊ทผ์ฌํ๊ธฐ ์ํ Q ๋ถํฌ๋ฅผ ํตํด ์ํ๋งํ ๋ ๋ฐ์ํ๋ ์ ๋ณด๋์ ์์ค (Cross Entropy(P,Q) - Entropy(P)) ์ด ๋ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๋ชฉํ๋ ํ๋ฅ ๋ถํฌ P์ ๋ชจ๋ธ์ ์์ธก ํ๋ฅ ๋ถํฌ Q์ ์ฐจ์ด์ธ KL .. 2022. 3. 23. [ML] Classification๊ณผ Regression์ ์ฐจ์ด Classification(๋ถ๋ฅ)๊ณผ Regression(ํ๊ท) ์๊ณ ๋ฆฌ์ฆ์ supervised learning(์ง๋ ํ์ต) ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ๋ ์๊ณ ๋ฆฌ์ฆ ๋ชจ๋ ๋จธ์ ๋ฌ๋์ ์์ธก์ ์ฌ์ฉ๋๋ฉฐ ๋ ์ด๋ธ์ด ์ง์ ๋ ๋ฐ์ดํฐ์ ๊ณผ ํจ๊ป ์ฌ์ฉ๋๋ค. Classification๊ณผ Regression์ ์ฃผ๋ ์ฐจ์ด๋ classification์ ๊ฒฝ์ฐ ๋จ์ฑ vs ์ฌ์ฑ, ์ฐธ vs ๊ฑฐ์ง ๋ฑ์ discreteํ value๋ฅผ ์์ธก/๋ถ๋ฅํ๋๋ฐ ์ฌ์ฉ๋๊ณ , regression์ ๊ฐ๊ฒฉ, ๊ธ์ฌ, ๋์ด ๋ฑ๊ณผ ๊ฐ์ continuousํ value๋ฅผ ์์ธกํ๋๋ฐ ์ฌ์ฉ๋๋ค๋ ์ ์ด๋ค. Classification ๋ฐ์ดํฐ์ ์ ๋ค์ํ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํด๋์ค๋ฅผ ๋๋๋๋ฐ ๋์์ด ๋๋ ํจ์๋ฅผ ์ฐพ๋ ํ๋ก์ธ์ค ์ ๋ ฅ x๋ฅผ discreteํ ์ถ๋ ฅ y์ ๋งคํํ๋ ๋งคํ ํจ์๋ฅผ ์ฐพ๋.. 2022. 3. 23. [ML] Classification ์ฑ๋ฅ ํ๊ฐ ๋ฐฉ๋ฒ Classification์ ์ฑ๋ฅ ํ๊ฐ ๋ฐฉ๋ฒ์ธ TP, TN, FP, FN, Recall, Precision, ROC,... ๋ฑ์ ์ ๋ฆฌ Binary classification ์ฑ๋ฅ ํ๊ฐ True Positive(TP) : P → P ๋ก ์์ธก (์ ๋ต) True Negative(TN) : N → N ์ผ๋ก ์์ธก (์ ๋ต) False Positive(FP) : N → P ๋ก ์์ธก (์ค๋ต) False Negative(FN) : P → N ์ผ๋ก ์์ธก (์ค๋ต) Accurarcy : ๋ชจ๋ ์ ๋ ฅ ๋ฐ์ดํฐ ์ค, ์ ๋ถ๋ฅํ ๋ฐ์ดํฐ์ ๋น์จ Recall : Positive ์ค์ Positive๋ผ๊ณ ์์ธกํ ๋น์จ. (P→P)์ (P→N) ์ค (P→P)์ ๋น์จ Precision : Positive ๋ผ๊ณ ์์ธกํ ๊ฒ ์ค ์ค์ positive.. 2022. 3. 23. [ML] Bias์ Variance : ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ํ๊ฐ ๋ฐฉ๋ฒ Bias : ๋ชจ๋ธ์ ์ถ๋ ฅ์ผ๋ก ์ป์ ์์ธก๊ฐ๊ณผ ์ ๋ต(Ground Truth) ์์ ์ฐจ์ด์ ํ๊ท Variance : ๋ค์ํ ๋ฐ์ดํฐ ์ ์์ ์์ธก๊ฐ์ด ์ผ๋ง๋ ๋ณํํ ์ ์๋์ง์ ๋ํ ๊ฐ ๋จธ์ ๋ฌ๋์์ bias์ variance๋ ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ ํ์ต๋์๋์ง ํ์ธํ๋ ์ฒ๋ ์ค ํ๋๋ก, ๊ฐ์ฅ ์ข์ ๊ฒฝ์ฐ๋ bias์ variance๊ฐ ๋ชจ๋ ๋ฎ์ ๊ฒฝ์ฐ์ด๋ค. (์๋ ๊ทธ๋ฆผ ์ฐธ๊ณ ) ๊ทธ๋ฐ๋ฐ ์์ ๋ด์ฉ์ ๋๋ฌด ๋น์ฐํ ๋ด์ฉ์ด์ ๊ฒฐ๊ณผ๋ก ์ ์ธ ์ด์ผ๊ธฐ์ด๊ณ , bias์ variance๋ ๋ชจ๋ธ ํ์ต๊ณผ ์ฐ๊ด์ง์ด ์๊ฐํ ํ์๊ฐ ์๋ค. ํ์ต์ด ๋๋ underfitting ๊ตฌ๊ฐ์๋ ํ์ต๋ฐ์ดํฐ ์ ์ ์์ธก๊ฐ๋ ๋ง์ด ํ๋ฆฌ๊ธฐ ๋๋ฌธ์ bias๊ฐ ๋์ ์ํ์ด๊ณ , ์ ์ ํ ํ์ต ์ข ๋ฃ ์ง์ ์ ์ง๋ ๊ตฌ๊ฐ์์๋ ํ์ต ๋ฐ์ดํฐ์ ๊ณผ ๋ชจ๋ธ์ loss๋ฅผ ์ต์ํ ํ๊ธฐ ์ํด ov.. 2022. 3. 22. [ML] Gradient Descent Algorithms (๊ฒฝ์ฌํ๊ฐ๋ฒ) ๊ฐ๋ Gradient Descent (๊ฒฝ์ฌํ๊ฐ๋ฒ)์ 1์ฐจ ๊ทผ์ฟ๊ฐ ๋ฐ๊ฒฌ์ฉ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํจ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ตฌํ๊ณ ๊ฒฝ์ฌ์ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ๊ณ์ ์ด๋์์ผ ๊ทน๊ฐ์ ์ด๋ฅผ ๋๊น์ง ๋ฐ๋ณตํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ๋จธ์ ๋ฌ๋์๋ Gradient Descent ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ค์ฐจ(Loss)๊ฐ ์์์ง๋ ๋ฐฉํฅ์ผ๋ก ๋ชจ๋ธ์ ์ ๋ฐ์ดํธ(ํ์ต)์ํค๋ ๊ฒ SGD(Stochastic Gradient Descent) Batch Gradient Descent : ์ ์ฒด Dataset์ ๋ํด parameter ๋ค์ gradient๋ฅผ ๊ตฌํจ(๋ง์ memory ํ์) SGD : ์ ์ฒด dataset์์ mini-batch ๋งํผ์ gradient๋ฅผ ๊ณ์ฐํ์ฌ parameter update Batch gradient descent ๋ณด๋ค ๋น ๋ฅด์ง๋ง local mini.. 2022. 1. 13. [ML] Back Propagation (์ค์ฐจ ์ญ์ ํ) ๊ฐ๋ ๋ฐ ์์ Back propagation ? - ๊ธฐ์กด์ ์ค์ ๋ weight, bias ๋ก feed forward๋ฅผ ์งํํ์ฌ prediction๊ฐ๊ณผ ground truth ๊ฐ์ ์ฐจ์ด์ธ Loss๋ฅผ ๊ณ์ฐ - Loss๋ฅผ forward ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ์ ํ์ํค๋ฉฐ weight, bias๋ฅผ loss๋ฅผ ์ต์ํ ํ๋ ๋ฐฉํฅ์ผ๋ก update (gradient descent ์๊ณ ๋ฆฌ์ฆ ์ฌ์ฉ) Back Propagation ๊ธฐ๋ณธ ์คํ - Weight, Bias์ ๋ณํ์ ๋ฐ๋ฅธ ์ต์ข loss์ ๋ณํ๋์ chain rule์ ์ด์ฉํ์ฌ ๋ถ๋ฆฌํด์ ๊ณ์ฐ - ์ด๋ฌํ ๊ทน์ ๋ฏธ๋ถ์ ํ๋ ฌ๋ก ํํ๋๋ ์ํ ๊ณต์์ ์ด์ฉํ์ฌ ๊ณ์ฐ Back propagation ์์ · ํ๋ผ๋ฏธํฐ ๊ฐ(Hidden layer 1๊ฐ) - ๊ฐ layer์ parameter๊ฐ · Weigh.. 2022. 1. 12. ์ด์ 1 2 ๋ค์ 728x90