๋ฐ์ํ
Gradient Descent (๊ฒฝ์ฌํ๊ฐ๋ฒ)์ 1์ฐจ ๊ทผ์ฟ๊ฐ ๋ฐ๊ฒฌ์ฉ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํจ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ตฌํ๊ณ ๊ฒฝ์ฌ์ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ๊ณ์ ์ด๋์์ผ ๊ทน๊ฐ์ ์ด๋ฅผ ๋๊น์ง ๋ฐ๋ณตํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
๋จธ์ ๋ฌ๋์๋ Gradient Descent ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ค์ฐจ(Loss)๊ฐ ์์์ง๋ ๋ฐฉํฅ์ผ๋ก ๋ชจ๋ธ์ ์ ๋ฐ์ดํธ(ํ์ต)์ํค๋ ๊ฒ
SGD(Stochastic Gradient Descent)
- Batch Gradient Descent : ์ ์ฒด Dataset์ ๋ํด parameter ๋ค์ gradient๋ฅผ ๊ตฌํจ(๋ง์ memory ํ์)
- SGD : ์ ์ฒด dataset์์ mini-batch ๋งํผ์ gradient๋ฅผ ๊ณ์ฐํ์ฌ parameter update
- Batch gradient descent ๋ณด๋ค ๋น ๋ฅด์ง๋ง local minima๋ฅผ ์ ๋น ์ ธ๋๊ฐ์ง๋ ๋ชปํจ
Momentum
- SGD+Momentum : momentum ์ฑ๋ถ์ ์ถ๊ฐํ์ฌ local minima๋ฅผ ํ์ถํ ์ ์์
- ๋จ์ : Global minima์์ ๋ฉ์ถ์ง ๋ชปํ๊ณ ๋์ด๊ฐ ๋ฒ๋ฆด ์ ์์
NAG(Nesterov Accelerated Gradient)
- Momentum step์ ๋ฐ๊ณ ์ด๋ํ ์์น์์ gradient ๊ณ์ฐํ์ฌ ์ด๋ -> minima์ ์์ ์ ์ผ๋ก ๋๋ฌ ๊ฐ๋ฅ
- ๋จ์ : ๋ชจ๋ Parameter๋ค์ step size๊ฐ ๋์ผ(์ต์ ํ์ ๊ฐ๊น์์ง ๊ฐ๋ ์๊ณ ๋จผ ๊ฐ๋ ์์ ํ ๋๊น)
Adagrad(Adaptive Gradient)
- Gt ๋ gradient ๊ฐ์ ๋ฐ์ ์ผ๋ง๋ ๋ณํด์๋์ง๋ฅผ ์ ์ ์๊ณ , Gt-1 ๊ฐ์ ์ถ๊ฐํ์ฌ ์ด์ ๊ฐ์ ์ถ๊ฐ
- ์ผ๋ง๋ ๋ณํด์๋์ง์ ๋ํ ๊ฐ์ ๋ฐ๋น๋ก์์ผ ๊ณฑํ๋ฏ๋ก ๊ฐ parameter๊ฐ์ด ๋ณํ ์ ๋์ ๋ฐ๋ผ Learning rate๋ฅผ ์กฐ์
- ๋จ์ : Gt์ ๊ฐ์ด ๊ณ์ ๋ํด์ ธ ๊ฐ๋ฏ๋ก ๋ฐ์ฐํ ์ ์์ -> Step size๊ฐ ๋งค์ฐ ์์์ง
RMSProp
- Gt์ γ ๊ฐ์ ์ถ๊ฐํด์ ๋ฐ์ฐํ์ง ์๋๋ก ์กฐ์ -> step size ์์์ง๋ ๊ฒ ๋ฐฉ์ง
Adam(Adaptive Momentum Estimation)
- NAG์ RMSprop์ ์ฅ์ ์ ํฉ์นจ
- β_1=0.9,β_2=0.999 ์ผ ๋, (1-β_1 )=0.1,(1-β_2 )=0.001 ์ด ๋์ด, m>>v -> ์ฒซ step ๋๋ฌด ์ปค์ง
๋ฐ์ํ
'๐ Theory > AI & ML' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] Cross Entropy( + Loss) & MSE Loss ์ค๋ช (0) | 2022.03.23 |
---|---|
[ML] Classification๊ณผ Regression์ ์ฐจ์ด (0) | 2022.03.23 |
[ML] Classification ์ฑ๋ฅ ํ๊ฐ ๋ฐฉ๋ฒ (0) | 2022.03.23 |
[ML] Bias์ Variance : ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ํ๊ฐ ๋ฐฉ๋ฒ (0) | 2022.03.22 |
[ML] Back Propagation (์ค์ฐจ ์ญ์ ํ) ๊ฐ๋ ๋ฐ ์์ (0) | 2022.01.12 |