์ค๋์ ๋ฅ๋ฌ๋์์ ํต์ฌ์ ์ธ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ธ Gradient Descent (๊ฒฝ์ฌ ํ๊ฐ๋ฒ) ์ ๋ํด ์์๋ณด๋ ค๊ณ ํด์. ์ด ์๊ณ ๋ฆฌ์ฆ์ด ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ์ตํ๊ณ ์ต์ ํํ๋ ๋ฐ ์ด๋ป๊ฒ ํ์ฉ๋๋์ง ํจ๊ป ์ดํด๋ณด๊ฒ ์ต๋๋ค.
๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ๊ฐ๋
Gradient Descent๋ ํจ์์ ๊ธฐ์ธ๊ธฐ(Gradient)๋ฅผ ์ด์ฉํ์ฌ ํจ์์ ์ต์๊ฐ์ ์ฐพ์๊ฐ๋ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ๋ฅ๋ฌ๋์์๋ ์์ค ํจ์(Loss Function)์ ๊ฐ์ ์ต์ํํ๊ธฐ ์ํด ๋ง์ด ์ฌ์ฉ๋ฉ๋๋ค.
๋์ ์๋ฆฌ
- ๊ธฐ๋ณธ ๊ฐ๋
:
- ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ด๊ธฐ์ ์์์ ํ๋ผ๋ฏธํฐ์์ ์์ํ์ฌ, ๊ฐ ๋จ๊ณ์์ ์์ค ํจ์์ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ๊ณ , ๊ทธ๋๋์ธํธ์ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ์ฌ ์ต์ ํ๋ฅผ ์ํํฉ๋๋ค.
- ์ฃผ์ ๋จ๊ณ:
- ์ด๊ธฐํ(Initialization): ํ๋ผ๋ฏธํฐ(๊ฐ์ค์น์ ํธํฅ)๋ฅผ ์์์ ๊ฐ์ผ๋ก ์ด๊ธฐํํฉ๋๋ค.
- ์์ ํ(Forward Propagation): ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๋คํธ์ํฌ์ ์ฃผ์ ํ๊ณ ์์ธก๊ฐ์ ๊ณ์ฐํฉ๋๋ค.
- ์ค์ฐจ ๊ณ์ฐ(Error Calculation): ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ ์ฌ์ด์ ์ค์ฐจ๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- ์ญ์ ํ(Backward Propagation): ์ค์ฐจ๋ฅผ ์ญ๋ฐฉํฅ์ผ๋ก ์ ํํ์ฌ ๊ฐ ํ๋ผ๋ฏธํฐ์ ๋ํ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ(Parameter Update): ๊ณ์ฐ๋ ๊ทธ๋๋์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํฉ๋๋ค. ์ด ๊ณผ์ ์ ๋ฐ๋ณตํ์ฌ ์์ค ํจ์์ ๊ฐ์ ์ต์ํํ๋ ค๊ณ ํฉ๋๋ค.
๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ข ๋ฅ

- SGD(Stochastic Gradient Descent)

- Batch Gradient Descent : ์ ์ฒด Dataset์ ๋ํด parameter ๋ค์ gradient๋ฅผ ๊ตฌํจ(๋ง์ memory ํ์)
- SGD : ์ ์ฒด dataset์์ mini-batch ๋งํผ์ gradient๋ฅผ ๊ณ์ฐํ์ฌ parameter update
- Batch gradient descent ๋ณด๋ค ๋น ๋ฅด์ง๋ง local minima๋ฅผ ์ ๋น ์ ธ๋๊ฐ์ง๋ ๋ชปํจ

- Momentum

- SGD+Momentum : momentum ์ฑ๋ถ์ ์ถ๊ฐํ์ฌ local minima๋ฅผ ํ์ถํ ์ ์์
- ๋จ์ : Global minima์์ ๋ฉ์ถ์ง ๋ชปํ๊ณ ๋์ด๊ฐ ๋ฒ๋ฆด ์ ์์

- NAG(Nesterov Accelerated Gradient)

- Momentum step์ ๋ฐ๊ณ ์ด๋ํ ์์น์์ gradient ๊ณ์ฐํ์ฌ ์ด๋ -> minima์ ์์ ์ ์ผ๋ก ๋๋ฌ ๊ฐ๋ฅ
- ๋จ์ : ๋ชจ๋ Parameter๋ค์ step size๊ฐ ๋์ผ(์ต์ ํ์ ๊ฐ๊น์์ง ๊ฐ๋ ์๊ณ ๋จผ ๊ฐ๋ ์์ ํ ๋๊น)

- Adagrad(Adaptive Gradient)

- Gt ๋ gradient ๊ฐ์ ๋ฐ์ ์ผ๋ง๋ ๋ณํด์๋์ง๋ฅผ ์ ์ ์๊ณ , Gt-1 ๊ฐ์ ์ถ๊ฐํ์ฌ ์ด์ ๊ฐ์ ์ถ๊ฐ
- ์ผ๋ง๋ ๋ณํด์๋์ง์ ๋ํ ๊ฐ์ ๋ฐ๋น๋ก์์ผ ๊ณฑํ๋ฏ๋ก ๊ฐ parameter๊ฐ์ด ๋ณํ ์ ๋์ ๋ฐ๋ผ Learning rate๋ฅผ ์กฐ์
- ๋จ์ : Gt์ ๊ฐ์ด ๊ณ์ ๋ํด์ ธ ๊ฐ๋ฏ๋ก ๋ฐ์ฐํ ์ ์์ -> Step size๊ฐ ๋งค์ฐ ์์์ง
- RMSProp


- Gt์ ฮณ ๊ฐ์ ์ถ๊ฐํด์ ๋ฐ์ฐํ์ง ์๋๋ก ์กฐ์ -> step size ์์์ง๋ ๊ฒ ๋ฐฉ์ง
- Adam(Adaptive Momentum Estimation)

- NAG์ RMSprop์ ์ฅ์ ์ ํฉ์นจ
- ฮฒ_1=0.9,ฮฒ_2=0.999 ์ผ ๋, (1-ฮฒ_1 )=0.1,(1-ฮฒ_2 )=0.001 ์ด ๋์ด, m>>v -> ์ฒซ step ๋๋ฌด ์ปค์ง
๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ค์์ฑ
- ๋ชจ๋ธ ์ต์ ํ: ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ์ตํ๊ณ ์ต์ ํํ๋ ๋ฐ ํ์์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
- ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋: ํ์ต๋ฅ (Learning Rate)๊ณผ ๊ฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ์ฌ ํ์ต ์๋์ ์ต์ ํ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์์ต๋๋ค.
์ค๋์ Gradient Descent์ ๊ฐ๋ ๊ณผ ์ข ๋ฅ์ ๋ํด ์์๋ณด์์ต๋๋ค. ๋ฅ๋ฌ๋์์ ์ด ์๊ณ ๋ฆฌ์ฆ์ด ์ด๋ป๊ฒ ์๋ํ๋์ง ์ดํดํ๋ ๊ฒ์ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ณ ์ต์ ํํ๋ ๋ฐ ์์ด์ ํ์์ ์ ๋๋ค.