[DL] 딥러닝에서의 Regularization : Weight Decay, Batch Normalization, Early Stopping

📖 Theory/AI & ML

뭅즤 2022. 3. 23. 22:39

딥러닝에서 Regularization은 모델의 overfitting을 방지하기 위해 특정한 것에 규제를 하는 방법들을 총칭하고, 대표적으로 아래와 같은 방법들이 있다.

*Overfitting : 기계 학습 모델에서 자주 발생하는 문제 중 하나로, 모델이 학습 데이터셋에 과도하게 fit되어 일반화 성능이 떨어지는 현상.

Weight Decay

Neural network의 특정 weight가 너무 커지는 것은 모델의 일반화 성능을 떨어뜨려 overfitting 되게 하므로, weight에 규제를 걸어주는 것이 필요.
L1 regularization, L2 regularization 모두 기존 Loss function에 weight의 크기를 포함하여 weight의 크기가 작아지는 방향으로 학습하도록 규제

L1 Regularization vs L2 Regularization

L1 Regularization : weight 업데이트 시 weight의 크기에 관계없이 상수값을 빼게 되므로(loss function 미분하면 확인 가능) 작은 weight 들은 0으로 수렴하고, 몇몇 중요한 weight 들만 남음. 몇 개의 의미있는 값을 산출하고 싶은 sparse model 같은 경우에 L1 Regularization이 효과적. 다만 아래 그림에서 보듯이 미분 불가능한 지점이 있기 때문에 gradient-base learning 에서는 주의가 필요.
L2 Regularization : weight 업데이트 시 weight의 크기가 직접적인 영향을 끼쳐 weight decay에 더욱 효과적

Batch Normalization

Gradient vanishing/exploding 을 방지하기 위해 학습 과정 자체를 안정화시키기 위한 방법
학습시 네트워크의 각 layer 또는 activation 마다 입력 값의 분포가 달라지는 "Internal Covariance Shift" 가 발생하고 이를 해결하기 위해 입력값의 분포를 조정
평균과 분산을 조정하는 과정이 neural network 내부에 포함되어 학습시 batch의 평균과 분산을 이용하여 정규화
scale과 shift(bias)를 감마, 베타 값으로 조정
Inference 시에는 배치 단위의 평균과 분산을 구할 수 없기 때문에 학습 단계에서 moving average 또는 exponential average를 이용하여 계산한 평균과 분산을 고정값으로 사용

Batch Normalization 효과

Gradient vanishing/exploding 을 완화하므로 높은 learning rate 사용하여 학습 속도 향상
Careful weight initialization으로 부터 자유로워짐
Regularization 효과 : BN 과정으로 평균과 분산이 지속적으로 변하고 weight 업데이트에도 영향을 주어 하나의 weight 가 매우 커지는 것을 방지.

Batch Normalization 주의 사항

Batch size 가 너무 크거나 작으면 효과를 기대하기 어려움
사용 순서 : Convolution - BN - Activation - Pooling - ... (BN의 목적이 네트워크 연산 결과가 원하는 방향의 분포대로 나오게 하는 것이므로 conv 연산 바로 뒤에 주로 사용/ 아닌 경우도 있습니다.)
Multi GPU training 시 주로 "Synchronized Batch Normalization" 사용

Early Stopping

Deep Neural Network는 일반적으로 학습을 너무 많이하면 특정 epoch 이후에는 overftting이 발생하여 test 성능 하락
이를 방지하기 위해 validation set을 이용하는 등의 방법으로 overfitting이 발생하기 전에 학습을 종료하는 방법