일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 딥러닝
- 인공지능
- 네이버커넥트재단
- aitech
- 음성인식
- Cosine annealing
- Machine Learning
- 머신러닝
- 부스트캠프ai
- VAD
- 부스트캠프
- Learning rate Scheduler
- 인공지능 그랜드 챌린지
- End-To-End
- Lr Scheduler
- ai
- deep learning
- Today
- Total
목록Learning rate Scheduler (2)
AI4NLP

Cosine annealing은 "SGDR: Stochastic Gradient Descent with Warm Restarts"에서 제안되었던 학습율 스케쥴러로서, 학습율의 최대값과 최소값을 정해서 그 범위의 학습율을 코싸인 함수를 이용하여 스케쥴링하는 방법이다. Cosine anneaing의 이점은 최대값과 최소값 사이에서 코싸인 함수를 이용하여 급격히 증가시켰다가 급격히 감소시키 때문에 모델의 매니폴드 공간의 안장(saddle point)를 빠르게 벗어날 수 있으며([그림 1] 참조), 학습 중간에 생기는 정체 구간들 또한 빠르게 벗어날 수 있도록 한다. 결과적으로 이러한 방법이 모델의 일반화 성능을 극대화시켜준다. 논문의 실험 결과에 따르면 Cosine annealing을 이용하여 학습한 wide..
딥러닝, 머신러닝을 사용할 때에 Model이나 Optimizer에는 많은 신경을 쓰지만 Lr Scheduler에는 많은 신경을 쓰지 않는 경우가 많습니다. (제가 그랬습니다...ㅠㅠ) 실제 학습을 할 때에 어떤 Lr Scheduler를 고르느냐, Lr Scheduler의 Hyperparameter로 어떤 값을 고르느냐에 따라 학습 결과에는 큰 차이가 존재합니다. Lr Scheduler는 미리 학습 일정을 정해두고, 그 일정에 따라 학습률을 조정하는 방법입니다. 일반적으로는 warmup이라는 파라미터를 정하고 현재 step이 warmup보다 낮을 경우는 learning rate를 linear하게 증가 시키고, warmup 후에는 각 Lr Scheduler에서 정한 방법대로 learning rate를 upd..