

확률에서 LLM까지 – 데이터 사이언스 전문 교육 플랫폼
같은 시작점·같은 학습률에서 세 옵티마이저가 어떻게 다르게 움직이는지 실시간으로 비교하세요.
w ← w − η · g
단순. 한 step의 정보만 사용. 학습률 η가 모든 것을 결정.
v ← β·v + g
w ← w − η · v
관성으로 누적. β=0.9 일반적. 협곡과 노이즈에 강함. Nesterov 변형은 lookahead 위치 θ + βv에서 gradient를 평가합니다.
m ← β₁·m + (1−β₁)·g
v ← β₂·v + (1−β₂)·g²
w ← w − η · m̂ / (√v̂ + ε)
1차+2차 모멘트로 파라미터별 적응적 학습률. 2024년 사실상 표준.
f = 0.05x² + y²)에서는 lr ≥ 0.25일 때 SGD의 y 방향 step이 과도해져 진동·발산이 시작됩니다. Adam은 같은 lr에서도 gradient를 √v̂로 자동 정규화해 안정적으로 수렴합니다. (참고: SGD 발산 임계는 손실 헤시안의 최대 고유값 λmax에 의존하며 lr < 2/λmax 가 안정 조건입니다.)