통계 실험실 차트
넘스탯 로고

넘스탯

DATA ANALYTICS & INSIGHTS

확률에서 LLM까지 – 데이터 사이언스 전문 교육 플랫폼

도움말

옵티마이저 실습실

SGD vs Momentum vs Adam — "왜 Adam이 LLM의 표준이 되었는가"를 시각적으로 체험

원하는 개념·랩·가이드를 검색해보세요

Ctrl K
🚀 옵티마이저 경로 비교 (SGD vs Momentum vs Adam)

같은 시작점·같은 학습률에서 세 옵티마이저가 어떻게 다르게 움직이는지 실시간으로 비교하세요.

손실 표면
옵티마이저
학습률 η = 0.100 (Adam은 ×2.5 페다고지용 스케일)
Step
step 0 / 120
x (가중치 1)y (가중치 2)
SGD 손실: 2.5625
Momentum 손실: 2.5625
Adam 손실: 2.5625
📐 옵티마이저 수식 한눈에 보기
SGD

w ← w − η · g

단순. 한 step의 정보만 사용. 학습률 η가 모든 것을 결정.

CNN 분류 (+Cosine)
SOTA Vision
Momentum

v ← β·v + g
w ← w − η · v

관성으로 누적. β=0.9 일반적. 협곡과 노이즈에 강함. Nesterov 변형은 lookahead 위치 θ + βv에서 gradient를 평가합니다.

SGD+Momentum
Nesterov
Adam

m ← β₁·m + (1−β₁)·g
v ← β₂·v + (1−β₂)·g²
w ← w − η · m̂ / (√v̂ + ε)

1차+2차 모멘트로 파라미터별 적응적 학습률. 2024년 사실상 표준.

LLM 학습
AdamW
🔬 직접 해보기 — 실습 과제
  1. SGD의 지그재그 확인: 협곡형 표면 + SGD만 활성화. Step을 천천히 진행하면 y 방향(가파른 쪽)으로 진동하면서 x 방향으로는 매우 느리게 이동하는 것이 보입니다.
  2. Momentum의 가속: SGD를 끄고 Momentum만 켜세요. 처음엔 SGD와 비슷하지만 관성이 누적되면서 x 방향 속도가 점점 빨라집니다. 골짜기에 강한 이유입니다.
  3. Adam의 안정성: 이 랩의 협곡 표면(f = 0.05x² + y²)에서는 lr ≥ 0.25일 때 SGD의 y 방향 step이 과도해져 진동·발산이 시작됩니다. Adam은 같은 lr에서도 gradient를 √v̂로 자동 정규화해 안정적으로 수렴합니다. (참고: SGD 발산 임계는 손실 헤시안의 최대 고유값 λmax에 의존하며 lr < 2/λmax 가 안정 조건입니다.)
  4. 안장점 탈출 실험: 손실 표면을 "안장점"으로 변경. SGD는 안장점 근처에서 gradient가 0에 가까워 거의 멈춥니다. Momentum/Adam은 누적된 모멘트로 탈출합니다. 실제 깊은 신경망의 손실 표면에 안장점이 많다는 점에서 중요한 차이입니다.
  5. 학습률 조정 비교: 학습률 0.05 → 0.20 → 0.30으로 변경하며 각 옵티마이저 거동 관찰. "안전한" 학습률 범위가 옵티마이저마다 다릅니다.
📖 더 깊이 학습하기
  • Goodfellow et al., Deep Learning (MIT Press 2016) — Ch.8: 옵티마이저 이론과 비교
  • Kingma & Ba, Adam (ICLR 2015): Adam 원논문
  • Loshchilov & Hutter, AdamW (ICLR 2019): Adam의 weight decay 문제 해결
  • Wilson et al., NeurIPS 2017: SGD가 Adam보다 일반화에 좋은 경우 분석