넘스탯

DATA ANALYTICS & INSIGHTS

확률에서 LLM까지 – 데이터 사이언스 전문 교육 플랫폼

학습 메뉴

도움말

홈

옵티마이저 실습실

SGD vs Momentum vs Adam — "왜 Adam이 LLM의 표준이 되었는가"를 시각적으로 체험

원하는 개념·랩·가이드를 검색해보세요

Ctrl K

딥러닝 이론으로 상세 이론 학습

같은 언덕을 내려가도, 길을 고르는 방법은 여러 가지

손실 함수가 "어디로 내려가야 하는지"를 알려준다면, 옵티마이저는 "얼마나, 어떻게 내려갈지"를 정합니다. 같은 신경망이라도 SGD, Momentum, Adam 중 무엇을 쓰느냐에 따라 수렴 속도와 최종 성능이 달라집니다. 직접 바꿔가며 그 차이를 확인해 보세요.

이 페이지에서 배우고 나면

SGD·Momentum·Adam이 수렴 과정에서 어떻게 다르게 움직이는지 직접 비교할 수 있습니다.
학습률이 너무 크거나 작을 때 무슨 일이 생기는지 관찰할 수 있습니다.
옵티마이저 선택이 학습 속도에 미치는 영향을 체감할 수 있습니다.

옵티마이저가 왜 학습 자체를 결정하는가?

손실 함수가 "어디로 가야 할지"(gradient)를 알려준다면, 옵티마이저는 "얼마나, 어떻게 갈지"를 결정합니다. 같은 신경망·같은 손실이라도 옵티마이저가 다르면 수렴 속도, 최종 성능, 일반화 능력이 크게 달라집니다.

옵티마이저 경로 비교 (SGD vs Momentum vs Adam)

같은 시작점·같은 학습률에서 세 옵티마이저가 어떻게 다르게 움직이는지 실시간으로 비교하세요.

손실 표면

옵티마이저

학습률 η = 0.100 (Adam은 ×2.5 페다고지용 스케일)

Step

step 0 / 120

SGD 손실: 2.5625

Momentum 손실: 2.5625

Adam 손실: 2.5625

관찰 포인트

협곡형: SGD는 y 방향(가파른 쪽)에 지그재그가 심하고, Momentum/Adam은 x 방향(완만한 쪽)으로 빠르게 수렴
안장점: SGD는 결정론적으로는 gradient가 0인 안장점에서 멈출 수 있지만 실전에서는 미니배치 노이즈로 탈출. Momentum/Adam은 1차 모멘트 누적으로 더 효과적으로 탈출
이 협곡 표면에서는 lr ≥ 0.25일 때 SGD가 y 방향 진동을 시작 (안정 조건 lr < 2/λ_max 위반). Adam은 √v̂ 정규화로 같은 lr에서도 안정
Step 슬라이더를 직접 조작해 각 옵티마이저의 초기/중기/후기 거동을 비교해보세요

📐 옵티마이저 수식 한눈에 보기

SGD

w ← w − η · g

단순. 한 step의 정보만 사용. 학습률 η가 모든 것을 결정.

CNN 분류 (+Cosine)

SOTA Vision

Momentum

v ← β·v + g
w ← w − η · v

관성으로 누적. β=0.9 일반적. 협곡과 노이즈에 강함. Nesterov 변형은 lookahead 위치 θ + βv에서 gradient를 평가합니다.

SGD+Momentum

Nesterov

Adam

m ← β₁·m + (1−β₁)·g
v ← β₂·v + (1−β₂)·g²
w ← w − η · m̂ / (√v̂ + ε)

1차+2차 모멘트로 파라미터별 적응적 학습률. 2024년 사실상 표준.

LLM 학습

AdamW

직접 해보기 — 실습 과제

SGD의 지그재그 확인: 협곡형 표면 + SGD만 활성화. Step을 천천히 진행하면 y 방향(가파른 쪽)으로 진동하면서 x 방향으로는 매우 느리게 이동하는 것이 보입니다.
Momentum의 가속: SGD를 끄고 Momentum만 켜세요. 처음엔 SGD와 비슷하지만 관성이 누적되면서 x 방향 속도가 점점 빨라집니다. 골짜기에 강한 이유입니다.
Adam의 안정성: 이 랩의 협곡 표면(f = 0.05x² + y²)에서는 lr ≥ 0.25일 때 SGD의 y 방향 step이 과도해져 진동·발산이 시작됩니다. Adam은 같은 lr에서도 gradient를 √v̂로 자동 정규화해 안정적으로 수렴합니다. (참고: SGD 발산 임계는 손실 헤시안의 최대 고유값 λ_max에 의존하며 lr < 2/λ_max 가 안정 조건입니다.)
안장점 탈출 실험: 손실 표면을 "안장점"으로 변경. SGD는 안장점 근처에서 gradient가 0에 가까워 거의 멈춥니다. Momentum/Adam은 누적된 모멘트로 탈출합니다. 실제 깊은 신경망의 손실 표면에 안장점이 많다는 점에서 중요한 차이입니다.
학습률 조정 비교: 학습률 0.05 → 0.20 → 0.30으로 변경하며 각 옵티마이저 거동 관찰. "안전한" 학습률 범위가 옵티마이저마다 다릅니다.

📖 더 깊이 학습하기

Goodfellow et al., Deep Learning (MIT Press 2016) — Ch.8: 옵티마이저 이론과 비교
Kingma & Ba, Adam (ICLR 2015): Adam 원논문
Loshchilov & Hutter, AdamW (ICLR 2019): Adam의 weight decay 문제 해결
Wilson et al., NeurIPS 2017: SGD가 Adam보다 일반화에 좋은 경우 분석