

확률에서 LLM까지 – 데이터 사이언스 전문 교육 플랫폼
Sigmoid 미분 최대값이 0.25라서, 10층만 쌓아도 gradient 곱이 0.25¹⁰ ≈ 1e-6로 거의 0이 됩니다. 반대로 가중치가 1.5인 경우 30층에서 1.5³⁰ ≈ 1.9e+5로 폭주. 깊이는 신경망의 힘이지만 동시에 함정입니다.
깊이에 따른 Gradient의 지수적 변화 (log scale)Sigmoid 미분 최대 0.25 — 깊이가 누적되면 vanishing 보장. Tanh는 최대 1.0이지만 양 끝에서 포화. ReLU는 양수 영역에서 미분이 1이라 신호가 깊이를 거쳐도 보존됩니다 — 2010년대 ReLU 혁명의 핵심 이유.
활성화 함수와 그 미분 — 체인룰 누적 효과 비교활성화 함수·가중치 초기화·Skip Connection 조합에 따라 깊이별 gradient 크기가 어떻게 변하는지 직접 비교하세요.
잔차 블록 y = F(x) + x의 미분은 ∂y/∂x = ∂F/∂x + I — 항상 항등행렬 I가 더해집니다. F의 미분이 매우 작아져도 I가 1을 보존해 gradient가 깊은 층까지 흐릅니다. ResNet 152층이 학습 가능해진 이유입니다.
ResNet의 Skip Connection — Gradient가 직접 흐를 우회 경로Gradient 노름이 임계값을 넘으면 그 임계값으로 잘라냅니다. RNN과 LLM 학습의 사실상 필수 요소이며, 학습 중 손실이 갑자기 NaN으로 발산하면 가장 먼저 시도해야 할 해결책입니다.
Gradient Clipping: 폭주 step을 임계값으로 잘라 학습 안정화잘못된 초기화는 첫 forward pass부터 활성값을 폭주/소실시킵니다.Xavier(1/fan_in)는 Sigmoid/Tanh용, He(2/fan_in)는 ReLU용으로 ReLU가 음수 절반을 0으로 만든다는 사실을 보상합니다.
초기화 방법별 깊은 망의 활성값 분산 (10층 시뮬레이션)양수 영역 미분 1.0 → vanishing 방지. ReLU, Leaky ReLU, GELU, Swish.
활성화에 맞는 분산으로 초기화. PyTorch/Keras 기본값 신뢰.
잔차 연결로 gradient 고속도로 제공. ResNet, Transformer가 필수 사용.
노름이 임계값 초과 시 잘라냄. RNN/LLM 필수, NaN 방지의 첫 번째 도구.