

확률에서 LLM까지 – 데이터 사이언스 전문 교육 플랫폼
학습이 진행되면서 각 층의 입력 분포가 흔들립니다. 윗줄은 BN 없을 때 평균·분산이 점점 변하는 모습, 아랫줄은 BN 적용 시 분포가 매번 표준화되어 안정적인 모습입니다.
Internal Covariate Shift — BN 없으면 분포가 흐트러지지만 BN이 매번 표준화미니배치 입력 → 평균·분산 계산 → 정규화 → 학습 가능한 γ, β로 스케일·시프트. γ, β는 모델이 "정규화가 너무 강하다"고 판단하면 원래 분포를 복원할 수 있는 escape hatch입니다.
BN 4단계 — 정규화 + 학습 가능한 스케일/시프트4층 네트워크의 각 층 활성값 분포가 학습 epoch이 진행되며 어떻게 변하는지 BN 유무에 따라 비교합니다.
BN 없으면 lr=0.1은 발산합니다. BN을 추가하면 같은 lr=0.1이 안정적으로 수렴 — 약 10배 빠른 학습이 가능해집니다.
BN은 더 큰 학습률을 허용해 학습 가속4D 텐서 (N, C, H, W)에서 어떤 차원을 따라 평균·분산을 계산하느냐가 정규화의 종류를 결정합니다.BN은 배치, LN은 특징, IN은 샘플별 채널별, GN은 채널 그룹 단위입니다.
4종 정규화: 배치/특징/채널 어느 차원을 따라 평균·분산을 계산학습 시에는 미니배치 통계를 사용하지만 추론 시에는 학습 중 누적한 이동평균(EMA)을 사용합니다. 이 분리가 BN의 가장 까다로운 부분이며, model.eval() 호출을 잊으면 결과가 매번 달라질 수 있습니다.
학습 시 미니배치 통계 → 추론 시 고정 EMA 통계 사용CNN의 표준. 배치 ≥ 16에서 잘 작동. ResNet, EfficientNet 등 거의 모든 백본에서 사용.
Transformer/RNN의 표준. 시퀀스 길이·배치 크기에 독립적. ViT, BERT, GPT 모두 LN 사용.
Detection/Segmentation의 표준. 배치 크기 1~4에서도 안정. Mask R-CNN 등에서 BN 대신 사용.
평균 빼지 않고 RMS만으로 정규화 — 더 빠름. LLaMA, T5의 표준.