

확률에서 LLM까지 – 데이터 사이언스 전문 교육 플랫폼
모델이 단순하면 underfitting(편향 ↑), 너무 복잡하면 overfitting(분산 ↑). 검증 오차의 U자 곡선에서 최저점이 우리가 찾는 지점이며, 정규화가 그 균형을 잡아줍니다.
모델 복잡도와 일반화 오차의 U자 관계 — 정규화가 균형점을 찾는 도구정규화가 없으면 훈련 손실은 계속 줄어도 검증 손실은 어느 순간 다시 오릅니다. 그 분기점에서 학습을 멈추는 것이 Early Stopping이고, 페널티를 추가해 그 분기를 늦추는 것이 L1/L2/Dropout입니다.
과적합 vs 정규화: 검증 곡선이 다르게 움직인다모델 복잡도(차수)와 정규화 강도(λ)를 조정하며 과적합과 일반화의 균형을 직접 체감하세요.
L1(다이아몬드)은 꼭짓점에서 손실 등고선과 만나 일부 가중치를 정확히 0으로 만듭니다(희소성). L2(원)는 매끄러운 표면에서 만나 모든 가중치를 작게 만들지만 0에는 도달하지 않습니다.
L1 다이아몬드 vs L2 원: 제약 영역의 모양이 해의 성질을 결정학습된 가중치의 히스토그램을 비교해보면 정규화 효과가 한눈에 보입니다. L2는 가중치를 0 주변으로 모으고(축소), L1은 일부를 정확히 0으로 만듭니다(특징 선택).
정규화별 학습된 가중치 분포 비교학습 step마다 은닉 뉴런 일부를 무작위로 꺼서 매번 다른 "부분 네트워크"를 학습합니다. 100개 뉴런에서 50%를 끄면 가능한 부분 네트워크는 2¹⁰⁰개 — 자동으로 앙상블 효과를 얻습니다.
Dropout: 학습마다 다른 부분 네트워크를 사용 = 무료 앙상블거의 모든 딥러닝 모델의 기본. PyTorch weight_decay=1e-4가 표준. Adam에서는 AdamW(decoupled)를 써야 제대로 작동합니다.
중요한 특징만 골라내고 나머지를 0으로 만듭니다. 해석 가능성이 중요한 도메인(의료, 금융)에서 유용.
Fully-connected 층에 p=0.2~0.5로 적용. BN과 함께 쓰면 효과가 줄어드는 경향.
검증 손실이 N epoch 연속 개선 안 되면 학습 중단. 하이퍼파라미터 거의 없고 효과 큼.