

확률에서 LLM까지 – 데이터 사이언스 전문 교육 플랫폼
회귀선과 실제 값의 차이(잔차)가 손실의 근원입니다. MSE는 이 잔차를 제곱해서 평균합니다 — 큰 잔차일수록 손실이 가속도로 커지는 이유입니다.
MSE: 예측선과 실제 값의 차이(잔차)를 제곱하여 평균분류에서 모델이 "정답 클래스에 부여한 확률 p"의 −log가 손실입니다. p가 1에 가까우면 손실 ≈ 0, p가 0.01이면 손실 ≈ 4.6 — 확신 있는 오답에 폭발적 페널티를 주는 곡선의 모양입니다.
−log(p) 곡선: 확신 있는 오답일수록 손실이 폭발적으로 증가정답값과 예측값을 직접 움직여보며 MSE, MAE, Huber, Cross-Entropy의 모양과 값을 동시에 비교해보세요.
같은 오차 +3에 대해 MSE는 9, MAE는 3을 반환합니다. 이상치(outlier)가 많은 데이터에서 MSE가 휘둘리는 이유이자, MAE/Huber로 대체하는 동기입니다.
MSE는 아웃라이어에 민감, MAE는 선형 페널티정답 분포(one-hot)와 예측 확률 분포가 가까울수록 CE는 작아집니다. 좋은 예측(CE ≈ 0.16)과 나쁜 예측(CE ≈ 1.61)을 시각적으로 비교해보세요.
Cross-Entropy는 예측 확률 분포와 정답 분포의 거리를 측정가중치 공간에서 손실을 표면으로 그리면 "옵티마이저가 찾아가는 지형"이 됩니다.★ 표시가 최저점(Global Minimum) — 다음 단원 옵티마이저 실습에서 SGD/Momentum/Adam이 이 지형을 어떻게 탐색하는지 직접 비교합니다.
손실 표면: 옵티마이저가 최저점을 찾아가는 지형실수값을 예측하는 회귀 문제의 기본값. 큰 오차에 엄격하며 미분이 깔끔합니다.
이상치(outlier)가 많은 데이터에서 MSE는 흔들리지만 MAE/Huber는 견고합니다.
Sigmoid 출력과 짝을 이루어 미분이 (ŷ - y)로 단순화됩니다. 잘못된 확신에 큰 페널티.
Softmax 출력과 결합해 K개 클래스 중 하나를 고르는 문제에 사용. one-hot 정답과 매칭.