

확률에서 LLM까지 – 데이터 사이언스 전문 교육 플랫폼
혼동 행렬(Confusion Matrix)은 분류 결과를 TP/FP/FN/TN 네 칸으로 분해합니다. 이 네 숫자로부터 Accuracy, Precision, Recall, Specificity, F1이 모두 도출됩니다. 어떤 지표를 최우선으로 볼지는 도메인의 오류 비용 구조에 달려 있습니다.
혼동 행렬과 5대 지표 — 분류 모델 성능 진단의 출발점ROC 곡선은 모든 임계값에서의 (FPR, TPR)을 그린 것으로, 임계값과 무관하게 모델 자체의 분류 능력을 평가합니다. AUC(Area Under Curve)는 무작위로 뽑은 양성 샘플의 점수가 무작위로 뽑은 음성 샘플보다 높을 확률 — 0.5는 무작위, 1.0은 완벽.
ROC Curve — Fawcett (Pattern Recognition Letters 2006)이진 분류기의 출력 확률을 가정하고 분류 임계값을 조절하며 5대 지표와 ROC 곡선 위 현재 위치를 실시간 관찰하세요.
데이터를 K등분해 각 fold가 한 번씩 validation 역할을 합니다. K번 평균 성능으로 평가하면 단일 분할의 우연성을 제거하고 표준편차로 안정성까지 측정할 수 있습니다. K=5 또는 K=10이 표준이며, 작은 데이터에선 LOOCV(K=N)도 사용합니다.
5-Fold Cross-Validation — Kohavi (IJCAI 1995)Training(모델 학습) · Validation(튜닝·모델 선택) · Test(최종 평가, 한 번만)로 분리해 data leakage를 방지합니다. 학습 곡선에서 훈련 손실은 계속 감소하지만 검증 손실이 다시 상승하면 과적합 — Early Stopping 지점입니다.
Train/Val/Test 분할과 학습 곡선으로 과적합 진단양성 비율이 5% 같은 극심한 불균형 데이터에서는 ROC-AUC가 부풀려 보입니다. PR Curve와 Average Precision(AP)이 더 솔직한 평가입니다 (Saito & Rehmsmeier, PLOS ONE 2015). 사기 탐지·희귀 질병 진단처럼 양성이 드문 도메인에서 필수.
PR Curve vs ROC Curve — 불균형 데이터에서 어떤 것을 봐야 하나?놓치면(FN) 환자 생명에 영향. 위양성(FP)은 추가 검사로 확인 가능.
정상 메일을 스팸으로 분류(FP)하면 사용자 손해. 약간의 FN(스팸 통과)은 감수 가능.
양성(사기)이 0.1%로 극심한 불균형. ROC-AUC는 부풀려 보임 → PR-AUC 사용.
균형 잡힌 데이터에서는 F1으로 종합 평가. Accuracy로 직관적 비교.
sklearn.metrics, sklearn.model_selection