

확률에서 LLM까지 – 데이터 사이언스 전문 교육 플랫폼
WCSS(K) = Σᵢ Σx∈Cᵢ ‖x − μᵢ‖²는 각 cluster 내 점-중심 거리의 제곱합입니다. K가 증가하면 항상 감소하지만, 감소율이 급격히 줄어드는 지점("팔꿈치")이 자연스러운 K입니다.
Elbow Method — WCSS의 꺾이는 지점이 최적 KRousseeuw (1987)의 Silhouette는 점 i에 대해 두 거리를 비교합니다: a(i)는 자기 cluster 내 평균 거리(응집), b(i)는 가장 가까운 다른 cluster까지 평균 거리(분리). s(i) = (b(i) − a(i)) / max(a(i), b(i))는 [−1, 1] 범위로 1에 가까울수록 잘 분리된 cluster입니다.
Silhouette Coefficient 정의 — Rousseeuw (1987)각 점의 s(i)를 cluster별로 정렬해 가로 막대로 그린 것이 Silhouette Plot입니다. "두께가 균일한 칼날 모양"이 좋은 클러스터링, 어떤 cluster가 짧거나 s(<0)인 점이 많으면 K 조정 또는 다른 알고리즘이 필요합니다.
Silhouette Plot — Rousseeuw의 클래식 시각화여러 K로 K-Means를 돌린 뒤 평균 Silhouette Score를 비교합니다. 최댓값을 갖는 K가 권장됩니다. Kaufman & Rousseeuw (1990)의 해석 기준: >0.7 강한 구조 / 0.5~0.7 합리적 / 0.25~0.5 약함 / <0.25 구조 거의 없음.
K별 Silhouette Score — 최댓값을 갖는 K가 권장두 지표가 같은 K를 가리킬 때 결정의 신뢰도가 높아집니다. 다를 때는 데이터 구조 점검·도메인 지식·Gap Statistic(Tibshirani et al. 2001) 등의 보조 지표를 추가로 사용합니다.
Elbow + Silhouette 결합 — 일치 시 신뢰도 ↑데이터셋을 선택하고 K=1~10 범위에서 두 평가지표를 동시 비교하세요. 두 방법이 같은 K를 가리키면 신뢰도가 높습니다. (Rousseeuw 1987의 Silhouette 정의 사용)
위 평가지표로 K를 정한 뒤, 실제 K-Means 알고리즘이 step-by-step으로 어떻게 수렴하는지 아래에서 시각적으로 확인하세요.
장점: 직관적, 계산 빠름. 단점: "꺾이는 지점"이 주관적이고, 매끄러운 데이터에서는 명확한 elbow가 없음.
장점: 객관적 수치 비교 가능. 단점: O(n²) 거리 계산으로 느림. 큰 데이터에서는 샘플링 사용.
Tibshirani et al. (2001) — null reference 분포와 WCSS 차이를 통계적으로 비교. 가장 엄밀하지만 비용 큼.
확률 모델 가정 시 적용 가능. K-Means는 결정론적이라 직접 적용 불가, GMM에서는 표준.
데이터 포인트 수: 100