

확률에서 LLM까지 – 데이터 사이언스 전문 교육 플랫폼
모든 점을 각자 클러스터로 시작해, 가장 가까운 두 클러스터를 반복적으로 병합합니다. 결국 모든 점이 하나의 클러스터로 모일 때까지 진행합니다 — 이 모든 병합 이력이 덴드로그램입니다.
Agglomerative 클러스터링: bottom-up 단계별 병합덴드로그램에서 특정 높이에서 수평선을 그어 가로지르는 가지 수가 클러스터 수입니다. "가장 긴 수직 거리(jump)"가 있는 곳에서 자르는 것이 일반적인 휴리스틱입니다.
덴드로그램을 자르는 높이가 클러스터 수를 결정Linkage 방식을 바꾸고 자르는 높이(클러스터 수)를 조정하며 결과 변화를 비교하세요.
두 클러스터 사이의 거리를 어떻게 정의하느냐에 따라 결과가 달라집니다.Single(최단), Complete(최장), Average(평균), Ward(분산 증가량 최소) — 일반적으로 Ward가 가장 안정적입니다.
4종 linkage의 덴드로그램과 클러스터링 결과 비교각 linkage가 어떤 거리를 측정하는지 두 클러스터 A, B 예시로 확인합니다. Single은 한 쌍의 최단 거리, Complete는 최장 거리, Average는 모든 쌍의 평균, Ward는 병합 시 SSE 증가량을 최소화합니다.
Linkage별 두 클러스터 간 거리 정의계층적 클러스터링은 두 방향이 가능합니다. Agglomerative(bottom-up)는 점→클러스터→하나로 합쳐가고, Divisive(top-down)는 하나에서 출발해 분할합니다. 실무는 거의 항상 Agglomerative를 사용합니다.
계층적 클러스터링의 두 방향 — Agglomerative가 표준Elongated/chain 모양 클러스터 탐지. 단점: chaining 효과로 노이즈에 약함.
컴팩트한 클러스터. 단점: outlier에 민감.
Single과 Complete의 절충안. 노이즈에 비교적 강건.
분산 증가량을 최소화 → K-means와 유사한 컴팩트 균형 클러스터. scikit-learn 기본.