넘스탯

DATA ANALYTICS & INSIGHTS

확률에서 LLM까지 – 데이터 사이언스 전문 교육 플랫폼

학습 메뉴

도움말

홈

비지도학습 종합 실습실

"정답표 없이 데이터의 구조를 발견하라" — 6개 핵심 알고리즘을 한자리에서 체험

원하는 개념·랩·가이드를 검색해보세요

Ctrl K

기계학습 이론으로 상세 이론 학습

정답 없이, 데이터 스스로 구조를 찾게 하기

라벨(정답)이 없는 데이터에서도 숨은 구조는 있습니다. 비지도학습은 정답을 주지 않고 데이터가 스스로 비슷한 것끼리 뭉치거나(군집화), 복잡함을 줄이게(차원 축소) 합니다. 아래 실습들에서 대표 기법을 직접 다뤄보세요.

이 페이지에서 배우고 나면

군집화·차원 축소 등 비지도학습이 푸는 문제 유형을 구분할 수 있습니다.
정답이 없는데 어떻게 '잘한 것'인지 판단하는지 감을 잡을 수 있습니다.
K-means·PCA·DBSCAN 등이 각각 어떤 상황에 맞는지 이해할 수 있습니다.

비지도학습의 4가지 카테고리

(1) 클러스터링: 유사한 데이터를 그룹화 (K-Means, DBSCAN, 계층적). (2) 차원 축소: 고차원 → 저차원으로 압축·시각화 (PCA). (3) 패턴 마이닝: 함께 나타나는 항목 발견 (연관 규칙). (4) 이상치 탐지: 정상에서 벗어난 점 자동 탐지 (Isolation Forest 등).

K-Means 종합 실습

대표 클러스터링 + Elbow/Silhouette

Lloyd 알고리즘 시각화에 Elbow Method와 Silhouette Score 평가를 결합한 종합 랩. K 선택의 두 표준 휴리스틱 비교.

K-Means

Elbow

Silhouette

Lloyd (1957), Rousseeuw (1987)★★☆☆☆

DBSCAN 실습

밀도 기반 클러스터링

임의 모양 클러스터와 노이즈 자동 탐지. core/border/noise 시각화 + eps·min_samples 튜닝.

DBSCAN

밀도 기반

노이즈 탐지

Ester et al. (KDD 1996)★★★☆☆

계층적 클러스터링 실습

Agglomerative + Dendrogram

Bottom-up 병합과 덴드로그램 컷팅. 4종 linkage(single·complete·average·ward) 비교.

Hierarchical

Dendrogram

Ward

Ward (1963), Lance & Williams (1967)★★★☆☆

PCA 실습

주성분 분석 + 차원 축소

공분산 행렬 고유분해, 주성분 시각화, Scree plot, 이미지 압축까지. 차원 축소의 표준 알고리즘.

PCA

차원 축소

고유분해

Pearson (1901), Bishop PRML Ch.12★★★☆☆

연관 규칙 실습

Apriori 알고리즘 (장바구니)

Support·Confidence·Lift 3대 지표 + Apriori 알고리즘. 추천 시스템과 마케팅의 기초.

Apriori

Market Basket

Lift

Agrawal et al. (SIGMOD 1993)★★★☆☆

이상치 탐지 실습

Isolation Forest · LOF · OC-SVM

Z-Score·Mahalanobis·k-NN 비교 + Precision/Recall/F1 평가. 사기 탐지·고장 예측의 핵심.

Isolation Forest

LOF

One-Class SVM

Liu (2008), Breunig (2000), Schölkopf (2001)★★★★☆

🧭 어떤 알고리즘을 선택해야 할까?

📍 데이터가 구형 클러스터로 잘 나뉜다 → K-Means

사전에 K를 알거나 추정 가능. 가장 빠르고 표준적인 선택. Elbow/Silhouette로 K 결정.

🌙 모양이 복잡하거나 노이즈가 많다 → DBSCAN

초승달·동심원 같은 비구형 클러스터 처리 + 노이즈 자동 분류. K 사전 결정 불필요.

🌳 계층 구조가 의미 있다 → 계층적 클러스터링

덴드로그램으로 다양한 K를 동시에 탐색 가능. 작은~중간 데이터에 적합.

📉 차원이 너무 많다 → PCA

시각화·전처리·노이즈 제거. 선형 가정. 비선형 구조엔 Kernel PCA, t-SNE, UMAP.

🛒 함께 나타나는 항목 발견 → 연관 규칙

트랜잭션 데이터(구매·클릭). Apriori는 교육용·소규모, FP-Growth는 실무용 빠른 대안.

"비정상" 자동 탐지 → 이상치 탐지

사기·고장·이상 행동 탐지. Isolation Forest 기본, 밀도 격차엔 LOF, 비선형엔 OC-SVM.

📖 비지도학습 종합 학술 자료

Hastie, Tibshirani, Friedman — Elements of Statistical Learning (Springer 2009) — Ch.14: 비지도학습 전반
Bishop — Pattern Recognition and Machine Learning (Springer 2006) — Ch.9, 12: GMM, PCA, ICA
Goodfellow et al. — Deep Learning (MIT Press 2016) — Ch.14: Autoencoders, 표현 학습
Aggarwal — Data Mining: The Textbook (Springer 2015): 비지도학습 응용 종합
scikit-learn 문서: sklearn.cluster, sklearn.decomposition, sklearn.ensemble.IsolationForest