

확률에서 LLM까지 – 데이터 사이언스 전문 교육 플랫폼
Chandola et al. (2009)는 이상치를 세 가지로 분류합니다: (1) Point Anomaly — 단일 점이 비정상, (2) Contextual Anomaly — 맥락(시간·계절·지역)에 비정상, (3) Collective Anomaly — 점들의 모음이 비정상 패턴.
이상치의 3가지 유형 — Point / Contextual / CollectiveIsolation Forest의 핵심 통찰: 이상치는 적은 무작위 분할로 격리된다. 즉, 무작위 split 트리에서 이상치의 path length가 짧고 정상점의 path length가 길다는 사실을 활용합니다. O(n) 시간으로 매우 빠르고 메모리 효율적입니다.
Isolation Forest — 무작위 분할로 이상치를 빠르게 격리LOF는 지역 밀도(local density)를 비교해 이상치를 탐지합니다. 점 p의 LOF는 "p의 이웃 밀도 / p의 이웃들이 갖는 이웃 밀도"의 비율로, 1보다 크게 벗어나면 이상치입니다. 밀도가 다른 군집이 공존하는 경우 전역 방법보다 우수합니다.
Isolation Forest (전역) vs LOF (지역) — 같은 데이터의 다른 판정One-Class SVM은 정상 데이터만 학습해 정상 영역의 경계를 찾고, 경계 밖의 점을 이상치로 판정합니다. RBF 커널을 사용하면 임의의 비선형 정상 영역을 학습할 수 있습니다. 신용카드 사기처럼 정상 데이터만 풍부하고 이상치 라벨이 거의 없을 때 강력합니다.
One-Class SVM (RBF) — 정상 영역의 경계 학습정상(파란색) + 이상치(빨간색) 데이터에 세 가지 방법을 적용해 정밀도·재현율·F1을 실시간 비교하세요.
같은 데이터에 세 가지 알고리즘을 동시 적용한 결과입니다. 데이터 특성에 따라 최적 알고리즘이 달라집니다.
Isolation Forest vs LOF vs One-Class SVM — 동일 데이터, 다른 결정 경계대규모 데이터 (O(n)), 고차원 가능, 튜닝 적음. 가장 먼저 시도할 알고리즘.
밀도가 다른 군집 공존 시 우수. O(n²) 거리 계산으로 큰 데이터엔 부적합.
정상 라벨만 풍부할 때. RBF 커널로 비선형 정상 영역 학습. nu와 gamma 튜닝 필요.
정상 데이터를 잘 재구성하도록 학습 → 재구성 오차 큰 점이 이상치. 이미지·시계열에 강력.
신용카드 거래 패턴(시간·금액·지역) 학습 → 비정상 거래 즉시 차단. PayPal, Stripe, 비자가 핵심 인프라로 사용.
센서 데이터(온도·진동·전류) 학습 → 비정상 패턴 감지로 사전 정비. 삼성·LG·현대차 스마트팩토리 핵심.
정상 영상 학습 → 종양·병변 자동 탐지. CT·MRI·병리 영상 보조 진단에서 활용.
네트워크 트래픽 패턴 학습 → DDoS, 침입, 멀웨어 자동 탐지. SIEM 솔루션의 핵심 기능.