

확률에서 LLM까지 – 데이터 사이언스 전문 교육 플랫폼
PCA의 핵심 아이디어는 단순합니다 — 데이터를 새로운 좌표계로 회전했을 때 각 축의 분산이 최대가 되는 방향을 찾는 것입니다. 빨간 화살표(PC1)는 가장 많이 흩어지는 방향, 주황 화살표(PC2)는 그에 수직이면서 두 번째로 많이 흩어지는 방향입니다.
PC1·PC2는 데이터의 분산이 최대가 되는 직교 축PCA는 데이터의 공분산 행렬 Σ를 고유분해합니다. 고유벡터가 주성분 방향이고, 고유값 λ가 해당 축의 분산입니다. 큰 순으로 정렬된 고유값들의 누적 합이 설명 분산이 됩니다.
공분산 행렬 → 고유분해 → 분산이 큰 순으로 정렬2D 데이터의 회전·잡음을 조정하며 주성분 PC1·PC2가 어떻게 결정되는지 실시간으로 관찰하세요. 공분산 행렬의 고유분해 결과가 빨간 화살표(PC1)·주황 화살표(PC2)로 표시됩니다.
실무에서 가장 큰 질문은 "차원을 몇 개로 줄일까?"입니다. Scree plot은 각 PC의 고유값을 크기 순으로 그린 차트로, 꺾이는 지점(Elbow) 또는 누적 분산 95% 임계를 기준으로 K를 정합니다.
Scree plot — Elbow와 95% 임계로 적정 차원 결정사람은 3차원 이상을 직관적으로 볼 수 없습니다. PCA는 고차원 데이터의 처음 2~3개 주성분을 추출해 2D/3D 산점도로 시각화하는 표준 도구입니다. 임의의 두 차원보다 PC1·PC2가 클래스 분리를 훨씬 잘 보여줍니다.
4D 데이터의 원본 2축 vs PCA 후 2D — 클래스 분리가 뚜렷해진다16×16 = 256차원의 얼굴 이미지를 PCA로 K개 주성분으로 압축한 뒤 복원합니다. K가 작아도 분산을 많이 보존하는 주성분만 살아남으면 시각적으로 거의 비슷한 이미지를 복원할 수 있습니다 — JPEG/Eigenface의 핵심 원리.
PCA 이미지 압축: 256D → K=3, 8, 30, 100 PC로 복원