본문 바로가기

지식창고

연구방법론 - 군집 분석 개요

연구방법론 - 군집 분석 개요

-- #군집 분석에서 #비지도학습과 거리척도


군집 분석(Clustering) 개요

  • 비지도 학습의 대표적 기법으로, 데이터에 레이블이 없는 상태에서 유사한 데이터끼리 그룹(군집)으로 묶음[4].
  • 대표 알고리즘: K-means, 계층적 군집 분석(합병형/분할형), 밀도 기반(DBSCAN), 분포 기반(GMM) 등[5].

거리(유사도) 척도의 종류와 특징

  • 유클리드 거리: 두 점 사이의 직선 거리로, 연속형 변수에서 가장 많이 사용됨[2].
  • 맨해튼 거리: 각 차원별 차이의 절댓값을 모두 더한 거리. 격자 구조나 절대값 기반 데이터에 유리[2].
  • 마할라노비스 거리: 변수 간 상관관계를 반영해 거리 계산. 변수들의 분산과 상관성이 다를 때 효과적[2].
  • 코사인 유사도/자카드 계수: 벡터 방향이나 집합 간 유사도 측정에 사용됨[2].

계층적 군집 분석에서 군집 간 거리 계산법

방법명 계산 방식 및 특징
단일 연결법 두 군집의 모든 점 쌍 중 최소 거리(최단 거리)로 군집 간 거리 정의. 이상치에 민감[1][5][7].
완전 연결법 두 군집의 모든 점 쌍 중 최대 거리(최장 거리)로 군집 간 거리 정의. 군집이 조밀하게 묶임[1][5][7].
평균 연결법 두 군집의 모든 점 쌍의 평균 거리로 군집 간 거리 정의. 이상치에 덜 민감[1][5].
중심 연결법 각 군집의 중심점(평균) 간의 거리로 계산. 계산량이 적음[1][5].
와드 연결법 군집 내 오차제곱합(SSE)이 최소가 되도록 군집을 병합. 정보 손실 최소화[1][5].

분할적 군집 분석 (K-means 등)

  • 군집 수(k)를 미리 지정, 각 데이터와 군집 중심점 간의 거리를 계산하여 가장 가까운 군집에 배정[1].
  • 중심점은 반복적으로 재계산되며, 거리 척도는 주로 유클리드 거리 사용[3].
  • 초기값에 따라 결과가 달라질 수 있고, 이상치에 민감함[1].

군집 평가 지표

  • 엘보우 기법: 클러스터 수(k) 증가에 따른 SSE 감소 곡선을 보고 최적 k 선택[1].
  • 실루엣 계수: 군집 내 응집도와 군집 간 분리도를 동시에 고려, 1에 가까울수록 군집이 잘 분리됨[1].
  • 덴드로그램: 계층적 군집 분석에서 군집 결합 순서를 트리로 시각화[1].

거리 척도 선택의 중요성

  • 거리 정의와 척도 선택에 따라 군집 결과가 크게 달라짐[3][8].
  • 연속형, 범주형, 혼합형 변수에 따라 적절한 거리 척도와 군집 방법을 선택해야 신뢰성 있는 결과 도출 가능[8].

요약

  • 군집 분석은 비지도 학습의 대표적 방법으로, 데이터 간 거리(유사도) 정의가 핵심.
  • 거리 척도와 군집 간 거리 계산법(단일, 완전, 평균, 중심, 와드 등)에 따라 결과가 달라짐.
  • 군집 평가와 거리 척도 선택이 분석의 신뢰성에 큰 영향을 미침.

인용:
[1] 군집 분석 Clustering Analytic - velog https://velog.io/@lifeisbeautiful/%EA%B5%B0%EC%A7%91-%EB%B6%84%EC%84%9D-Clustering-Analytic
[2] clustering 종류, 거리(유사도) 척도, 군집 평가 기준 : 네이버 블로그 https://blog.naver.com/winddori2002/221872726043
[3] 군집화 K-means - 지식덤프 http://jidum.com/jidums/view.do?jidumId=1097
[4] 군집분석[Cluster Analysis] - 1 개념 및 데이터 유형 https://glorymind.tistory.com/entry/%EA%B5%B0%EC%A7%91%EB%B6%84%EC%84%9DCluster-Analysis
[5] [ADsP] 3.11 군집분석, 연관분석 - 리미창고 - 티스토리 https://rimeestore.tistory.com/entry/ADsP-311-%EA%B5%B0%EC%A7%91%EB%B6%84%EC%84%9D-%EC%97%B0%EA%B4%80%EB%B6%84%EC%84%9D
[6] [PDF] Fuzzy K-means 군집분석을 위한 다양한 유효성 지수 개발* http://kmr.kasba.or.kr/xml/25587/25587.pdf
[7] [PDF] 제13장 군집분석 (Cluster Analysis) http://contents.kocw.or.kr/document/13_Cluster_Analysis.pdf
[8] 연속형과 범주형 변수가 혼합된 데이터의 군집분석 연구 https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002380072