연구방법론 - 군집 분석 개요
-- #군집 분석에서 #비지도학습과 거리척도
군집 분석(Clustering) 개요
- 비지도 학습의 대표적 기법으로, 데이터에 레이블이 없는 상태에서 유사한 데이터끼리 그룹(군집)으로 묶음[4].
- 대표 알고리즘: K-means, 계층적 군집 분석(합병형/분할형), 밀도 기반(DBSCAN), 분포 기반(GMM) 등[5].
거리(유사도) 척도의 종류와 특징
- 유클리드 거리: 두 점 사이의 직선 거리로, 연속형 변수에서 가장 많이 사용됨[2].
- 맨해튼 거리: 각 차원별 차이의 절댓값을 모두 더한 거리. 격자 구조나 절대값 기반 데이터에 유리[2].
- 마할라노비스 거리: 변수 간 상관관계를 반영해 거리 계산. 변수들의 분산과 상관성이 다를 때 효과적[2].
- 코사인 유사도/자카드 계수: 벡터 방향이나 집합 간 유사도 측정에 사용됨[2].
계층적 군집 분석에서 군집 간 거리 계산법
방법명 | 계산 방식 및 특징 |
---|---|
단일 연결법 | 두 군집의 모든 점 쌍 중 최소 거리(최단 거리)로 군집 간 거리 정의. 이상치에 민감[1][5][7]. |
완전 연결법 | 두 군집의 모든 점 쌍 중 최대 거리(최장 거리)로 군집 간 거리 정의. 군집이 조밀하게 묶임[1][5][7]. |
평균 연결법 | 두 군집의 모든 점 쌍의 평균 거리로 군집 간 거리 정의. 이상치에 덜 민감[1][5]. |
중심 연결법 | 각 군집의 중심점(평균) 간의 거리로 계산. 계산량이 적음[1][5]. |
와드 연결법 | 군집 내 오차제곱합(SSE)이 최소가 되도록 군집을 병합. 정보 손실 최소화[1][5]. |
분할적 군집 분석 (K-means 등)
- 군집 수(k)를 미리 지정, 각 데이터와 군집 중심점 간의 거리를 계산하여 가장 가까운 군집에 배정[1].
- 중심점은 반복적으로 재계산되며, 거리 척도는 주로 유클리드 거리 사용[3].
- 초기값에 따라 결과가 달라질 수 있고, 이상치에 민감함[1].
군집 평가 지표
- 엘보우 기법: 클러스터 수(k) 증가에 따른 SSE 감소 곡선을 보고 최적 k 선택[1].
- 실루엣 계수: 군집 내 응집도와 군집 간 분리도를 동시에 고려, 1에 가까울수록 군집이 잘 분리됨[1].
- 덴드로그램: 계층적 군집 분석에서 군집 결합 순서를 트리로 시각화[1].
거리 척도 선택의 중요성
- 거리 정의와 척도 선택에 따라 군집 결과가 크게 달라짐[3][8].
- 연속형, 범주형, 혼합형 변수에 따라 적절한 거리 척도와 군집 방법을 선택해야 신뢰성 있는 결과 도출 가능[8].
요약
- 군집 분석은 비지도 학습의 대표적 방법으로, 데이터 간 거리(유사도) 정의가 핵심.
- 거리 척도와 군집 간 거리 계산법(단일, 완전, 평균, 중심, 와드 등)에 따라 결과가 달라짐.
- 군집 평가와 거리 척도 선택이 분석의 신뢰성에 큰 영향을 미침.
인용:
[1] 군집 분석 Clustering Analytic - velog https://velog.io/@lifeisbeautiful/%EA%B5%B0%EC%A7%91-%EB%B6%84%EC%84%9D-Clustering-Analytic
[2] clustering 종류, 거리(유사도) 척도, 군집 평가 기준 : 네이버 블로그 https://blog.naver.com/winddori2002/221872726043
[3] 군집화 K-means - 지식덤프 http://jidum.com/jidums/view.do?jidumId=1097
[4] 군집분석[Cluster Analysis] - 1 개념 및 데이터 유형 https://glorymind.tistory.com/entry/%EA%B5%B0%EC%A7%91%EB%B6%84%EC%84%9DCluster-Analysis
[5] [ADsP] 3.11 군집분석, 연관분석 - 리미창고 - 티스토리 https://rimeestore.tistory.com/entry/ADsP-311-%EA%B5%B0%EC%A7%91%EB%B6%84%EC%84%9D-%EC%97%B0%EA%B4%80%EB%B6%84%EC%84%9D
[6] [PDF] Fuzzy K-means 군집분석을 위한 다양한 유효성 지수 개발* http://kmr.kasba.or.kr/xml/25587/25587.pdf
[7] [PDF] 제13장 군집분석 (Cluster Analysis) http://contents.kocw.or.kr/document/13_Cluster_Analysis.pdf
[8] 연속형과 범주형 변수가 혼합된 데이터의 군집분석 연구 https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002380072
'지식창고' 카테고리의 다른 글
AI의 프라이버시 허점: 멤버십 추론 공격 (Membership Inference Attack) 심층 분석 (2) | 2025.06.26 |
---|---|
서비스엔지니어링 - 서비스 설계 기술과 이론 (1) | 2025.06.15 |
연구방법론 - 요인 분석과 군집 분석의 개념 (0) | 2025.05.28 |
소비자 선호 조사 - 컨조인트 분석 (통계적 분석) (0) | 2025.05.28 |
연구방법론 - 요인분석의 개념과 구성요소 (0) | 2025.05.27 |