머신러닝

KMeans Clustering

whateveryouwish 2024. 8. 20. 21:29

01. k-means clustering 개념

k-means clustering이 무엇인지 알아봅시다

 

k-means clustering

☑️ k-means clustering 이란?

 

☑️ 알고리즘의 단계

  1. 초기화: k개의 군집 중심을 랜덤하게 설정합니다.
  2. 할당 단계: 각 데이터 포인트를 가장 가까운 군집 중심에 할당합니다.
  3. 업데이트 단계: 각 군집의 중심을 해당 군집에 속한 데이터 포인트들의 평균으로 업데이트합니다.
  4. 반복: 할당 단계와 업데이트 단계를 군집 중심이 더 이상 변화하지 않을 때까지 반복합니다

☑️ 거리 측정 방법

  • k-means 알고리즘은 주로 유클리드 거리(Euclidean Distance)를 사용하여 데이터 포인트와 군집 중심 간의 거리를 계산합니다.

실루엣 계수

30명의 학생을 4개의 그룹으로 나누고 싶은데, 이때 각각의 그룹 내부를 봄. 학생들이 서로 얼마나 친한지 보고, 다른 그룹과의 거리도 봄. 이러면 군집 내 점수, 군집 간 점수를 볼 수 있음. 데이터를 보면 군집끼리 얼마나 가까운지 확인할 수 있음.

 

 

군집화 자체는 데이터 분석 모델에도 분명히 활용될 수 있지만, 데이터 전처리 등에 활용되는 경우가 많다.