일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- Tokenization
- gpt2
- XAI
- 케라스
- 지피티
- nlp
- Ai
- cnn
- Transformer
- word2vec
- DevOps
- trustworthiness
- fairness
- 인공지능 신뢰성
- 설명가능성
- GPT-3
- 자연어
- 딥러닝
- 트랜스포머
- 인공지능
- ChatGPT
- ML
- 챗GPT
- MLOps
- 신뢰성
- Bert
- 머신러닝
- GPT
- 챗지피티
- AI Fairness
Archives
- Today
- Total
research notes
K-평균 알고리즘(K-Means Clustering) 본문
728x90
1. K-Means Clustering
군집 중심점(Centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법
- 먼저 군집화의 기준이 되는 중심을 구성하려는 군집화 개수만큼 임의의 위치에 가져다 놓는다. 전체 데이터를 2개로 군집화하려면 2개의 중심을 임의의 위치에 가져다 놓는 것이다. 임의의 위치에 군집 중심점을 가져다 놓으면 반복적인 이동 수행을 너무 많이 해서 수행 시간이 오래 걸리기 때문에 초기화 알고리즘으로 적합한 위치에 중심점을 가져다 놓지만, 여기서는 설명을 위해 임의의 위치로 가정한다.
- 각 데이터는 가장 가까운 곳에 위치한 중심점에 소속된다.
- 이렇게 소속이 결정되면 군집 중심점을 소속된 데이터의 평균 중심으로 이동한다.
- 중심점이 이동했기 때문에 각 데이터는 기존에 속한 중심점보다 더 가까운 중심적이 있다면 해당 중심점으로 다시 소속을 변경한다.
- 다시 중심을 소속된 데이터의 평균 중심으로 이동한다.
- 중심점을 이동했는데 데이터의 중심점 소속 변경이 없으면 군집화를 종료한다. 그렇지 않다면 다시 4번 과정을 거쳐서 소속을 변경하고 이 과정을 반복한다.
- K-Means Clustering 장단점
- 일반적인 군집화에서 가장 많이 사용하는 알고리즘이며 쉽고 간결
- 거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화 정확도가 떨어짐(PCA를 이용한 차원 감소를 통해 완화하는 방법이 있음)
- 반복 횟수가 많을 경우 수행 시간이 매우 느려지며, 몇 개의 군집(cluster)을 선택해야 할지 가이드 하기가 어렵다.
- 군집평가 (Cluster Evaluation)
- 타깃 레이블이 있는 데이터의 경우 군집화 결과를 레이블과 비교해 군집화가 얼마나 효율적으로 됐는지 알수 있으나 대부분의 군집화 데이터 세트는 비교할만한 타깃 레이블을 가지고 있지 않다.
- 따라서, 비지도학습의 특성상 어떠한 지표라도 정확하게 성능을 평가하기는 어렵지만 실루엣 분석과 같은 방법을 사용하여 군집화의 성능 평가가 가능하다.
- 실루엣 분석은 각 군집간의 거리가 얼마나 효율적으로 분리돼 있는지를 나타낸다. 효율적으로 분리 되었다면 다른 군집과의 거리가 떨어져있고 동일 군집끼리의 데이터는 서로 가깝게 잘 뭉쳐 있다는 의미이다.
References:
[1] 파이썬 머신러닝 완벽가이드, 권철민, 위키북스
[3] 파이썬 머신러닝 완벽가이드, 권철민, 인프런
728x90
'머신러닝 > ML basic' 카테고리의 다른 글
결정트리 (Decision Tree) (0) | 2022.03.28 |
---|---|
PCA (Principal Component Analysis) (0) | 2022.02.19 |
Validation data set는 모델 학습에 사용이 되는가? (0) | 2022.02.05 |
규제 (Regularization) (0) | 2022.01.31 |
성능평가지표 (Evaluation Metric) (0) | 2022.01.30 |
Comments