그룹(그룹핑)에서 데이터 클러스터링(군집화)에 대해 알아본다.
01. 군집발견 (Discover Clustering)
- supervised learning : 신경망, 결정트리, svm, 베이지안 필터링
- unsupervised learning : 군집은 올바른 답을 찾는 것이 아니라 데이터 집합 내에서 구조를 발견하는 것이다.
+ NMF : non-nagative matrix factorization (ch10.)
+ SOM : self-organization maps
- Clustering & Classification 차이?
02. 단어 벡터
- 군집용 데이터를 준비하는 일반적인 방법은 항목 비교에 사용될 숫자 특성들의 공통집합을 결정하는 것이다.
- 블로거 군집화 : 피드안에 출현한 특정 단어들의 횟수 (피드 다운로드 -> 글에서 텍스트 추출 -> 빈도수를 표로 만든다)
+ universal feed parser를 통해 제목, 링크, 게시글을 추출가능 -> 빈도수 최대~최소 사이 단어추출 -> 데이터 세트 파일로 저장
03. 계층적 군집화
- 유사한 두 그룹을 계속 병합한다 (병합의 조건은?)
+ 노드들을 계층별로 배치한 계통도(dendrogram:덴드로그램)를 얻는다.
+ 덴드그램을 통해 어떤 항목들이 군집의 끝단에 있는지 확인가능 및 항목간의 떨어진 거리도 알수 있음
- 거리는 피어슨 계수를 통해 1.0이면 두항목은 완전 일치이고 0.0에 가까우면 전혀 관계가 없음
- 새로운 군집용 데이터는 앞의 두 군집들에 대한 데이터의 평균값이다. 단 한개의 군집만 남을 때까지 반복 수행함
04. 계통도 출력
- 군집들을 계통도 형태로 그려보면 해석이 훨씬 편리하다.
<참조>
- K means : 러닝커브를 통해 k 개까지의 군집화를 수행하는 방법. 이전은 1또는0, yes또는no로만 해서 K 개까지 돌림
'Deep Learning' 카테고리의 다른 글
[ML] 7주차 - 6장 문서 필터링 (0) | 2015.02.07 |
---|---|
[ML] 6주차 - 5장 최적화 (0) | 2015.01.31 |
[ML] 3주차 - 추천하기 (0) | 2014.12.13 |
[ML] 2주차 - 추천하기 (0) | 2014.12.06 |
[ML] 1주차 - 시작하기 (0) | 2014.11.22 |