블로그 이미지
윤영식
Full Stacker, Application Architecter, KnowHow Dispenser and Bike Rider

Publication

Category

Recent Post

2015. 1. 3. 11:04 AI Deep Learning

그룹(그룹핑)에서 데이터 클러스터링(군집화)에 대해 알아본다. 



01. 군집발견 (Discover Clustering)


  - supervised learning : 신경망, 결정트리, svm, 베이지안 필터링

  - unsupervised learning : 군집은 올바른 답을 찾는 것이 아니라 데이터 집합 내에서 구조를 발견하는 것이다. 

    + NMF : non-nagative matrix factorization (ch10.)

    + SOM : self-organization maps

  - Clustering & Classification 차이? 

  


02. 단어 벡터 


  - 군집용 데이터를 준비하는 일반적인 방법은 항목 비교에 사용될 숫자 특성들의 공통집합을 결정하는 것이다. 

  - 블로거 군집화 : 피드안에 출현한 특정 단어들의 횟수 (피드 다운로드 -> 글에서 텍스트 추출 -> 빈도수를 표로 만든다)

    + universal feed parser를 통해 제목, 링크, 게시글을 추출가능 -> 빈도수 최대~최소 사이 단어추출 -> 데이터 세트 파일로 저장

  


03. 계층적 군집화 


  - 유사한 두 그룹을 계속 병합한다 (병합의 조건은?)

    + 노드들을 계층별로 배치한 계통도(dendrogram:덴드로그램)를 얻는다.

    + 덴드그램을 통해 어떤 항목들이 군집의 끝단에 있는지 확인가능 및 항목간의 떨어진 거리도 알수 있음 

 - 거리는 피어슨 계수를 통해 1.0이면 두항목은 완전 일치이고 0.0에 가까우면 전혀 관계가 없음

 - 새로운 군집용 데이터는 앞의 두 군집들에 대한 데이터의 평균값이다. 단 한개의 군집만 남을 때까지 반복 수행함



04. 계통도 출력 


  - 군집들을 계통도 형태로 그려보면 해석이 훨씬 편리하다. 

 



<참조>


  - unsupervised learning  위키 

  - Clustering in R

  - Decision Tree (결정 트리)

  - K means : 러닝커브를 통해 k 개까지의 군집화를 수행하는 방법. 이전은 1또는0, yes또는no로만 해서 K 개까지 돌림

'AI Deep Learning' 카테고리의 다른 글

[ML] 7주차 - 6장 문서 필터링  (0) 2015.02.07
[ML] 6주차 - 5장 최적화  (0) 2015.01.31
[ML] 3주차 - 추천하기  (0) 2014.12.13
[ML] 2주차 - 추천하기  (0) 2014.12.06
[ML] 1주차 - 시작하기  (0) 2014.11.22
posted by 윤영식