AI Convergence :: [ML] 4주차

Peter Note

Web & LLM FullStacker, Application Architecter, KnowHow Dispenser and Bike Rider

Publication

[ML] 4주차 - 군집하기

그룹(그룹핑)에서 데이터 클러스터링(군집화)에 대해 알아본다.

01. 군집발견 (Discover Clustering)

- supervised learning : 신경망, 결정트리, svm, 베이지안 필터링

- unsupervised learning : 군집은 올바른 답을 찾는 것이 아니라 데이터 집합 내에서 구조를 발견하는 것이다.

+ NMF : non-nagative matrix factorization (ch10.)

+ SOM : self-organization maps

- Clustering & Classification 차이?

02. 단어 벡터

- 군집용 데이터를 준비하는 일반적인 방법은 항목 비교에 사용될 숫자 특성들의 공통집합을 결정하는 것이다.

- 블로거 군집화 : 피드안에 출현한 특정 단어들의 횟수 (피드 다운로드 -> 글에서 텍스트 추출 -> 빈도수를 표로 만든다)

+ universal feed parser를 통해 제목, 링크, 게시글을 추출가능 -> 빈도수 최대~최소 사이 단어추출 -> 데이터 세트 파일로 저장

03. 계층적 군집화

- 유사한 두 그룹을 계속 병합한다 (병합의 조건은?)

+ 노드들을 계층별로 배치한 계통도(dendrogram:덴드로그램)를 얻는다.

+ 덴드그램을 통해 어떤 항목들이 군집의 끝단에 있는지 확인가능 및 항목간의 떨어진 거리도 알수 있음

- 거리는 피어슨 계수를 통해 1.0이면 두항목은 완전 일치이고 0.0에 가까우면 전혀 관계가 없음

- 새로운 군집용 데이터는 앞의 두 군집들에 대한 데이터의 평균값이다. 단 한개의 군집만 남을 때까지 반복 수행함

04. 계통도 출력

- 군집들을 계통도 형태로 그려보면 해석이 훨씬 편리하다.

<참조>

- unsupervised learning 위키

- Clustering in R

- Decision Tree (결정 트리)

- K means : 러닝커브를 통해 k 개까지의 군집화를 수행하는 방법. 이전은 1또는0, yes또는no로만 해서 K 개까지 돌림

저작자표시 비영리 변경금지 (새창열림)

'Deep Learning' 카테고리의 다른 글

[ML] 7주차 - 6장 문서 필터링 (0)	2015.02.07
[ML] 6주차 - 5장 최적화 (0)	2015.01.31
[ML] 3주차 - 추천하기 (0)	2014.12.13
[ML] 2주차 - 추천하기 (0)	2014.12.06
[ML] 1주차 - 시작하기 (0)	2014.11.22

posted by Peter Note

AI Convergence

Publication

Tag

Category

Recent Post

[ML] 4주차 - 군집하기

'Deep Learning' 카테고리의 다른 글

티스토리툴바

AI Convergence

Publication

Tag

Search

Category

Recent Post

[ML] 4주차 - 군집하기

'Deep Learning' 카테고리의 다른 글

티스토리툴바