'decision tree' 태그의 글 목록

Peter Note

Web & LLM FullStacker, Application Architecter, KnowHow Dispenser and Bike Rider

Publication

'decision tree'에 해당되는 글 1건

2015.02.14 [ML] 8주차 - 7장 의사결정트리

2015. 2. 14. 11:29 Deep Learning

[ML] 8주차 - 7장 의사결정트리

의사결정 과정 모델링에 대해 알아본다. 의사결정트리는 고객 프로파일링, 재무 위험 분석, 보조 진단, 트래픽 예측과 같은 넓은 응용분야에서 사용한다. 예로 사용자가 유료 고객이 될 가망성을 예측하여 사용자가 고객이 될 것임을 시사하는 요소를 알았다면 이 정보를 이용해서 광고 전략을 짜거나 사이트의 특정 측면에 쉽게 접근할 수 있게 만들거나 유료 고객의 숫자를 늘리는 데 도움이 되는 다른 전략들을 사용할 수 있다.

가입 유형 추정

- 유료 고객이 될 가망성을 예측하기 : 베이지안 분류기, 신경망을 이용

- 관찰 결과를 분류하는 방법 : 의사 결정 트리를 if~then으로 만들고 경로를 따라 내려가면 해답에 이르게 됨

트리 학습

- CART(Classification and Regression Tree) : 데이터를 분리하는 최적의 변수 찾기 true or false로 분기해야 하기 때문

- 최적 단편 선정

+ 최상위 부모로 있을 노드를 선정하고 그 하위로 나뉘어 내려감

+ 지니 불순도(Gini imprity) : 집합 내의 항목 중 하나에 무작위로 적용될 기대 오류율 - 확률이 0이면 모든 것이 올바른 집합안에 있음

+ 엔트로피 : 데이터를 두개의 그룹으로 나누어 엔트로피를 줄여야 한다.

p(i) = frequency(outcome) = count(outcome) / count(total rows) Entropy = sum of p(i) x log(p(i))

p(i) = 빈도(출력) = 횟수(출력)/횟수(가로줄 개수)

엔트로피 = 모든 출력에 대해 p(i) * log(p(i))의 합

재귀적으로 트리 만들기

- 전체 그룹에 먼저 엔트로피를 구함

- 어떤 속성이 가장 잘 나누는지 결정하기 위해 정보이득(information gain)을 계산 -> 모든 속성마다 정보이득을 계산해 가장 높은 정보이득을 가진 것을 선택한다.

- 관측 값에서 더 분할 할지를 결정 : 새로운 노드마다 최적을 속성을 계산하면서 트리를 생성한다.

트리 가지치기

- 트리를 학습시키면 학습 데이터를 과대하게 반영하는 과잉적합(overfitted) 문제에 직면한다.

- 노드 쌍을 병합해서 경계값 이하로 엔트로피를 늘 수 있는지 본다. 그렇다면 한개 노드로 병합한다. -> 과잉적합을 회피

- 최소 이득이 높아지면 상위 부모 노드로 병합.

손상된 데이터 다루기

- 데이터 조각이 없을(손상된) 경우 : 각 가지의 결과를 계산하고 개별 가중치로 결합한다.

<참조>

- 의사결정 트리

- slideshare 의사결정트리

저작자표시 비영리 변경금지

'Deep Learning' 카테고리의 다른 글

[ML] 10주차 - 고급 분류 기법 (0)	2015.02.28
[ML] 9주차 - 가격 모델링 (0)	2015.02.21
[ML] 7주차 - 6장 문서 필터링 (0)	2015.02.07
[ML] 6주차 - 5장 최적화 (0)	2015.01.31
[ML] 4주차 - 군집하기 (0)	2015.01.03

posted by Peter Note

AI Convergence

Publication

Tag

Category

Recent Post

'decision tree'에 해당되는 글 1건

[ML] 8주차 - 7장 의사결정트리

'Deep Learning' 카테고리의 다른 글

티스토리툴바

AI Convergence

Publication

Tag

Search

Category

Recent Post

'decision tree'에 해당되는 글 1건

[ML] 8주차 - 7장 의사결정트리

'Deep Learning' 카테고리의 다른 글

티스토리툴바