2015. 2. 7. 11:59
Deep Learning
문서 필터링의 예를 알아본다. 이메일을 문서로 보고 학습된 정보를 통해 좋고 나쁨을 확률적인 값을 구한다. supervised learning의 예이다
스팸 필터링
- 분류된 문서를 통해 판단
- 문서를 bad, good으로 분류 : word === feature
- 분류된 것(특성==단어)의 출현횟수를 0과 1사이 값 확률로 변환한다.
- 스팸필터를 계속 학습 시킨다.
기본 분류기
- 나이브 베이지안 분류기 (Naive Bayesian classifier) : A확률과 B확률은 독립적이다.
+ Pr(A | B)
+ A == feature, B == Category이다.
+ Category는 문장이 good(0), bad(1) 인지 정의한 정보
+ 즉, 카테고리별로 피쳐를 분류해서 독립적으로 본다.
- 스팸필터의 경우 bad로 필터링되는 경계값을 보통 3으로 설정해서 bad가 될 확률이 good으로 분류될 확률에 비해 3배 높게 설정한다.
- 피셔 방식(Fisher method) : 특성별 분류 확률 (개별특성) -> 개별특성들에 대한 확률 결합
+ 여기서는 카테고리별로 보지 않고 먼저 피쳐를 보고 카테고리전체를 본다.
+ Pr(B | A) x Pr(A)/Pr(B)
Pr(A | B) = Pr(B | A) x Pr(A)/Pr(B)
<참조>
'Deep Learning' 카테고리의 다른 글
[ML] 9주차 - 가격 모델링 (0) | 2015.02.21 |
---|---|
[ML] 8주차 - 7장 의사결정트리 (0) | 2015.02.14 |
[ML] 6주차 - 5장 최적화 (0) | 2015.01.31 |
[ML] 4주차 - 군집하기 (0) | 2015.01.03 |
[ML] 3주차 - 추천하기 (0) | 2014.12.13 |