Mobile Convergence :: [ML] 7주차 - 6장 문서 필터링

윤영식

Full Stacker, Application Architecter, KnowHow Dispenser and Bike Rider

[ML] 7주차 - 6장 문서 필터링

문서 필터링의 예를 알아본다. 이메일을 문서로 보고 학습된 정보를 통해 좋고 나쁨을 확률적인 값을 구한다. supervised learning의 예이다

스팸 필터링

- 분류된 문서를 통해 판단

- 문서를 bad, good으로 분류 : word === feature

- 분류된 것(특성==단어)의 출현횟수를 0과 1사이 값 확률로 변환한다.

- 스팸필터를 계속 학습 시킨다.

기본 분류기

- 나이브 베이지안 분류기 (Naive Bayesian classifier) : A확률과 B확률은 독립적이다.

+ Pr(A | B)

+ A == feature, B == Category이다.

+ Category는 문장이 good(0), bad(1) 인지 정의한 정보

+ 즉, 카테고리별로 피쳐를 분류해서 독립적으로 본다.

- 스팸필터의 경우 bad로 필터링되는 경계값을 보통 3으로 설정해서 bad가 될 확률이 good으로 분류될 확률에 비해 3배 높게 설정한다.

- 피셔 방식(Fisher method) : 특성별 분류 확률 (개별특성) -> 개별특성들에 대한 확률 결합

+ 여기서는 카테고리별로 보지 않고 먼저 피쳐를 보고 카테고리전체를 본다.

+ Pr(B | A) x Pr(A)/Pr(B)

Pr(A | B) = Pr(B | A) x Pr(A)/Pr(B)

<참조>

- 나이브 베이지안 수행하기

posted by 윤영식