선형 분류기 개념과 지지벡터머신(SVM, support-vector machines)에 대해 알아본다. 데이트 매칭에 데이터를 기본으로 알아봄.
데이터 세트
- 데이터 분할에서 의사결정트리는 세로, 가로 직선으로 고지식함
- 산포도(scatter plot chart)를 통해 도움받음
기본 선형 분류
- 산포도에서 각 범주(class) 내 모든 데이터들의 평균을 찾고 그 범주의 중앙을 나타내는 점을 만듦 (그림. 9-4)
- 일치분류를 위해 백터의 각도를 계산해서 작으면 일치, 크면 불일치 (그림. 9-6)
- 백터내적(dot-product) : 벡터와 벡터의 방향/크기 비교
분류 데이터의 특성
- 데이터 정규화 (Data Normalization)
- 숫자로 변형 -> 예/아니오(1/-1), 관심/비관심(0/1) : 사람 쌍을 다룰 때 유용
- 공통 관심의 수, 모든 관심을 포용할 새로운 변수를 만듦
- 거리 데이터 구함
- 각 변수에 대한 축적(scale)을 조정함 : 최대/최소값
커널 기법 이해
- 커널 트릭 : 차원을 높이지 않고 차원을 올리는 효과를 거둠.
- 펑션을 통해 원하는 값을 구함 : 방사 펑션 (RBF: radial basis function)
지지 벡터 머신 (SVM)
- 각 범주에서 가능한 멀리 떨어진 선을 찾아 해결하려고 시도한다. 비선형을 극복 (non-linear)
- 먼저 범주를 나눈다 이때 커널 트릭을 사용해서 구하고 이것이 차원이 된다. 각 차원 즉 범주의 사이의 초평면(hyperplane)을 만든다.
- 해당 초평면에 근접한 것들이 매칭하는 것이다. (그림. 9-10)
<참조>
- 내적 공간
- 서포트 벡터 머신(한글), 서포트 벡터 머신 공식(영어)
- 초평면
- 정규화
'Deep Learning' 카테고리의 다른 글
[인공지능] 공부 여정 (0) | 2018.07.31 |
---|---|
[ML] 11주차 - 독립 특성 발견 (0) | 2015.03.07 |
[ML] 9주차 - 가격 모델링 (0) | 2015.02.21 |
[ML] 8주차 - 7장 의사결정트리 (0) | 2015.02.14 |
[ML] 7주차 - 6장 문서 필터링 (0) | 2015.02.07 |