Chapter8 - Making Recommendations. Recommandation Engine
예로 영화 추천 시스템일 경우 사람들끼리 상관관계 거리를 계산해서 가까운 사람들의 소그룹을 만들고 소그룹에서 A 사용자가 안보았으나 B 사용자가 본 영화를 추천해 준다. 즉, 선호도가 비슷한 사람들의 소그룹을 만들고 여기서 안본 영화들을 추천해 주는 것이다. 선호도 그룹을 찾는 방법에는 유클리디안 거리와 피어슨 상관관계 기법이 사용된다. 여기에는 거리(Distance)와 계수(Coeffiecient)이야기가 나온다.
Collaborative Filtering
- 큰 그룹을 찾아서 나와 유사한 경험의 작은 그룹을 찾는 것.
Collecting Preferences
- 선호도 조사
Finding Similar Users
- 유사함을 찾는 방법
+ Euclidean distance
> 유클리드 거리(Euclidean distance)는 두 점 사이의 거리를 계산할 때 흔히 쓰는 방법이다. (참조1)
2차원적인 거리이다. 그 사이의 변수는 고려되지 않았다.
방향성이 무시된다.
전체의 평균
* 두 점 사이의 거리가 가까우면 유사하다?
* 1:n 관계일 때 거리도 적용가능?
> 차트로 선호도 영역(Preference Space)에 표현
+ Pearson correlation
> 피어슨 상관계수(Pearson correlation coefficient) 는 두 변수간의 관련성을 구하기 위해 보편적으로 이용된다.
두 변수간 관련성이 높으면 이 두변수를 사용할 수 있다는 것을 의미? -> 다음 단계의 분석?
> 여러 그룹의 상호 관계가 있는 일직선을 그린다. 완벽한 상호관계값은 1이다.
+ Jaccard & Manhatton Distance
> 자카드는 0~1
+ best-fit, over-fit, under-fit
> over-fit : 모든 데이터를 연결해서 적정 추정치를 알 수 없다.
> under-fit : 판단 기준이 애매한 것
> best-fit : 데이터 사이의 측정 구간이 존재하고 그안에 선이 그려짐
Similarity Metric
- similarity parameter 가 필요
- Jaccard coefficient or Manhattan distance 을 사용
'Deep Learning' 카테고리의 다른 글
[ML] 7주차 - 6장 문서 필터링 (0) | 2015.02.07 |
---|---|
[ML] 6주차 - 5장 최적화 (0) | 2015.01.31 |
[ML] 4주차 - 군집하기 (0) | 2015.01.03 |
[ML] 3주차 - 추천하기 (0) | 2014.12.13 |
[ML] 1주차 - 시작하기 (0) | 2014.11.22 |