SW-PRODUCT/개발-데이터분석

콘텐츠 추천에서 유사도 계산: 유클리드, 코사인유사도, 피어슨 상관계수, 맨하탄거리

굴돌 2016. 1. 26. 10:57


https://bionicspirit.com/blog/2012/01/16/cosine-similarity-euclidean-distance.html


콘텐츠 추천에서는 유클리드거리보다 코사인유사도가 좋다는 얘기인데...

적용분야를 정확히 파악할 필요는 있을 듯.


통계에서는 기존에 유클리드 거리를 많이 썼다고 하는데

추천에서는 코사인유사도를 많이 쓰는 추세인듯.


유클리드거리는 "얼마나 다른가"를 측정하는 경향이 있다고 함.


다만, 0,1 값만 있는 sparse matrix에 한해서 Jaccard Index가 더 나을것 같다는 의견을 남겼다.