我几乎是数据挖掘和推荐系统的新手,现在正试图为具有这些参数的用户构建某种rec系统:
市
教育
利益
为了计算它们之间的相似性,我将应用余弦相似性和离散相似性.例如:
city:如果x = y则d(x,y)= 0.否则,d(x,y)= 1.
教育:在这里我将使用余弦相似性,因为单词出现在部门名称或学士学位
兴趣:用户可以选择硬编码的兴趣数量,并根据以下两个向量计算余弦相似度:
1 0 0 1 0 0 ... n 1 1 1 0 1 0 ... n
这1
意味着利益的存在,并且n
是所有利益的总数.
我的问题是:如何以适当的顺序组合这三个相似之处?我的意思是只是总结它们听起来不太聪明,是吗?我也想听听关于我的"新手相似系统"的评论,哈.