你好,游客 登录 注册 搜索
背景:
阅读新闻

浅谈推荐系统的核心思想

[日期:2015-05-06] 来源:博客虫  作者:博客虫 [字体: ]

  或许一谈到数据挖掘中的推荐系统,大家第一反应就是协同过滤,要么就是基于内容推荐等等。但实际在生产环境中往往没有想象中这么复杂,但另一方面又没有想象中这么简单,确实很矛盾的存在。

  (1)推荐系统的本质

  我不敢说我说的一定就是对的,这里只是个人见解,如果有出入,欢迎指正。我这里说的推荐系统主要针对的是文章类的推荐。

  推荐系统的用户价值在于为用户提供一个更好的阅读体现(文章博客类),即在用户阅读一篇文章的同时,你如何能够为他推荐出他会去继续浏览的文章,为网站创造更大的价值量,也就是PV。

  其实核心本质思想就一条:想办法让用户点击更多的文章,创造更大的PV价值。

  (2)其实没有这么复杂

  推荐系统看起来很玄奥,其实最常用的方式就是个性化推荐,所谓个性化推荐说白了就是如何结合用户的喜好为用户推荐内容。让用户看到用户想看到的东西,这样用户就会继续点击,从而提高了网站的流量。

  正如文章开头所说的,很多人第一反应就是随之而来的协同过滤啊等等推荐算法,但在现实生产环境中,使用这些推荐算法的也有,但往往很多计算模型都不算太复杂。关键在于计算阅读文章的热度,如何计算热度?

  计算模型其实千变万化,但其核心在于几个关键指数:浏览量、顶、踩、时间等。基于这些元素、再结合用户的兴趣标签(这里对用户的兴趣模型建设就不做描述了),进行文章推荐。有人会用成型的推荐模型,正如之前所说的协同过滤等,也有人会自己构建相关模型,说简单点就是构建不同元素的权重比,为预推荐的文章打分,然后形成推荐列表,就这么简单。

  (3)其实没有这么简单

  依靠文章的关键指标:入浏览量、顶踩等,那么就需要大量的用户互动信息,如果这是一篇新的文章,哪怕它很优秀,但它也很难进入推荐榜,而那些比较热的文章则由于推荐的原因会越来越热。

  这些都不是很符合实际情况的。我们希望给用户推荐的是比较优秀,并且符合用户口味的文章,让他有急需浏览下去的欲望。如果用户反反复复看到的都是那几篇文章,这种效果显然不是我们想要的。

  所以,实际上的推荐没有这么简单!

  (1)如何解决那些新文章的问题?

  依靠外界信息的评判,判断一篇文章不能单纯的从浏览量、顶踩数来判断,或者确切地说,不能单纯依赖自身得这些指标来评判。我们可以通过分析的途径,将外界获取到的优秀文章进行分析,然后对自身文章跟外源优秀文章进行相似度匹配,若相似度高,我们就可以隐性的认为,这篇文章同样属于一篇优秀的文章,虽然它的顶踩数、浏览数从目前看还不高。

  (2)如何解决热文章长期占据推荐榜的问题?

  这个问题相对来说好解决,那就是引入时间的指标,我们只需要在计算模型中引入时间,随着时间的推移,之前上榜的文章权重降低,这样就达到了时时把比较热,并且比较新的文章推荐出去。至于具体的计算模型那就需要进一步的设计以及效果调试了。

  当然,以上说的这些都是一些思想,具体的算法模型还需要设计,但是通常来讲,并不是越复杂的模型越好,而是越能实际解决问题的模型越好,这就得看具体的业务需求了~~





收藏 推荐 打印 | 录入:Cstor | 阅读:
相关新闻       推荐系统 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款