recommendation survey and summary
Post on 13-Dec-2014
1.484 Views
Preview:
DESCRIPTION
TRANSCRIPT
10.04.23
Recommendation Survey and Summary
Chen Ting Zhao
Agenda• Motivation
• Recommendation Techniques– Overview– Techniques, Advantages & Problem– Recommendation Scenario
• Domain Specific:– E-Commerce: Amazon– Music: Pandora
• Recommendation as a service:– Choice Stream
– Current Problems and Issues
10.04.23 2
Motivation• 随着 Web2.0 的发展,如今已经进入了一个数据爆炸的时代。同时,
人们想要找到自己需要的信息也越来越难。– 因此有了 Search ,在用户对自己需求相对明确的时候,用 Search 能很快
的找到自己需要的数据– 但很多情况下,用户其实并不明确自己的需要,或者他们需要更加符合
他们个人口味和喜好的结果,因此出现了 Recommendation– 这是个从数据的搜索到发现的转变
• Recommendation 已经在 E-commerce 和基于 social 的社会化站点 (music , movie and bookmark...) 取得很大的成功。
• 由于 Recommendation 的技术要求高,如今有很多 Recommendation As a Service 的服务为 E-commerce 系统提供专业的推荐引擎支持。– 但由于推荐所基于的数据在不同 domain 应用差别相对比较大,所以还没
有找到特别 general 的解决方案。
10.04.23 3
Recommendation Techiques - Overview• The techniques used by recommendation engines can be classified based on the information sour
ces they use.
• The available sources are:–user features (demographics) : age, gender, profession, income, location...–item features: keyword, genres...–user-item ratings: gathered through questionarures, explict ratings, transaction data
410.04.23
Model
Demographic Recommendation• 用 User feature 将用户进行分类,找到他的相似用户,让相似用户喜爱的
item 推荐给他。–基于用户的基本信息计算用户的相似度
• Advantages–因为不使用 user-item preferences 数据,所以对于新用户来讲没有 cold start 的问
题–方法不依赖于 item 的数据,所以这个方法是 domain-independent.
• Problems–基于用户的基本信息对用户进行分类过于粗糙,尤其是对 taste 要求较高的 dom
ain ,比如 book , movie 和 music 等–对 feature 与其他用户不同的不能得到很好的推荐( gray sheep problem )–抓取和建模用户的 preference 后,很难修改或者根据用户的使用演变(不够灵
活)510.04.23
Content-based Recommendation• 用 Item feature 作为 item 的 model ,根据用户对不同 Item 的评分建立用户 t
aste 的 profile ,然后基于用户的 profile 和 item feature 计算用户可能喜欢的item 。
• Advantages–能很好的 model 用户的 taste ,能提供更加精确的推荐
• Problems–需要对 item 进行分析和建模,推荐的质量依赖于 item 模型的完整和全面程度。–item 相似度的分析仅仅依赖于 item feature–对于新用户有 cold start 的问题–抓取和建模用户的 preference 后,很难修改或者根据用户的使用演变(不够灵活)
• 成功的应用在一些 movie , music , book 的 website ,他们请专业的人员对 item 进行基因编码(每首歌可能有超过 100 个元数据)。
610.04.23
Collaborative Filtering• 使用 user-item preferences 的 user behavior 数据计算 item 相似度, u
ser 的相似度,从而计算推荐。可以分为一下 3 个子类:– user-based ,通过计算 user 的相似度,找到邻居,推荐邻居喜爱的 item– item-based ,通过计算 item 的相似度,基于用户历史的 preference ,
推荐相似的 item– model-based ,基于样本的 preference 信息和 feature 信息,建立一个推
荐 model ,然后根据实时的用户 preference 的信息进行预测,计算推荐• Advantages
– 不需要对 item 进行建模,而且不要求 item 的描述是 machine-readable的,所以这种方法也是 domain-independent
– 推荐是开放的,共用他人的经验,很好的支持用户发现潜在的兴趣偏好• Problems
– 基于历史数据,所以对新 item 和新 user 都有 cold start 的问题– 推荐的效果依赖于 preference 数据的多少和准确性– user-item preference 是稀疏存储和计算,影响推荐的效果– 对于特殊 taste 的用户不能给予很好的推荐( gray sheep problem )– 抓取和建模用户的 preference 后,很难修改或者根据用户的使用演变
(不够灵活)
10.04.23 7
Rule-based Recommendation• 利用 user-item preference 的数据,发现购买商品的
潜在关联关系,从而在用户已有的 preference 的基础上,为他推荐其他的相关的 item
• Advantages– 这种方法可以将用户动态的兴趣变化反映出来– 发现的关联关系可能是一些领域的知识,能有更好的
推荐效果,并且对用户拓展自己的兴趣有很好的帮助
• Problems– 不同的应用 domain ,发现关联关系的方法可能很不同,
不便提取通用的方法和模型
10.04.23 8
Hybrid Approaches• 将上述的方法组合在一起
– Weighted Hybirdization: 用 linear formula 将不同的 recommendation按照一定 weight combine起来
– Switching Hybridization :对于不同的情况(系统运行状况,用户和 item 的数目等)选择合适的方式
– Mixed Hybridization :将不同的推荐结果分不同的 section显示给用户
– Feature Combination :从不同的知识来源得到的 feature 组合在一起,然后使用某种 recommendation 算法计算
– Feature Auggmentation: 用不同的推荐方法修正 feature ,得到更好的推荐结果
– Cascaded Hybridization: 给不同的 recommendation 方法设置严格的 priority , low-priority 的结果在 high-priority 计算结果相同的时候给出辅助信息。
– Meta-Level Hybridization: 将一个 recommendation 方法的 model 作为另一个的输入
10.04.23 9
Personalized vs. Non-Personalized• Non-personalized recommendations – 对于每个用户都给出同样的推荐,这些推荐可以是静态的由 admin 人工设定的,或者基于系统所有用户的反馈统计计算出的 popular items.
• Personalized recommendations– 对于不同的用户,根据他们的口味和喜好给出更加
精确的推荐• 系统需要了解需推荐内容和用户的特质• 基于社会化网络,通过找到与当前用户相同喜好的用户,
实现推荐
10.04.23 10
E-commerce Domain - Amazon• Amazon 是做 recommendation 的鼻祖,它已经将 recommend 的思想渗透在 website 的各个角落。– Amazon 通过数据挖掘算法和比较用户的消费偏好于其他用户进行对比,借以预测用户可能感兴趣的商品
• Amazon 利用可以 trace 的所有用户在 website 上的行为,根据不同数据的特点对它们进行处理,并分成不同 section 为用户推送 recommendation– 用户的历史数据 – 新产品的推荐 ( Content-based 的推荐)– 相关商品( collaborative 的 Item based 推荐)– 别人购买 /浏览的商品( collaborative 的 User based 推荐)– 并且, Amazon 利用它大量数据的优势,量化推荐原因:基于 social 的推荐, Ama
zon 会给你事实的数据,让用户信服;基于 item 的推荐,也会列出推荐的理由。
• Amazon 提供了让用户自主管理自己 profile 的功能,从而更明确的告诉推荐引擎他的 taste 和意图
10.04.23 11
Music Domain - Pandora• Pandora 将 music 解析成最基本的基因,基于这个基因计算音乐的相似性。
• 这种方法是从 item 本身入手,描述 item 的基本属性,在用户使用或者浏览一个 item 时,根据基因的匹配或者传递规则给用户推荐更多的 items 。这种方式能给用户即刻的满足感,不需要用户的历史数据和偏好设置。
• 基因描述区别于其他的 content-based 方法在于他更多的关注于外在表现的本质属性。
• 基因描述的好处:– item 本身的基因显性遗传,即属性可以传递– user 购买行为的基因遗传,这种属性的传递往往是 item 的“隐性“传递
的属性(很有趣)• 例如有研究发现,超市里购买婴儿尿布的男性顾客,往往都会购买啤酒,从基
因角度可以看出,婴儿尿布和啤酒有一些共性的”隐性“属性,有孩子的成年男性。
• 这种遗传与显性遗传的区别,必须考虑用户行为的影响:先买啤酒的人一般不会买尿布,所以单单用相似就很难解释,所以从基因的角度可以解释为:购买尿布的行为激活了”有孩子的成年男性“购买者的属性,从而传递到啤酒的相应属性上。
10.04.23 12
Recommendation as a service : ChoiceStream• ChoiceStream is a personalisation company that offers their recommendation t
echnology “Real Relevance Recommendations” as a fully-hosted service for e-commerce vendors.
• ChoiceStream is using a hybrid system based on a variety of techniques that are chosen and combined depending on the concrete recommendation use case on hand.
1310.04.23
Problem and Issues• Data Collection :数据的来源分为 explict 和 implict两个部分
– explict: demographic data, preference info, search terms explicit rating, comments...– implict: tracking user's behavior click sequences, reading time, transaction data...
• Cold Start– 在系统初始状态时,对于 preference 数据很少的 item 或者 user ,推荐的
效果不好– 其原因在于,推荐没有从数据本身入手,而是更多的采用 social data
• Stability vs Plasticity– 在推荐中过多的考虑 history data 的作用,从而对于长时间使用的用户,
他们的 taste 和习惯的 model 很难改变,或者说不能提供很好的基于实时需求的推荐
– 目前的解决方法就是:将历史的 rating 进行衰减,但是却有可能导致长期interest 信息的 loose
• Sparsity– user-item rating矩阵的稀疏会导致 recommendation 的效果不好,或者使部分用户的错误 /片面的 rating误导了推荐的效果。
10.04.23 14
Problem and Issues - cont.• Performance & Scalablity
– Demographic 和 content-based , item-based , model-based 方法可以采用 offline 的方法计算,但基于 social 的要做到 real-time就不得不进行实时的大量的计算
– 而且即便是 offline 的,在大数据量的 item 和 user 的情况下,计算量还是很大的
• User Input Consistency– user 可以分为三类:
• white sheep :和大部分人口味相同的人• black sheep :和大部分人口味相反的人• gray sheep :在不同的 item 上的 opinion 不同或者有很独特口味的人
– 对于 gray sheep 的推荐效果一般都不是很好• Privary
– 因为要挖掘用户的个人喜好和使用习惯
10.04.23 15
top related