adc 得福 推荐 v3 - it168
TRANSCRIPT
天猫推荐业务与算法架构
张奇(得福) 天猫推荐算法团队张奇(得福) 天猫推荐算法团队2013·07·14
个人介绍
张奇, 花名:得福
2010年博士毕业于中国科学技术大学2010年博士毕业于中国科学技术大学
2010年至2012年,计算广告@阿里云
2012.4�至今,推荐系统@天猫
Search Engine
第二部分:user2item
第三部分:推荐在天猫的应用
Recommendation
第一部分:item2item
Begin with
浏览了该商品的用户还浏览了
Item based Recommendation
10h
i
jiij N
NNw
∩=U1
U
I1 I2 I4 I5
I I I
10h
10minU2
U3
I1 I3 I5
I2 I5 I6 I7αα
jiij
NNw
∩=
1U4 I3 I5
ααji
ijNN −1
浏览(V2V) 购买(B2B)
∑ ∩∈−×
= )()(2 |))(|(
w ji IUIUu ujuiu
ij
ttfW∑ ∩∈=
)()(2
ijw ji IUIUu uW
浏览(V2V) 购买(B2B)
∑∑ ∈∈ )(2
)(2
wji IUu uIUu u
ijWW∑∑ ∈∈ )(
2)(
2ijwji IUu uIUu u WW
∑ ×n
ii BA
∑∑==
=
×
=n
ii
n
ii
i
BA1
2
1
2
1ji
)()()I,TextSim(I
Item based 算法效果
ji
ji
IIII
Jaccard∪
∩=
∑∑∑
∈∈
∩∈−×
=)(
2)(
2
)()(2
ji
|))(|()I,CosSim(I
ji
ji
IUu uIUu u
IUIUu ujuiu
WW
ttfW
j
UV点击率 UV购买率 点击率*购买率UV点击率 UV购买率 点击率*购买率
Jaccard 4.14% 2.42% 0.100%
CosSim 4.37% 2.45% 0.107%CosSim 4.37% 2.45% 0.107%
提升比 5.53% 1.40% 7.00%
Model 融合算法
相似度相似度
覆盖范围
投票方式
覆盖范围
文本Model 融合问题
行为
从不同维度对问题的描述
主商品 候选集 v2b b2b v2v(cf1) v2v(cf2) …… target
Item 0 021 0 51 0 47 0 53
Item
Item1 0.021 0.51 0.47 … 0.53
Item2 0.49 0.48
Item3 0.33 0.453
…… …… ……
Itemn 0.58 0.21
Model 融合算法-Machine Learning
1�(点击)
0(未点击)
Logistic�Regression�@MPIg g @
Model 融合算法-效果
单一CF模型 AUC=�0.6653 融合后模型 AUC=�0.7835
Model 融合算法-效果
Item2item算法优化效果(PV曝光价值)Item2item 算法优化效果(PV 曝光价值)
对比一淘,平均提升11%
新版1(698)
一淘(132)一淘(132)
老版本(647)
对比老版本,平均提升18%
20130625 20130626 20130627 20130628 20130629 20130630
PV总访问
支付宝成交金额曝光价值 =pv
Part-1 小结
基础推荐实体关系库基础推荐实体关系库
商品关系库 品牌关系库 专辑关系库 活动关系库
离线算法系统
训练 训练数据准备 特征计算 参数调优训练
算法包
集群 MPI 集群 Hadoop 集群
LR MLR LDA NMF
训练数据准备 特征计算 参数调优
集群 MPI�集群 Hadoop�集群
Part-2
猜你喜欢猜你喜欢
? ? ? ?? ? ? ?
Personalization-用户购物意图模型
类目直接引导购物
品牌比较
价格比较
服务比较
同类品牌
品牌认知
品牌
例:某消费者要买
ONLY的外套
例:某消费者要买
冬天穿的外套AC 品牌
例:某消费者喜欢看
ONLY家又上了什么新货
例:某消费者只
是想逛逛淘宝
B
C
D
产品比较逛
ONLY家又上了什么新货是品牌活动
品牌上新
产品陈列各种活动
品牌互动
Personalization-场景引擎-模型目标:基于用户实时行为和天猫的导购路径结构,判断用户当前的意图
意图建模(三维模型):品牌意图、类目意图、单品意图
特征刻画:利用CPV、UIT�等数据刻画类目意图
类目
技术框架:
实时数据(全淘宝,秒级别)
类目
类目明确
购物意图明确
Cli k例:某用户要买优衣库的羽绒服
例:某用户要买件羽绒服
明确 图明确
PredictorClick
品牌
A
B
D
C
优衣库的羽绒服一件羽绒服
例:某用户又到了每天例行的逛淘宝
例:某用户想看看优衣库家又上了
Search每天例行的逛淘宝时间
优衣库家又上了什么新品
逛 品牌确
Learner
逛明确
Personalization-场景引擎-Paper
Making Recommendations Better The Role of User Online Purchase IntentionMaking Recommendations Better: The Role of User Online Purchase Intention Identification, RecSys 2013 Hongkong (Submitted)
Random Forrest
场景引擎效果离线评估方法
Personalization-场景引擎-评估
0.7
场景引擎效果离线评估方法
0.5
0.6
预
0.3
0.4
预测准确
0 1
0.2
0.3确率
算法1
0
0.1
10 9 8 7 6 5 4 3 2 1
预测步长
user session:
场景引擎效果离线评估方法
Personalization-场景引擎-评估
0.8
场景引擎效果离线评估方法
0.6
0.7
预
0.4
0.5预测准确 算法2
0.2
0.3确率
算法2
算法1
0
0.1
10 9 8 7 6 5 4 3 2 1
user session:
预测步长
算法系统-场景引擎-DEMO 8231****
Part-3
算法组装
天猫推荐系统架构@2013之前
Detail 给我推荐Detail 给我推荐 会员俱乐部推荐会员俱乐部推荐天猫/淘宝 首页logo 推荐
天猫/淘宝 首页logo 推荐 图书城推荐图书城推荐
业务
前端开发前端开发 前端开发前端开发 前端开发前端开发 前端开发前端开发后台
数据开发数据开发 数据开发数据开发 数据开发数据开发 数据开发数据开发数据开发数据开发 数据开发数据开发 数据开发数据开发 数据开发数据开发
业务特点业务特点 业务特点业务特点 业务特点业务特点 业务开发业务开发
问题: 业务和算法高度结合高投入、低沉淀高投入、低沉淀
天猫推荐系统架构@2013
Detail 给我推荐Detail 给我推荐 会员俱乐部推荐会员俱乐部推荐天猫/淘宝 首页天猫/淘宝 首页 图书城推荐图书城推荐Detail 给我推荐Detail 给我推荐 会员俱乐部推荐会员俱乐部推荐天猫/淘宝 首页logo 推荐
天猫/淘宝 首页logo 推荐 图书城推荐图书城推荐
前端
匹配层
场景引擎
用户实时意 Ranker
装配(参数化)在线实验框架用户实时意
图&长期兴趣
检索
Ranker
推荐实体
商品推荐 品牌推荐 专辑推荐
同店 |��跨店 相似
离线实验框架
相似 |��搭配
检索算法用户
天猫推荐流程图
检索算法用户
features
QP 检索 重排序 展现流量分配
CTR 预估
索引场景引擎
Dump优点:1. 算法与业务剥离
算法模块化 平台化
实时偏好 长期偏好 离线数据运算 基础算法
2. 算法模块化、平台化3. 易于算法深入与沉淀
运算 算法
Part-4
推荐应用@Tmall
天猫推荐业务一览图(PC 端)
天猫推荐业务一览图(无线端)
推荐对消费者的意义
让消费者更容易找到满意的商品
UV购买转化率 人均点击商品数
总体 服饰箱包 3C数码 总体 服饰箱包 3C数码
当日使用推荐的人群 当日未使用推荐的人群
推荐对卖家的意义
让流量的分配更公平(卖家)
3C行业店铺内引流效率 服饰行业店铺内引流效率
引流
引流
3C行业店铺内引流效率 服饰行业店铺内引流效率
流流量分布
流流量分布
Top�商品数量 Top�商品数量
推荐 搜索 总体
推荐对天猫的意义
15%15%
共享共建-阿里集团资源共享
MPI 集群&机器学习算法包
• LR• MLR
UIT
数据资源
• UIT• TCIF