书籍详情
《包邮 推荐系统算法实践 +推荐系统开发实战+用户网络行为画像书籍 》[35M]百度网盘|亲测有效|pdf下载
  • 包邮 推荐系统算法实践 +推荐系统开发实战+用户网络行为画像书籍

  • 热度:8741
  • 上架时间:2024-06-30 08:52:20
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍


9787000050359

9787121370403 9787121365201 9787121280702


推荐系统算法实践   

作  译  者:黄美灵

出版时间:2019-09

I S B N :9787121370403

定价:¥89.0 

 

本书主要讲解推荐系统中的召回算法和排序算法,以及各个算法在主流工具Sklearn、Spark、TensorFlow等中的实现和应用。 书中本着循序渐进的原则进行讲解。首先,介绍推荐系统中推荐算法的数学基础,推荐算法的平台、工具基础,以及具体的推荐系统。其次,对推荐系统中的召回算法进行讲解,主要包括基于行为相似的协同过滤召回和基于内容相似的Word2vec 召回,并且介绍其在Spark、TensorFlow 主流工具中的实现与应用。再次,讲解推荐系统中的排序算法,包括线性模型、树模型和深度学习模型,分别介绍逻辑回归、FM、决策树、随机森林、GBDT、GBDT+LR、集成学习、深度森林、DNN、Wide & Deep、DeepFM、YouTube推荐等模型的原理,以及其在Sklearn、Spark、TensorFlow 主流工具中的实现与应用。最后,介绍推荐算法的4 个实践案例,帮助读者进行工程实践和应用,并且介绍如何在Notebook 上进行代码开发和算法调试,以帮助读者提升工作效率。

蓝墨水图书专营店

目    录

第1部分  推荐系统的算法基础

第1章  数学基础 2

1.1  线性代数 2

1.2  概率与统计 5

1.3  损失函数 7

1.4  优化方法 8

1.4.1  SGD 8

1.4.2  动量 8

1.4.3  Nesterov动量 9

1.4.4  AdaGrad 9

1.4.5  Adam 10

1.4.6  L-BFGS 10

1.4.7  梯度法和牛顿法的比较 11

1.5  评价方法 11

1.5.1  混淆矩阵 11

1.5.2  ROC曲线 13

第2章  推荐系统介绍 17

2.1  推荐系统背景 17

2.2  推荐系统的典型案例 18

2.2.2  Facebook推荐 21

2.2.3  YouTube推荐 22

2.3  推荐系统原理 23

第3章  推荐算法工具 26

3.1  Python Sklearn机器学习库 26

3.1.1  Sklearn介绍 26

3.1.2  Sklearn建模流程 27

3.2  Spark MLlib机器学习库 28

3.2.1  MLlib介绍 28

3.2.2  MLlib建模流程 29

3.3  TensorFlow 31

3.3.1  TensorFlow介绍 31

3.3.2  TensorFlow建模流程 31

3.4  Notebook介绍 32

3.4.1  Zeppelin Notebook介绍 32

3.4.2  Jupyter Notebook介绍 36

第2部分  推荐系统的召回算法

第4章  协同过滤——基于行为相似的召回 40

4.1  协同过滤算法 40

4.1.1  协同过滤推荐概述 40

4.1.2  用户评分 41

4.1.3  相似度计算 41

4.1.4  推荐计算 43

4.2  协同过滤推荐算法实现 44

4.2.1  相似度计算及推荐计算 47

4.2.2  协同推荐 54

4.2.3  运行结果 59

第5章  Word2vec——基于内容相似的召回 65

5.1  Word2vec算法 65

5.1.1  语言模型 65

5.1.2  CBOW One-Word Context模型 66

5.1.3  CBOW Multi-Word Context 模型 71

5.1.4  Skip-Gram模型 72

5.1.5  Hierarchical Softmax 74

5.1.6  Negative Sampling 74

5.2  Word2vec实例 75

5.2.1  Spark实现 75

5.2.2  TensorFlow实现 80

第3部分  推荐系统的排序算法——线性模型

第6章  逻辑回归 86

6.1  逻辑回归算法 86

6.1.1  二元逻辑回归模型 86

6.1.2  模型参数估计 88

6.1.3  多元逻辑回归模型(Softmax回归) 88

6.1.4  逻辑回归的网络结构 89

6.1.5  梯度下降算法 90

6.1.6  正则化 91

6.2  逻辑回归实现 93

6.2.1  Sklearn实现 93

6.2.2  Spark实现 98

6.2.3  TensorFlow实现 108

6.2.4  效果总结 114

第7章  因子分解机(FM) 115

7.1  FM算法 115

7.1.1  FM模型 115

7.1.2  FFM模型 118

7.1.3  FM模型的网络结构 119

7.2  FM实现 120

7.2.1  Sklearn实现 120

7.2.2  TensorFlow实现 122

7.2.3  效果总结 128

第4部分  推荐系统的排序算法——树模型

第8章  决策树 130

8.1  决策树算法 130

8.1.1  决策树模型 130

8.1.2  特征选择 131

8.1.3  决策树的生成 133

8.1.4  决策树的生成实例 134

8.1.5  决策树的剪枝 135

8.2  决策树的集成算法 136

8.2.1  集成分类器 136

8.2.2  随机森林 137

8.2.3  GBDT 137

8.3  决策树集成算法实例 139

8.3.1  Spark实现 139

8.3.2  Sklearn实现 149

8.3.3  效果总结 154

第9章  集成学习 155

9.1  GBDT+LR算法 155

9.1.1  背景 155

9.1.2  GBDT+LR网络结构 156

9.2  深度森林算法 159

9.2.1  深度森林介绍 159

9.2.2  级联森林 160

9.2.3  多粒度扫描 161

9.3  决策树集成分类器 162

9.4  集成学习实例 164

9.4.1  GBDT+LR实现 164

9.4.2  深度森林实现 167

9.4.3  效果总结 175

第5部分  推荐系统的排序算法——深度学习模型

第10章  深度学习在推荐算法中的应用 178

10.1  推荐模型的特点 178

10.2  基于深度学习的推荐模型 179

10.2.1  DNN优化高阶特征 179

10.2.2  高阶特征交叉与低阶特征交叉 181

10.2.3  特征交叉优化 183

10.2.4  特征连接优化 184

10.2.5  高阶特征交叉优化 185

10.2.6  多样性的深度兴趣特征优化 186

第11章  DNN算法 189

11.1  人工神经网络算法 189

11.1.1  神经元 189

11.1.2  神经网络模型 191

11.1.3  信号的前向传播 191

11.1.4  误差的反向传播 193

11.2  DNN优化方法 195

11.2.1  优化参数 196

11.2.2  Attention机制 197

11.3  DNN实例 198

11.4  运行结果 205

第12章  Wide & Deep模型 206

12.1  Wide & Deep模型概述 206

12.1.1  Wide模型 208

12.1.2  Deep模型 209

12.1.3  模型联合训练 210

12.2  Wide & Deep系统实现 211

12.2.1  推荐系统介绍 211

12.2.2  系统流程 212

12.2.3  训练数据的生成 213

12.2.4  模型训练 213

12.2.5  线上应用 214

12.3  Wide & Deep实例 214

12.4  运行结果 219

第13章  DeepFM模型 225

13.1  DeepFM模型概述 225

13.1.1  FM组件 226

13.1.2  Deep组件 228

13.1.3  模型对比 229

13.2  DeepFM模型实例 231

13.3  运行结果 241

第14章  YouTube的深度神经网络模型 243

14.1  YouTube推荐模型 243

14.1.1  背景介绍 243

14.1.2  召回模型设计 245

14.1.3  排序模型设计 250

14.2  YouTube实例 252

14.3  运行结果 256

第6部分  推荐系统的算法实践

第15章  实践——基于电商平台的商品召回 260

15.1  背景介绍 260

15.2  模型选择 261

15.3  算法开发 261

第16章  实践——基于逻辑回归的音乐评分预测 266

16.1  背景介绍 266

16.2  数据准备 266

16.3  特征处理 268

16.4  模型选择 270

16.5  算法开发 271

第17章  实践——Kaggle竞赛之Outbrain点击率预估 275

17.1  背景介绍 275

17.2  数据准备 277

17.3  特征处理 283

17.4  模型选择 284

17.4.1  FFM 285

17.4.2  XGBoost 288

17.4.3  集成学习 292

17.5  算法开发 292

第18章  实践——基于深度学习的电商商品点击率预估 297

18.1  背景介绍 297

18.2  数据准备 298

18.3  特征处理 302

18.4  模型选择 303

18.5  算法开发 304

18.6  运行结果 309

第19章  Notebook实践 312

19.1  Sklearn中的LR实践 312

19.2  TensorFlow中的LR实践 316

19.3  Spark中的LR实践 321

19.4  TensorFlow中的FM调试实践 327

19.5  Spark中的协同过滤调试实践 331

蓝墨水图书专营店

推荐系统开发实战   作  译  者:高阳团

出版时间:2019-07千 字 数:582

版     次:01-01 页 数:364

开       本:16

开 装      帧:I S B N :9787121365201换       版:纸质书

定价:¥79.0 

过程完整:从基本原理到实际项目开发 实例丰富:将理论学习落实到具体实践(共34个实例)简洁流畅:采用短段、短句,读来有顺流而下般流畅感实战性强:搭建新闻推荐系统、音乐推荐系统、图书推荐系统学习无忧:免费提供书中用到的素材和源代码后继服务:读者可加入本书QQ学习群在线交流

?

====第1篇   推荐系统的背景介绍和入门

第1章  走进推荐系统   2

1.1  从“啤酒与尿布”到推荐系统的前世今生   2

∣1.1.1  “啤酒与尿布”   2

∣1.1.2  推荐系统的前世今生   2

1.2  推荐系统可以做什么   4

∣1.2.1  什么是推荐系统   4

∣1.2.2  在电商类产品中的应用   5

∣1.2.3  在社交类产品中的应用   6

∣1.2.4  在音乐类产品中的应用   8

∣1.2.5  在视频类产品中的应用   9

∣1.2.6  在阅读类产品中的应用   10

∣1.2.7  在服务类产品中的应用   11

1.3  学习本书需要的技能   12

∣1.3.1  Python基础   12

∣1.3.2  数据结构   14

∣1.3.3  工程能力   15

1.4  如何学习本书   17

1.5  知识导图   17

第2章  搭建你的一个推荐系统   19

2.1  实例1:搭建电影推荐系统   19

∣2.1.1  利用Netflix数据集准备数据   19

∣2.1.2  使用Python表示数据   21

∣2.1.3  选择相似用户   23

∣2.1.4  为用户推荐相似用户喜欢的电影   24

∣2.1.5  分析效果   25

2.2  总结:搭建推荐系统的一般步骤   26

∣2.2.1  准备数据   26

∣2.2.2  选择算法   27

∣2.2.3  模型训练   28

∣2.2.4  效果评估   28

2.3  知识导图   28

第3章  推荐系统常用数据集介绍   29

3.1  MovieLens数据集   29

∣3.1.1  README   29

∣3.1.2  ratings.dat   29

∣3.1.3  movies.dat   31

∣3.1.4  users.dat   34

3.2  Book-Crossings数据集   36

∣3.2.1  BX-Book-Ratings.csv   37

∣3.2.2  BX-Books.csv   39

∣3.2.3  BX-Users.csv   39

3.3  Last.fm数据集   41

∣3.3.1  README   41

∣3.3.2  artists.dat   41

∣3.3.3  tags.dat   41

∣3.3.4  user_artists.dat   42

∣3.3.5  user_friends.dat   42

∣3.3.6  uses_taggedartists.dat   42

∣3.3.7  user_taggedartists-timestamps.dat   42

3.4  FourSquare数据集   43

∣3.4.1  users.dat   43

∣3.4.2  venues.dat   44

∣3.4.3  checkins.dat   44

∣3.4.4  socialgraph.dat   44

∣3.4.5  ratings.dat   45

3.5  Kaggle比赛之retailrocket 数据集   46

∣3.5.1  events.csv   47

∣3.5.2  category_tree.csv   49

∣3.5.3  item_properties.csv   49

3.6  场景分析   49

3.7  知识导图   50

===第2篇   推荐系统涉及的算法介绍、冷启动和效果评估

第4章  数据挖掘——让推荐系统更懂你   52

4.1  数据预处理   52

∣4.1.1  数据标准化   52

∣4.1.2  实例2:实现数据的标准化   54

∣4.1.3  数据离散化   56

∣4.1.4  实例3:基于信息熵的数据离散化   58

∣4.1.5  数据抽样   61

∣4.1.6  数据降维   63

∣4.1.7  实例4:对鸢尾花数据集特征进行降维   66

∣4.1.8  数据清理   68

∣4.1.9  相似度计算   71

4.2  数据分类   74

∣4.2.1  K最近邻算法   74

∣4.2.2  实例5:利用KNN算法实现性别判定   75

∣4.2.3  决策树算法   77

∣4.2.4  实例6:构建是否举办活动的决策树   80

∣4.2.5  朴素贝叶斯算法   84

∣4.2.6  实例7:基于朴素贝叶斯算法进行异常账户检测   87

∣4.2.7  分类器的评估   90

∣4.2.8  实例8:scikit-learn中的分类效果评估   92

4.3  数据聚类   92

∣4.3.1  kMeans算法   92

∣4.3.2  实例9:基于kMeans算法进行商品价格聚类   95

∣4.3.3  二分-kMeans算法   98

∣4.3.4  实例10:基于二分-kMeans算法进行商品价格聚类   99

∣4.3.5  聚类算法的评估   100

∣4.3.6  实例11:scikit-learn中的聚类效果评估   102

4.4  关联分析   103

∣4.4.1  Apriori算法   103

∣4.4.2  实例12:基于Apriori算法实现频繁项集和相关规则挖掘   106

4.5  知识导图   110

第5章  基于用户行为特征的推荐   111

5.1  用户行为分类   111

5.2  基于内容的推荐算法   112

∣5.2.1  算法原理——从“构造特征”到“判断用户是否喜欢”   112

∣5.2.2  实例13:对手机属性进行特征建模   115

5.3  实例14:编写一个基于内容推荐算法的电影推荐系统   117

∣5.3.1  了解实现思路   117

∣5.3.2  准备数据   119

∣5.3.3  选择算法   122

∣5.3.4  模型训练   122

∣5.3.5  效果评估   123

5.4  基于近邻的推荐算法   124

∣5.4.1  UserCF算法的原理——先“找到相似同户”,再“找到他们喜欢的物品”   124

∣5.4.2  ItemCF算法的原理——先“找到用户喜欢的物品”,再“找到喜欢物品的相似物品”  131

5.5  实例15:编写一个基于UserCF算法的电影推荐系统   137

∣5.5.1  了解实现思路   138

∣5.5.2  准备数据   138

∣5.5.3  选择算法   138

∣5.5.4  模型训练   138

∣5.5.5  效果评估   141

5.6  实例16:编写一个基于ItemCF算法的电影推荐系统   141

∣5.6.1  了解实现思路   141

∣5.6.2  准备数据   142

∣5.6.3  选择算法   142

∣5.6.4  模型训练   142

∣5.6.5  效果评估   144

5.7  对比分析:UserCF算法和ItemCF算法   145

5.8  对比分析:基于内容和基于近邻   146

5.9  基于隐语义模型的推荐算法   147

∣5.9.1  LFM概述   147

∣5.9.2  LFM算法理解   148

∣5.10  实例17:编写一个基于LFM的电影推荐系统   152

∣5.10.1  了解实现思路   152

∣5.10.2  准备数据   152

∣5.10.3  选择算法   154

∣5.10.4  模型训练   155

∣5.10.5  效果评估   158

5.11  知识导图   159

第6章  基于标签的推荐   161

6.1  基于标签系统的应用   161

∣6.1.1  Last.fm   161

∣6.1.2  Delicious   162

∣6.1.3  豆瓣   163

∣6.1.4  网易云音乐   163

6.2  数据标注与关键词提取   165

∣6.2.1  推荐系统中的数据标注   165

∣6.2.2  推荐系统中的关键词提取   167

∣6.2.3  标签的分类   168

6.3  实例18:基于TF-IDF算法提取商品标题的关键词   169

∣6.3.1  了解TF-IDF算法   169

∣6.3.2  认识商品标题描述   170

∣6.3.3  提取关键词   170

6.4  基于标签的推荐系统   174

∣6.4.1  标签评分算法   174

∣6.4.2  标签评分算法改进   176

∣6.4.3  标签基因   177

∣6.4.4  用户兴趣建模   177

6.5  实例19:利用标签推荐算法实现艺术家的推荐   178

∣6.5.1  了解实现思路   178

∣6.5.2  准备数据   178

∣6.5.3  选择算法   179

∣6.5.4  模型训练   179

∣6.5.5  效果评估   182

6.6  知识导图   182

第7章  基于上下文的推荐   184

7.1  基于时间特征的推荐   184

∣7.1.1  时间效应介绍   184

∣7.1.2  时间效应分析   187

∣7.1.3  推荐系统的实时性   194

∣7.1.4  协同过滤中的时间因子   195

7.2  实例20:实现一个“增加时间衰减函数的协同过滤算法”   197

∣7.2.1  在UserCF算法中增加时间衰减函数   197

∣7.2.2  在ItemCF算法中增加时间衰减函数   199

7.3  基于地域和热度特征的推荐   200

∣7.3.1  为什么要将地域和热度特征放在一起   201

∣7.3.2  解读LARS中的地域特征   202

∣7.3.3  基于地域和热度的推荐算法   204

7.4  实例21:创建一个基于地域和热度的酒店推荐系统   206

∣7.4.1  了解实现思路   206

∣7.4.2  准备数据   207

∣7.4.3  选择算法   207

∣7.4.4  模型训练   207

∣7.4.5  效果评估   210

∣7.5  其他上下文信息   210

7.6  知识导图   210

第8章  基于点击率预估的推荐   212

8.1  传统推荐算法的局限和应用   212

∣8.1.1  传统推荐算法的局限   212

∣8.1.2  传统推荐算法的应用   213

8.2  点击率预估在推荐系统中的应用   214

8.3  集成学习   214

∣8.3.1  集成学习概述   215

∣8.3.2  Boosting算法(提升法)   215

∣8.3.3  Bagging算法(自助法)   216

∣8.3.4  Stacking算法(融合法)   217

8.4  导数、偏导数、方向导数、梯度   217

∣8.4.1  导数   217

∣8.4.2  偏导数   217

∣8.4.3  方向导数   218

∣8.4.4  梯度   219

∣8.4.5  梯度下降   219

8.5  GBDT算法   222

∣8.5.1  Gradient Boosting方法   223

∣8.5.2  决策树   223

∣8.5.3  GBDT算法的原理   224

8.6  实例22:基于GBDT算法预估电信客户流失   227

∣8.6.1  了解实现思路   227

∣8.6.2  准备数据   229

∣8.6.3  选择算法   232

∣8.6.4  模型训练   232

∣8.6.5  效果评估   234

8.7  回归分析   236

∣8.7.1  什么是回归分析   236

∣8.7.2  回归分析算法分类   236

∣8.8  Logistic Regression算法   237

∣8.8.1  Sigmoid函数   237

∣8.8.2  LR为什么要使用Sigmoid函数   239

∣8.8.3  LR的算法原理分析   240

8.9  实例23:基于LR算法预估电信客户流失   241

∣8.9.1  准备数据   242

∣8.9.2  选择算法   242

∣8.9.3  模型训练   242

∣8.9.4  效果评估   243

8.10  GBDT+LR的模型融合   245

∣8.10.1  GBDT+LR模型融合概述   245

∣8.10.2  为什么选择GBDT和LR进行模型融合   246

∣8.10.3  GBDT+LR模型融合的原理   246

8.11  实例24:基于GBDT和LR算法预估电信客户流失   247

∣8.11.1  准备数据   247

∣8.11.2  选择算法   247

∣8.11.3  模型训练   247

∣8.11.4  效果评估   248

8.12  知识导图   251

第9章  推荐系统中的冷启动   252

9.1  冷启动介绍   252

∣9.1.1  冷启动的分类   252

∣9.1.2  冷启动的几种实现方法   252

9.2  基于热门数据推荐实现冷启动   253

9.3  利用用户注册信息实现冷启动   254

∣9.3.1  注册信息分析   254

∣9.3.2  实例25:分析Book-Crossings数据集中的共性特征   255

∣9.3.3  实现原理   261

9.4  利用用户上下文信息实现冷启动   261

∣9.4.1  设备信息特征   262

∣9.4.2  时间地域信息特征   262

∣9.4.3  实现原理   262

9.5  利用第三方数据实现冷启动   263

9.6  利用用户和系统之间的交互实现冷启动   263

∣9.6.1  实现原理   263

∣9.6.2  推荐系统中实时交互的应用   265

∣9.6.3  实例26:用户实时交互推荐系统设计   266

9.7  利用物品的内容属性实现冷启动   267

∣9.7.1  物品内容属性分析   267

∣9.7.2  物品信息的使用   268

9.8  利用专家标注数据实现冷启动   269

9.9  知识导图   270

第10章  推荐系统中的效果评估   271

10.1  用户调研   271

10.2  在线评估   272

10.3  在线实验方式——ABTest   272

∣10.3.1  ABTest介绍   272

∣10.3.2  ABTest流程   272

∣10.3.3  ABTest的注意事项   273

10.4  在线评估指标   274

∣10.4.1  点击率   275

∣10.4.2  转化率   275

∣10.4.3  网站成交额   275

10.5  离线评估   276

10.6  拆分数据集   276

∣10.6.1  留出法   277

∣10.6.2  K-折交叉验证法   277

∣10.6.3  自助法   277

∣10.6.4  实例27:使用sklearn包中的train_test_split()函数进行数据集拆分   278

∣10.6.5  实例28:使用sklearn包中的KFold()函数产生交叉验证数据集   280

∣10.6.6  实例29:使用sklearn包中的cross_validate()函数演示交叉验证   281

10.7  离线评估指标   282

∣10.7.1  准确度指标之预测分类准确度指标   282

∣10.7.2  实例30:使用sklearn包中的metrics类预测分类准确度   288

∣10.7.3  准确度指标之预测评分准确度指标   290

∣10.7.4  实例31:使用sklearn包中的metrics类预测评分准确度   290

∣10.7.5  准确度指标之预测评分关联指标   291

∣10.7.6  准确度指标之排序准确度指标   292

∣10.7.7  非准确度指标   292

10.8  知识导图   296

===第3篇   推荐系统实例

∣第11章  实例32:搭建一个新闻推荐系统   298

11.1  准备数据   298

11.2  预处理数据   298

∣11.2.1  原始数据加工   298

∣11.2.2  新闻热度值计算   299

∣11.2.3  新闻相似度计算   300

∣11.2.4  指定标签下的新闻统计   302

11.3  设计架构   303

11.4  实现系统   304

∣11.4.1  准备环境   304

∣11.4.2  实现后端接口   304

∣11.4.3  实现前端界面   309

∣11.4.4  系统演示   309

11.5  代码复现   311

∣11.5.1  安装依赖   311

∣11.5.2  数据入库   312

∣11.5.3  修改配置   312

∣11.5.4  项目启动   312

11.6  知识导图   312

第12章  实例33:搭建一个音乐推荐系统   314

12.1  准备数据   314

12.2  预处理数据   314

∣12.2.1  计算歌曲、歌手、用户相似度   314

∣12.2.2  计算用户推荐集   315

∣12.2.3  数据导入数据库   319

12.3  设计架构   321

12.4  实现系统   322

∣12.4.1  准备环境   322

∣12.4.2  实现后端接口   322

∣12.4.3  实现前端界面   324

∣12.4.4  系统演示   324

12.5  代码复现   327

∣12.5.1  安装依赖   327

∣12.5.2  数据入库   327

∣12.5.3  修改配置   327

∣12.5.4  项目启动   328

12.6  知识导图   328

第13章  实例34:搭建一个图书推荐系统   329

13.1  准备数据   329

13.2  预处理数据   329

∣13.2.1  原始数据加工   329

∣13.2.2  数据导入数据库   331

∣13.2.3  模型准备   331

13.3  设计架构   332

13.4  实现系统   333

∣13.4.1  准备环境   333

∣13.4.2  实现后端接口   333

∣13.4.3  实现前端界面   336

∣13.4.4  系统演示   336

13.5  代码复现   338

13.6  知识导图   338

第14章  业界推荐系统架构介绍   340

14.1  概述   340

14.2  架构介绍   340

14.3  召回内容   342

14.4  计算排序   343

∣14.4.1  特征工程   343

∣14.4.2  特征分类   343

∣14.4.3  排序算法   343

14.5  物品过滤和展示   344

∣14.5.1  物品过滤   344

∣14.5.2  物品展示   344

14.6  效果评估   344

14.7  知识导图   345


蓝墨水图书专营店


用户网络行为画像 大数据中的用户网络行为画像分析与内容推荐应用

内容简介

  如何能牢牢地黏住老用户、吸引新用户、读懂用户的偏好兴趣和喜怒哀乐,这都是对企业发展至关重要甚至关乎生死存亡的问题,解决这个问题的方法就是推荐系统。本书分为上中下三篇,共13章,上篇为用户画像知识工程基础,包括表征建模、画像计算、存储及各种更新维护等管理操作;中篇为推荐系统与用户画像,包括传统协同过滤等经典推荐算法的介绍,以及涉及用户画像的推荐方法;下篇为应用案例分析,包括Netflix、阿里等数据竞赛的经典数据案例,以及在具体工程开发过程的具体案例,分别从系统需求、总体结构、算法设计、运行流程及测试结果等五个方面提供详细案例指导。

目录

上 篇

第1章 用户画像概述3

1.1 用户画像数据来源3

1.1.1 用户属性5

1.1.2 用户观影行为5

1.2 用户画像特性5

1.2.1 动态性5

1.2.2 时空局部性6

1.3 用户画像应用领域6

1.3.1 搜索引擎6

1.3.2 推荐系统7

1.3.3 其他业务定制与优化7

1.4 大数据给用户画像带来的机遇与挑战8

第2章 用户画像建模9

2.1 用户定量画像9

2.2 用户定性画像10

2.2.1 标签与用户定性画像10

2.2.2 基于知识的用户定性画像分析12

2.2.3 用户定性画像的构建16

2.2.4 定性画像知识的存储22

2.2.5 定性画像知识的推理26

2.3 本章参考文献29

第3章 群体用户画像分析31

3.1 用户画像相似度32

3.1.1 定量相似度计算32

3.1.2 定性相似度计算34

3.1.3 综合相似度计算35

3.2 用户画像聚类36

第4章 用户画像管理41

4.1 存储机制41

4.1.1 关系型数据库42

4.1.2 NoSQL数据库43

4.1.3 数据仓库45

4.2 查询机制46

4.3 定时更新机制47

4.3.1 获取实时用户信息47

4.3.2 更新触发条件48

4.3.3 更新机制49

中 篇

第5章 视频推荐概述55

5.1 主流推荐方法的分类56

5.1.1 协同过滤的推荐方法56

5.1.2 基于内容的推荐方法57

5.1.3 基于知识的推荐方法59

5.1.4 混合推荐方法60

5.2 推荐系统的评测方法61

5.3 视频推荐与用户画像的逻辑关系61

第6章 协同过滤推荐方法65

6.1 概述65

6.2 关系矩阵及矩阵计算67

6.2.1 U-U矩阵67

6.2.2 V-V矩阵70

6.2.3 U-V矩阵72

6.3 基于记忆的协同过滤算法74

6.3.1 基于用户的协同过滤算法75

6.3.2 基于物品的协同过滤算法78

6.4 基于模型的协同过滤算法81

6.4.1 基于隐因子模型的推荐算法82

6.4.2 基于朴素贝叶斯分类的推荐算法85

6.5 小结88

6.6 本章参考文献88

第7章 基于内容的推荐方法91

7.1 概述91

7.2 CB推荐中的特征向量94

7.2.1 视频推荐中的物品画像94

7.2.2 视频推荐中的用户画像96

7.3 基础CB推荐算法97

7.4 基于TF-IDF的CB推荐算法99

7.5 基于KNN的CB推荐算法102

7.6 基于Rocchio的CB推荐算法104

7.7 基于决策树的CB推荐算法106

7.8 基于线性分类的CB推荐算法107

7.9 基于朴素贝叶斯的CB推荐算法109

7.10 小结111

7.11 本章参考文献111

第8章 基于知识的推荐方法113

8.1 概述113

8.2 约束知识与约束推荐算法114

8.2.1 约束知识示例114

8.2.2 约束满足问题115

8.2.3 约束推荐算法流程117

8.3 关联知识与关联推荐算法118

8.3.1 关联规则描述118

8.3.2 关联规则挖掘121

8.3.3 关联推荐算法流程123

8.4 小结124

8.5 本章参考文献124

第9章 混合推荐方法125

9.1 概述125

9.2 算法设计层面的混合方法126

9.2.1 并行式混合126

9.2.2 整体式混合129

9.2.3 流水线式混合131

9.2.4 典型混合应用系统133

9.3 混合式视频推荐实例136

9.3.1 MoRe系统概览136

9.3.2 MoRe算法介绍137

9.3.3 MoRe算法混合139

9.3.4 MoRe实验分析140

9.4 小结142

9.5 本章参考文献142

第10章 视频推荐评测145

10.1 概述145

10.2 视频推荐试验方法146

10.2.1 在线评测147

10.2.2 离线评测149

10.2.3 用户调查150

10.3 视频离线推荐评测指标151

10.3.1 准确度指标151

10.3.2 多样性指标159

10.4 小结161

10.5 本章参考文献162

下 篇

第11章 系统层面的快速推荐构建165

11.1 概述165

11.2 本章主要内容166

11.3 系统部署166

11.3.1 Hadoop2.2.0系统部署166

11.3.2 Hadoop运行时环境设置169

11.3.3 Spark与Mahout部署175

11.4 Mahout推荐引擎介绍181

11.4.1 Item-based算法181

11.4.2 矩阵分解185

11.4.3 ALS算法187

11.4.4 Mahout的Spark实现190

11.5 快速实战193

11.5.1 概述193

11.5.2 日志数据194

11.5.3 运行环境196

11.5.4 基于Mahout Item-based算法实践201

11.5.5 基于Mahout ALS算法实践205

11.6 小结208

11.7 本章参考文献208

第12章 数据层面的分析与推荐案例211

12.1 概述211

12.2 本章主要内容212

12.3 竞赛内容和意义212

12.3.1 竞赛简介212

12.3.2 竞赛任务和意义213

12.4 客户-商户数据215

12.4.1 数据描述215

12.4.2 数据理解与分析217

12.5 算法流程设计219

12.5.1 特征提取219

12.5.2 分类器设计220

12.5.3 算法流程总结222

12.6 小结222

12.7 本章参考文献223