正版陈开江+开发实战+与深度学习+用户网络行为画像书籍共4册书籍pdf下载

正版陈开江+开发实战+与深度学习+用户网络行为画像书籍共4册书籍百度网盘pdf下载

作者:
简介:正版陈开江+开发实战+与深度学习+用户网络行为画像书籍共4册书籍
出版社:
出版时间:2016-03
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍




9787121354724 9787302513636 9787121280702 9787121365201

陈开江+开发实战+与深度学习+用户网络行为画像书籍


 

作  译  者:陈开江

出版时间:2019-10

I S B N :9787121354724

定价:¥99.0

本书是一本关于产品如何落地的综合图书,内容覆盖产品、算法、工程、团队和个人成长。书中不仅梳理了从事工作需要具备的思维模式和需要了解的问题类型,还从产品和商业角度分析了当前火爆的信息流内在逻辑。本书用非常通俗易懂的方式介绍了的经典算法原理,并有相应的配套实践代码,以帮助初入门的算法工程师快速上手。除了算法,书中还包含一些不属于算法但是很常见的实用算法。除算法原理之外,还有典型的工程架构描述,以及架构内部的具体模块细节描述。这些都是在设计的过程中不可或缺而又不容易在公开场合获得的内容。此外,本书还涉及一部分安全相关的知识,以及团队搭建经验和个人成长心得。本书适合以为代表的效果类产品从业者阅读,包括决策者,以及产品、算法、架构、安全、运营人员。这是一本可以架起不同工种之间友好沟通桥梁的书。


开发实战   作  译  者:高阳团

出版时间:2019-07千 字 数:582

版     次:01-01 页 数:364

开       本:16

开 装      帧:I S B N :9787121365201换       版:纸质书

定价:¥79.0

过程完整:从基本原理到实际项目开发 实例丰富:将理论学习落实到具体实践(共34个实例)简洁流畅:采用短段、短句,读来有顺流而下般流畅感实战性强:搭建新闻、音乐、图书学习无忧:提供书中用到的素材和源代码后继服务:读者可加入本书QQ学习群在线交流

?

====1篇  的背景介绍和入门



1章  走进   2

1.1  从“啤酒与尿布”到的前世今生   2

∣1.1.1  “啤酒与尿布”   2

∣1.1.2  的前世今生   2

1.2  可以做什么   4

∣1.2.1  什么是   4

∣1.2.2  在电商类产品中的应用   5

∣1.2.3  在社交类产品中的应用   6

∣1.2.4  在音乐类产品中的应用   8

∣1.2.5  在视频类产品中的应用   9

∣1.2.6  在阅读类产品中的应用   10

∣1.2.7  在服务类产品中的应用   11

1.3  学习本书需要的技能   12

∣1.3.1  Python基础   12

∣1.3.2  数据结构   14

∣1.3.3  工程能力   15

1.4  如何学习本书   17

1.5  知识导图   17

2章  搭建你的一个   19

2.1  实例1:搭建电影   19

∣2.1.1  利用Netflix数据集准备数据   19

∣2.1.2  使用Python表示数据   21

∣2.1.3  选择相似用户   23

∣2.1.4  为用户相似用户喜欢的电影   24

∣2.1.5  分析效果   25

2.2  总结:搭建的一般步骤   26

∣2.2.1  准备数据   26

∣2.2.2  选择算法   27

∣2.2.3  模型训练   28

∣2.2.4  效果评估   28

2.3  知识导图   28

3章  常用数据集介绍   29

3.1  MovieLens数据集   29

∣3.1.1  README   29

∣3.1.2  ratings.dat   29

∣3.1.3  movies.dat   31

∣3.1.4  users.dat   34

3.2  Book-Crossings数据集   36

∣3.2.1  BX-Book-Ratings.csv   37

∣3.2.2  BX-Books.csv   39

∣3.2.3  BX-Users.csv   39

3.3  Last.fm数据集   41

∣3.3.1  README   41

∣3.3.2  artists.dat   41

∣3.3.3  tags.dat   41

∣3.3.4  user_artists.dat   42

∣3.3.5  user_friends.dat   42

∣3.3.6  uses_taggedartists.dat   42

∣3.3.7  user_taggedartists-timestamps.dat   42

3.4  FourSquare数据集   43

∣3.4.1  users.dat   43

∣3.4.2  venues.dat   44

∣3.4.3  checkins.dat   44

∣3.4.4  socialgraph.dat   44

∣3.4.5  ratings.dat   45

3.5  Kaggle比赛之retailrocket 数据集   46

∣3.5.1  events.csv   47

∣3.5.2  category_tree.csv   49

∣3.5.3  item_properties.csv   49

3.6  场景分析   49

3.7  知识导图   50



===2篇  涉及的算法介绍、冷启动和效果评估



4章  数据挖掘——让更懂你   52

4.1  数据预处理   52

∣4.1.1  数据标准化   52

∣4.1.2  实例2:实现数据的标准化   54

∣4.1.3  数据离散化   56

∣4.1.4  实例3:基于信息熵的数据离散化   58

∣4.1.5  数据抽样   61

∣4.1.6  数据降维   63

∣4.1.7  实例4:对鸢尾花数据集特征进行降维   66

∣4.1.8  数据清理   68

∣4.1.9  相似度计算   71

4.2  数据分类   74

∣4.2.1  K近邻算法   74

∣4.2.2  实例5:利用KNN算法实现性别判定   75

∣4.2.3  决策树算法   77

∣4.2.4  实例6:构建是否举办活动的决策树   80

∣4.2.5  朴素贝叶斯算法   84

∣4.2.6  实例7:基于朴素贝叶斯算法进行异常账户检测   87

∣4.2.7  分类器的评估   90

∣4.2.8  实例8:scikit-learn中的分类效果评估   92

4.3  数据聚类   92

∣4.3.1  kMeans算法   92

∣4.3.2  实例9:基于kMeans算法进行商品价格聚类   95

∣4.3.3  二分-kMeans算法   98

∣4.3.4  实例10:基于二分-kMeans算法进行商品价格聚类   99

∣4.3.5  聚类算法的评估   100

∣4.3.6  实例11:scikit-learn中的聚类效果评估   102

4.4  关联分析   103

∣4.4.1  Apriori算法   103

∣4.4.2  实例12:基于Apriori算法实现频繁项集和相关规则挖掘   106

4.5  知识导图   110



5章  基于用户行为特征的   111

5.1  用户行为分类   111

5.2  基于内容的算法   112

∣5.2.1  算法原理——从“构造特征”到“判断用户是否喜欢”   112

∣5.2.2  实例13:对手机属性进行特征建模   115

5.3  实例14:编写一个基于内容算法的电影   117

∣5.3.1  了解实现思路   117

∣5.3.2  准备数据   119

∣5.3.3  选择算法   122

∣5.3.4  模型训练   122

∣5.3.5  效果评估   123

5.4  基于近邻的算法   124

∣5.4.1  UserCF算法的原理——先“找到相似同户”,再“找到他们喜欢的物品”   124

∣5.4.2  ItemCF算法的原理——先“找到用户喜欢的物品”,再“找到喜欢物品的相似物品”  131

5.5  实例15:编写一个基于UserCF算法的电影   137

∣5.5.1  了解实现思路   138

∣5.5.2  准备数据   138

∣5.5.3  选择算法   138

∣5.5.4  模型训练   138

∣5.5.5  效果评估   141

5.6  实例16:编写一个基于ItemCF算法的电影   141

∣5.6.1  了解实现思路   141

∣5.6.2  准备数据   142

∣5.6.3  选择算法   142

∣5.6.4  模型训练   142

∣5.6.5  效果评估   144

5.7  对比分析:UserCF算法和ItemCF算法   145

5.8  对比分析:基于内容和基于近邻   146

5.9  基于隐语义模型的算法   147

∣5.9.1  LFM概述   147

∣5.9.2  LFM算法理解   148

∣5.10  实例17:编写一个基于LFM的电影   152

∣5.10.1  了解实现思路   152

∣5.10.2  准备数据   152

∣5.10.3  选择算法   154

∣5.10.4  模型训练   155

∣5.10.5  效果评估   158

5.11  知识导图   159



6章  基于标签的   161

6.1  基于标签的应用   161

∣6.1.1  Last.fm   161

∣6.1.2  Delicious   162

∣6.1.3  豆瓣   163

∣6.1.4  网易云音乐   163

6.2  数据标注与关键词提取   165

∣6.2.1  中的数据标注   165

∣6.2.2  中的关键词提取   167

∣6.2.3  标签的分类   168

6.3  实例18:基于TF-IDF算法提取商品标题的关键词   169

∣6.3.1  了解TF-IDF算法   169

∣6.3.2  认识商品标题描述   170

∣6.3.3  提取关键词   170

6.4  基于标签的   174

∣6.4.1  标签评分算法   174

∣6.4.2  标签评分算法改进   176

∣6.4.3  标签基因   177

∣6.4.4  用户兴趣建模   177

6.5  实例19:利用标签算法实现艺术家的   178

∣6.5.1  了解实现思路   178

∣6.5.2  准备数据   178

∣6.5.3  选择算法   179

∣6.5.4  模型训练   179

∣6.5.5  效果评估   182

6.6  知识导图   182



7章  基于上下文的   184

7.1  基于时间特征的   184

∣7.1.1  时间效应介绍   184

∣7.1.2  时间效应分析   187

∣7.1.3  的实时性   194

∣7.1.4  协同过滤中的时间因子   195

7.2  实例20:实现一个“增加时间衰减函数的协同过滤算法”   197

∣7.2.1  在UserCF算法中增加时间衰减函数   197

∣7.2.2  在ItemCF算法中增加时间衰减函数   199

7.3  基于地域和热度特征的   200

∣7.3.1  为什么要将地域和热度特征放在一起   201

∣7.3.2  解读LARS中的地域特征   202

∣7.3.3  基于地域和热度的算法   204

7.4  实例21:创建一个基于地域和热度的酒店   206

∣7.4.1  了解实现思路   206

∣7.4.2  准备数据   207

∣7.4.3  选择算法   207

∣7.4.4  模型训练   207

∣7.4.5  效果评估   210

∣7.5  其他上下文信息   210

7.6  知识导图   210



8章  基于点击率预估的   212

8.1  传统算法的局限和应用   212

∣8.1.1  传统算法的局限   212

∣8.1.2  传统算法的应用   213

8.2  点击率预估在中的应用   214

8.3  集成学习   214

∣8.3.1  集成学习概述   215

∣8.3.2  Boosting算法(提升法)   215

∣8.3.3  Bagging算法(自助法)   216

∣8.3.4  Stacking算法(融合法)   217

8.4  导数、偏导数、方向导数、梯度   217

∣8.4.1  导数   217

∣8.4.2  偏导数   217

∣8.4.3  方向导数   218

∣8.4.4  梯度   219

∣8.4.5  梯度下降   219

8.5  GBDT算法   222

∣8.5.1  Gradient Boosting方法   223

∣8.5.2  决策树   223

∣8.5.3  GBDT算法的原理   224

8.6  实例22:基于GBDT算法预估电信客户流失   227

∣8.6.1  了解实现思路   227

∣8.6.2  准备数据   229

∣8.6.3  选择算法   232

∣8.6.4  模型训练   232

∣8.6.5  效果评估   234

8.7  回归分析   236

∣8.7.1  什么是回归分析   236

∣8.7.2  回归分析算法分类   236

∣8.8  Logistic Regression算法   237

∣8.8.1  Sigmoid函数   237

∣8.8.2  LR为什么要使用Sigmoid函数   239

∣8.8.3  LR的算法原理分析   240

8.9  实例23:基于LR算法预估电信客户流失   241

∣8.9.1  准备数据   242

∣8.9.2  选择算法   242

∣8.9.3  模型训练   242

∣8.9.4  效果评估   243

8.10  GBDT+LR的模型融合   245

∣8.10.1  GBDT+LR模型融合概述   245

∣8.10.2  为什么选择GBDT和LR进行模型融合   246

∣8.10.3  GBDT+LR模型融合的原理   246

8.11  实例24:基于GBDT和LR算法预估电信客户流失   247

∣8.11.1  准备数据   247

∣8.11.2  选择算法   247

∣8.11.3  模型训练   247

∣8.11.4  效果评估   248

8.12  知识导图   251



9章  中的冷启动   252

9.1  冷启动介绍   252

∣9.1.1  冷启动的分类   252

∣9.1.2  冷启动的几种实现方法   252

9.2  基于热门数据实现冷启动   253

9.3  利用用户注册信息实现冷启动   254

∣9.3.1  注册信息分析   254

∣9.3.2  实例25:分析Book-Crossings数据集中的共性特征   255

∣9.3.3  实现原理   261

9.4  利用用户上下文信息实现冷启动   261

∣9.4.1  设备信息特征   262

∣9.4.2  时间地域信息特征   262

∣9.4.3  实现原理   262

9.5  利用三方数据实现冷启动   263

9.6  利用用户和之间的交互实现冷启动   263

∣9.6.1  实现原理   263

∣9.6.2  中实时交互的应用   265

∣9.6.3  实例26:用户实时交互设计   266

9.7  利用物品的内容属性实现冷启动   267

∣9.7.1  物品内容属性分析   267

∣9.7.2  物品信息的使用   268

9.8  利用专家标注数据实现冷启动   269

9.9  知识导图   270



10章  中的效果评估   271

10.1  用户调研   271

10.2  在线评估   272

10.3  在线实验方式——ABTest   272

∣10.3.1  ABTest介绍   272

∣10.3.2  ABTest流程   272

∣10.3.3  ABTest的注意事项   273

10.4  在线评估指标   274

∣10.4.1  点击率   275

∣10.4.2  转化率   275

∣10.4.3  网站成交额   275

10.5  离线评估   276

10.6  拆分数据集   276

∣10.6.1  留出法   277

∣10.6.2  K-折交验证法   277

∣10.6.3  自助法   277

∣10.6.4  实例27:使用sklearn包中的train_test_split()函数进行数据集拆分   278

∣10.6.5  实例28:使用sklearn包中的KFold()函数产生交验证数据集   280

∣10.6.6  实例29:使用sklearn包中的cross_validate()函数演示交验证   281

10.7  离线评估指标   282

∣10.7.1  准确度指标之预测分类准确度指标   282

∣10.7.2  实例30:使用sklearn包中的metrics类预测分类准确度   288

∣10.7.3  准确度指标之预测评分准确度指标   290

∣10.7.4  实例31:使用sklearn包中的metrics类预测评分准确度   290

∣10.7.5  准确度指标之预测评分关联指标   291

∣10.7.6  准确度指标之排序准确度指标   292

∣10.7.7  非准确度指标   292

10.8  知识导图   296



===3篇  实例

∣11章  实例32:搭建一个新闻   298

11.1  准备数据   298

11.2  预处理数据   298

∣11.2.1  原始数据加工   298

∣11.2.2  新闻热度值计算   299

∣11.2.3  新闻相似度计算   300

∣11.2.4  指定标签下的新闻统计   302

11.3  设计架构   303

11.4  实现   304

∣11.4.1  准备环境   304

∣11.4.2  实现后端接口   304

∣11.4.3  实现前端界面   309

∣11.4.4  演示   309

11.5  代码复现   311

∣11.5.1  安装依赖   311

∣11.5.2  数据入库   312

∣11.5.3  修改配置   312

∣11.5.4  项目启动   312

11.6  知识导图   312



12章  实例33:搭建一个音乐   314

12.1  准备数据   314

12.2  预处理数据   314

∣12.2.1  计算歌曲、歌手、用户相似度   314

∣12.2.2  计算用户集   315

∣12.2.3  数据导入数据库   319

12.3  设计架构   321

12.4  实现   322

∣12.4.1  准备环境   322

∣12.4.2  实现后端接口   322

∣12.4.3  实现前端界面   324

∣12.4.4  演示   324

12.5  代码复现   327

∣12.5.1  安装依赖   327

∣12.5.2  数据入库   327

∣12.5.3  修改配置   327

∣12.5.4  项目启动   328

12.6  知识导图   328



13章  实例34:搭建一个图书   329

13.1  准备数据   329

13.2  预处理数据   329

∣13.2.1  原始数据加工   329

∣13.2.2  数据导入数据库   331

∣13.2.3  模型准备   331

13.3  设计架构   332

13.4  实现   333

∣13.4.1  准备环境   333

∣13.4.2  实现后端接口   333

∣13.4.3  实现前端界面   336

∣13.4.4  演示   336

13.5  代码复现   338

13.6  知识导图   338



14章  业界架构介绍   340

14.1  概述   340

14.2  架构介绍   340

14.3  召回内容   342

14.4  计算排序   343

∣14.4.1  特征工程   343

∣14.4.2  特征分类   343

∣14.4.3  排序算法   343

14.5  物品过滤和展示   344

∣14.5.1  物品过滤   344

∣14.5.2  物品展示   344

14.6  效果评估   344

14.7  知识导图   345





基本信息

书名:与深度学习

定价:65.00元

作者:黄昕、赵伟、王本友、吕慧伟、杨敏

出版社:清华大学出版社

出版日期:2018-12-01

ISBN:9787302513636

字数:

页码:

版次:

装帧:平装-胶订

开本:16开

商品重量:

内容提要





本书的几位作者都在互联网公从事与相关的实践与研究,通过这本书,把工作经验予以总结,以帮助想从事的工作者或爱好者。本书的内容设置由浅入深,从传统的算法过渡到近年兴起的深度学习技术。不管是初学者,还是有经验的从业人员,相信都能从本书的不同章节中有所收获。区别于其他算法书籍,本书引入了已被实践证明效果较好的深度学习技术,括Word2Vec、Wide & Deep、DeepFM、GAN 等技术应用,并给出了相关的实践代码;除了在算法层面讲解的实现,还从工程层面详细阐述如何搭建。

作者介绍





黄昕现任腾讯音乐集团工程师,先后负责音乐、全民K歌等App算法开发及架构设计工作。赵伟德国达姆施塔特工业大学在读博士生,研究方向括自然语言处理和信息检索。曾任腾讯知文实验室研究员。吕慧伟 现任腾讯科技有限公工程师。计算技术研究所计算机体系结构博士,MPICH核心开发者。王本友意大利帕多瓦大学博士生,欧盟玛丽?居里研究员。曾作为主要成员,从零开始搭建了腾讯云智能客服。杨敏现任深圳技术研究院助理研究员,从事文本挖掘、自然语言处理、人工智能相关领域的研究与开发工作。曾任腾讯研究员。

目录





目录





章什么是1

1.1的概念.1

1.1.1的基本概念1

1.1.2 深度学习与4

2 章深度神经网络.7

2.1 什么是深度学习.7

2.1.1 深度学习的三次兴起7

2.1.2 深度学习的优势9

2.2 神经网络基础11

2.2.1 神经元11

2.2.2 神经网络.12

2.2.3 反向传播.13

2.2.4 优化算法.14

2.3 卷积网络基础17

2.3.1 卷积层17

2.3.2 池化层19

2.3.3 常见的网络结构19

2.4 循环网络基础21

2.4.1 时序反向传播算法22

2.4.2 长短时记忆网络24

2.5 生成对抗基础25

2.5.1 对抗博弈.26

2.5.2 理论推导.27

2.5.3 常见的生成对抗网络29

iv j与深度学习

3 章TensorFlow 平台31

3.1 什么是TensorFlow 31

3.2 TensorFlow 安装指南.33

3.2.1 Windows 环境安装.33

3.2.2 Linux 环境安装.34

3.3 TensorFlow 基础.36

3.3.1 数据流图.36

3.3.2 会话37

3.3.3 图可视化.37

3.3.4 变量37

3.3.5 占位符38

3.3.6 优化器38

3.3.7 一个简单的例子38

3.4 其他深度学习平台39

4 章的基础算法42

4.1 基于内容的算法.42

4.1.1 基于内容的算法基本流程42

4.1.2 基于内容的特征提取.45

4.2 基于协同的算法.47

4.2.1 基于物品的协同算法49

4.2.2 基于用户的协同算法57

4.2.3 基于用户协同和基于物品协同的区别59

4.2.4 基于矩阵分解的方法.61

4.2.5 基于稀疏自编码的方法.71

4.3 基于网络的算法80

4.3.1 基于用户的在网络中的应用81

4.3.2 de2vec 技术在网络中的应用85

4.4的冷启动问题94

4.4.1 如何解决冷启动问题94

4.4.2 深度学习技术在物品冷启动上的应用101

目录j v

5 章混合119

5.1 什么是混合.119

5.1.1 混合的意义120

5.1.2 混合的算法分类.122

5.2特征处理方法125

5.2.1 特征处理方法126

5.2.2 特征选择方法134

5.3 常见的预测模型141

5.3.1 基于逻辑回归的模型141

5.3.2 基于支持向量机的模型.144

5.3.3 基于梯度提升树的模型.148

5.4 排序学习150

5.4.1 基于排序的指标来优化.150

5.4.2 L2R 算法的三种情形.152

6 章基于深度学习的模型156

6.1 基于DNN 的算法156

6.2 基于DeepFM 的算法163

6.3 基于矩阵分解和图像特征的算法171

6.4 基于循环网络的算法.174

6.5 基于生成对抗网络的算法.176

6.5.1 IRGAN 的代码实现.179

7 章架构设计.183

7.1基本模型183

7.2常见架构185

7.2.1 基于离线训练的架构设计185

7.2.2 面向深度学习的架构设计191

7.2.3 基于在线训练的架构设计194

7.2.4 面向内容的架构设计197

7.3常用组件199

7.3.1 数据上报常用组件199

vi j与深度学习

7.3.2 离线存储常用组件200

7.3.3 离线计算常用组件200

7.3.4 在线存储常用组件201

7.3.5 模型服务常用组件201

7.3.6 实时计算常用组件201

7.4常见问题201

7.4.1 实时性.201

7.4.2 多样性.202

7.4.3 曝光打击和不良内容过滤.202

7.4.4 评估测试.202

后记.203

图1.1猜你喜欢栏目2

图1.2 度指数.4

图1.3 歌曲词嵌入模型空间向量.6

图2.1 神经网络的三次兴起8

图2.2 不同层数的神经网络拟合分界面的能力.10

图2.3 不同层数的神经网络表示能力10

图2.4 神经网络的基本结构11

图2.5 感知器算法12

图2.6 三层全连接神经网络13

图2.7 动量对比.16

图2.8 卷积运算.18

图2.9 池化层19

图2.10 LeNet 卷积结构.20

图2.11 Alex-Net 卷积结构20

图2.12 RNN 21

图2.13 LSTM 在t 时刻的内部结构24

图2.14 GAN 网络25

图3.1 TensorFlow 安装截图34

图3.2 TensorBoard 计算37

图4.1 腾讯视频APP页面.44

图4.2 截取自.49

图4.3 截取自 音乐APP.49

图4.4 用户购买物品记录50

图4.5 同时被购买次数矩阵C 51

图4.6 相似度计算结果1 52

图4.7 相似度计算结果2 54

viii j与深度学习

图4.8 相似度计算结果3 55

图4.9 截取自.57

图4.10 物品的倒排索引57

图4.11 用户评分矩阵.63

图4.12 Sigma 值64

图4.13 NewData 值65

图4.14 Mydata 值65

图4.15 自编码神经网络模型72

图4.16 稀疏自编码个网络.73

图4.17 稀疏自编码二个网络.74

图4.18 稀疏自编码三个网络.75

图4.19 将三个网络组合起来75

图4.20 网络关系图示例81

图4.21 融入用户关系和物品关系82

图4.22 网络关系图示例86

图4.23 网络关系图示例86

图4.24 CBOW 和Skip-Gram 示例.88

图4.25 Skip-Gram 网络结构89

图4.26 CBOW 网络结构91

图4.27 word analogy 示例93

图4.28 某网站登录页面95

图4.29 互联开放注册平台1 96

图4.30 互联开放注册平台2 97

图4.31 互联应用管理页面1 97

图4.32 互联应用管理页面2 97

图4.33 互联 登录功能获取97

图4.34 音乐APP 中的偏好选择98

图4.35 (a) 为每部电影被打分的分布,(b) 为每个用户打分的分布100

图4.36 (a) 为每部电影平均分分布,(b) 为每个用户平均分分布.100

图4.37 基于专家数据的CF 与基于用户数据CF 比较.101

图目录j ix

图4.38 音乐频谱示例102

图4.39 4 个流派的频谱图示例103

图4.40 CNN 音频分类结构.103

图4.41 CNN LSTM 组合音频分类模型.104

图4.42 分类预测结果的混淆矩阵104

图4.43 模型倒数二层128 维向量降维可视化104

图4.44 微软how-old.net 107

图4.45 SCUT-FBP 数据集示例图108

图4.46 脸部截取后的数据集示例图.108

图4.47 CNN 层数过多,误差反而较大113

图4.48 残差网络的基本结构113

图4.49 残差网络完整结构.114

图5.1 NetFlix 的实时的架构图120

图5.2 整体式混合125

图5.3 并行式混合125

图5.4 流水线式混合.125

图5.5 MDLP 特征离散化130

图5.6 ChiMerge 特征离散化.131

图5.7 层次化时间按序列特征.133

图5.8 Learn to rank 的局限153

图6.1 Wide & Deep 模型结构157

图6.2的召回和排序两个阶段158

图6.3 召回模型结构.159

图6.4 序列信息160

图6.5 排序模型结构.161

图6.6 不同NN 的效果162

图6.7 DeepFM 模型结构(网络左边为FM 层,右边为DNN 层).164

图6.8 FM 一阶部分165

图6.9 FM 二阶部分166

图6.10 FM/DNN/DeepFM 的比较171

x j与深度学习

图6.11 电影静止帧图片举例172

图6.12 Alex-Net 卷积网络.173

图6.13 左图:时间无关的。右图:时间相关的174

图6.14 基于循环神经网络的175

图6.15 判别器177

图6.16 生成器178

图6.17 IRGAN 说明179

图7.1 监督学习基本模型.184

图7.2 基于离线训练的架构设计186

图7.3 数据上报模块.187

图7.4 离线训练模块.187

图7.5中的存储分层.188

图7.6 在线预测的几个阶段189

图7.7通用性设计190

图7.8 面向深度学习的架构设计191

图7.9 利用深度学习进行特征提取192

图7.10 参数服务器架构193

图7.11 基于在线训练的架构设计195

图7.12 在线学习之实时特征处理196

图7.13 面向内容的架构设计198

图7.14 用于的内容池.198

图7.15 Apache Kafka 逻辑架构.200

表4.1 用户A 和B 的评分矩阵.43

表4.2 电影内容特征二进制表示45

表4.3 人脸魅力值打分不同模型的MAE 比较112

表4.4 人脸魅力值打分不同模型的MAE 比较117

表4.5 Keras 预训练好的图像分类模型118

编辑

2、

用户网络行为画像——大数据中的用户网络行为画像分析与内容应用





作 译 者:牛温佳等

出版时间:2016-03    千 字 数:330

版    次:01-01    页    数:236

开    本:16开

装    帧:

I S B N :9787121280702    

换    版:

所属分类:科技 计算机 网络与互联网

纸质书定价:¥59.0

如何能牢牢地黏住老用户、吸引新用户、读懂用户的偏好兴趣和喜怒哀乐,这都是对企业发展至关重要甚至关乎生死存亡的问题,解决这个问题的方法就是。本书分为上中下三篇,共13章,上篇为用户画像知识工程基础,包括表征建模、画像计算、存储及各种更新维护等管理作;中篇为与用户画像,包括传统协同过滤等经典算法的介绍,以及涉及用户画像的方法;下篇为应用案例分析,包括Netflix、阿里等数据竞赛的经典数据案例,以及在具体工程开发过程的具体案例,分别从需求、总体结构、算法设计、运行流程及测试结果等五个方面提供详细案例指导。





目    录

上    篇

1章  用户画像概述    3

1.1  用户画像数据来源    3

1.1.1  用户属性    5

1.1.2  用户观影行为    5

1.2  用户画像特性    5

1.2.1  动态性    5

1.2.2  时空局部性    6

1.3  用户画像应用领域    6

1.3.1  搜索引擎    6

1.3.2      7

1.3.3  其他业务定制与优化    7

1.4  大数据给用户画像带来的机遇与挑战    8

2章  用户画像建模    9

2.1  用户定量画像    9

2.2  用户定性画像    10

2.2.1  标签与用户定性画像    10

2.2.2  基于知识的用户定性画像分析    12

2.2.3  用户定性画像的构建    16

2.2.4  定性画像知识的存储    22

2.2.5  定性画像知识的推理    26

2.3  本章参考文献    29

3章  群体用户画像分析    31

3.1  用户画像相似度    32

3.1.1  定量相似度计算    32

3.1.2  定性相似度计算    34

3.1.3  综合相似度计算    35

3.2  用户画像聚类    36

4章  用户画像管理    41

4.1  存储机制    41

4.1.1  关系型数据库    42

4.1.2  SQL数据库    43

4.1.3  数据仓库    45

4.2  查询机制    46

4.3  定时更新机制    47

4.3.1  获取实时用户信息    47

4.3.2  更新触发条件    48

4.3.3  更新机制    49

中    篇

5章  视频概述    55

5.1  主流方法的分类    56

5.1.1  协同过滤的方法    56

5.1.2  基于内容的方法    57

5.1.3  基于知识的方法    59

5.1.4  混合方法    60

5.2  的评测方法    61

5.3  视频与用户画像的逻辑关系    61

6章  协同过滤方法    65

6.1  概述    65

6.2  关系矩阵及矩阵计算    67

6.2.1  U-U矩阵    67

6.2.2  V-V矩阵    70

6.2.3  U-V矩阵    72

6.3  基于记忆的协同过滤算法    74

6.3.1  基于用户的协同过滤算法    75

6.3.2  基于物品的协同过滤算法    78

6.4  基于模型的协同过滤算法    81

6.4.1  基于隐因子模型的算法    82

6.4.2  基于朴素贝叶斯分类的算法    85

6.5  小结    88

6.6  本章参考文献    88

7章  基于内容的方法    91

7.1  概述    91

7.2  CB中的特征向量    94

7.2.1  视频中的物品画像    94

7.2.2  视频中的用户画像    96

7.3  基础CB算法    97

7.4  基于TF-IDF的CB算法    99

7.5  基于KNN的CB算法    102

7.6  基于Rocchio的CB算法    104

7.7  基于决策树的CB算法    106

7.8  基于线性分类的CB算法    107

7.9  基于朴素贝叶斯的CB算法    109

7.10  小结    111

7.11  本章参考文献    111

8章  基于知识的方法    113

8.1  概述    113

8.2  约束知识与约束算法    114

8.2.1  约束知识示例    114

8.2.2  约束满足问题    115

8.2.3  约束算法流程    117

8.3  关联知识与关联算法    118

8.3.1  关联规则描述    118

8.3.2  关联规则挖掘    121

8.3.3  关联算法流程    123

8.4  小结    124

8.5  本章参考文献    124

9章  混合方法    125

9.1  概述    125

9.2  算法设计层面的混合方法    126

9.2.1  并行式混合    126

9.2.2  整体式混合    129

9.2.3  流水线式混合    131

9.2.4  典型混合应用    133

9.3  混合式视频实例    136

9.3.1  MoRe概览    136

9.3.2  MoRe算法介绍    137

9.3.3  MoRe算法混合    139

9.3.4  MoRe实验分析    140

9.4  小结    142

9.5  本章参考文献    142

10章  视频评测    145

10.1  概述    145

10.2  视频试验方法    146

10.2.1  在线评测    147

10.2.2  离线评测    149

10.2.3  用户调查    150

10.3  视频离线评测指标    151

10.3.1  准确度指标    151

10.3.2  多样性指标    159

10.4  小结    161

10.5  本章参考文献    162

下    篇

11章  层面的快速构建    165

11.1  概述    165

11.2  本章主要内容    166

11.3  部署    166

11.3.1  Hadoop2.2.0部署    166

11.3.2  Hadoop运行时环境设置    169

11.3.3  Spark与Mahout部署    175

11.4  Mahout引擎介绍    181

11.4.1  Item-based算法    181

11.4.2  矩阵分解    185

11.4.3  ALS算法    187

11.4.4  Mahout的Spark实现    190

11.5  快速实战    193

11.5.1  概述    193

11.5.2  日志数据    194

11.5.3  运行环境    196

11.5.4  基于Mahout Item-based算法实践    201

11.5.5  基于Mahout ALS算法实践    205

11.6  小结    208

11.7  本章参考文献    208

12章  数据层面的分析与案例    211

12.1  概述    211

12.2  本章主要内容    212

12.3  竞赛内容和意义    212

12.3.1  竞赛简介    212

12.3.2  竞赛任务和意义    213

12.4  客户-商户数据    215

12.4.1  数据描述    215

12.4.2  数据理解与分析    217

12.5  算法流程设计    219

12.5.1  特征提取    219

12.5.2  分类器设计    220

12.5.3  算法流程总结    222

12.6  小结    222

12.7  本章参考文献    223


暂时没有目录,请见谅!

^_^:ef0d5cbcfa35b69f1589faf639e6d372