大数据Hadoop 3.X分布式处理实战pdf下载

大数据Hadoop 3.X分布式处理实战百度网盘pdf下载

作者:
简介:大数据Hadoop 3.X分布式处理实战
出版社:
出版时间:2018-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

作  者:吴章勇,杨强 编
定  价:79
出 版 社:人民邮电出版社
出版日期:2020年04月01日
页  数:384
装  帧:平装
ISBN:9787115524669
1.版本新。本书采用Hadoop3,版本较新,帮助读者学习前沿技术。 2.项目大。深度剖析日志分析、推荐系统、垃圾消息三大企业级项目实战案例。读者稍加改造,即可在生产环境中使用。 3.内容全。详细介绍HDFS、MapReduce、HBase、Hive、Sqoop、Spark 等主流大数据工具。 4.资源多。赠送12小时视频讲解和全书配套范例源码。 5.在线答疑。本书提供答疑球球群,在线答疑。群号:243363382。
篇Hadoop技术1
章大数据与Hadoop概述03
1.1大数据概述03
1.1.1大数据的定义03
1.1.2大数据行业的发展04
1.1.3大数据的典型应用04
1.2Hadoop概述06
1.2.1Hadoop简介06
1.2.2Hadoop生态子项目07
1.2.3Hadoop 3.X的新特性09
1.3小结09
1.4配套视频10
第2章Hadoop伪分布式安装11
2.1Hadoop伪分布式安装前的准备11
2.1.1安装VMware11
2.1.2安装CentOS 712
2.1.3配置CentOS 7:接受协议15
2.1.4配置CentOS 7:登录系统16
2.1.5配置CentOS 7:设置IP16
2.1.6配置CentOS 7:修改主机名17
2.1.7配置CentOS 7:配置hosts文件18
2.1.8配置CentOS 7:关闭防火墙18
2.1.9配置CentOS 7:禁用selinux19
2.1.10配置CentOS 7:设置SSH免密码登录19
2.1.11配置CentOS 7:重启20
2.2Hadoop伪分布式安装21
2.2.1安装WinSCP21
2.2.2安装PieTTY22
2.2.3安装JDK23
2.2.4安装Hadoop24
2.3Hadoop验证28
2.3.1格式化28
2.3.2启动Hadoop29
2.3.3查看Hadoop相关进程29
2.3.4浏览文件30
2.3.5浏览器访问30
2.4小结31
2.5配套视频31
第3章Hadoop分布式文件系统——HDFS32
3.1HDFS原理32
3.1.1HDFS的假设前提和设计目标32
3.1.2HDFS的组件33
3.1.3HDFS数据复制36
3.1.4HDFS健壮性36
3.1.5HDFS数据组织38
3.2HDFS Shell39
3.2.1Hadoop文件操作命令39
3.2.2Hadoop系统管理命令44
3.3HDFS Java API46
3.3.1搭建Linux下Eclipse开发环境46
3.3.2为Eclipse安装Hadoop插件47
3.3.3HDFS Java API示例49
3.4小结56
3.5配套视频56
第4章分布式计算框架MapReduce57
4.1MapReduce原理57
4.1.1MapReduce概述57
4.1.2MapReduce的主要功能59
4.1.3MapReduce的处理流程59
4.2MapReduce编程基础61
4.2.1内置数据类型介绍61
4.2.2WordCount入门示例63
4.2.3MapReduce分区与自定义数据类型67
4.3MapReduce综合实例——数据去重71
4.3.1实例描述71
4.3.2设计思路72
4.3.3程序代码73
4.3.4运行结果74
4.4MapReduce综合实例——数据排序75
4.4.1实例描述75
4.4.2设计思路76
4.4.3程序代码77
4.4.4运行结果79
4.5MapReduce综合实例——求学生平均成绩79
4.5.1实例描述79
4.5.2设计思路80
4.5.3程序代码81
4.5.4运行结果83
4.6MapReduce综合实例——WordCount不错示例84
4.7小结87
4.8配套视频87
第二篇Hadoop 生态系统的主要大数据工具整合应用89
第5章NoSQL数据库HBase91
5.1HBase原理91
5.1.1HBase概述91
5.1.2HBase核心概念92
5.1.3HBase的关键流程95
5.2HBase伪分布式安装97
5.2.1安装HBase的前提条件98
5.2.2解压并配置环境变量98
5.2.3配置HBase参数99
5.2.4验证HBase100
5.3HBase Shell103
5.3.1HBase Shell常用命令103
5.3.2HBase Shell综合示例109
5.3.3HBase Shell的全部命令112
5.4小结114
5.5配套视频114
第6章HBase不错特性115
6.1HBase Java API115
6.1.1HBase Java API介绍115
6.1.2HBase Java API示例120
6.2HBase与MapReduce的整合130
6.2.1HBase与MapReduce的整合概述130
6.2.2HBase与MapReduce的整合示例130
6.3小结134
6.4配套视频134
第7章分布式数据仓库Hive135
7.1Hive概述135
7.1.1Hive的定义135
7.1.2Hive的设计特征136
7.1.3Hive的体系结构136
7.2Hive伪分布式安装137
7.2.1安装Hive的前提条件137
7.2.2解压并配置环境变量138
7.2.3安装MySQL139
7.2.4配置Hive143
7.2.5验证Hive145
7.3Hive QL的基础功能146
7.3.1操作数据库146
7.3.2创建表147
7.3.3数据准备150
7.4Hive QL的不错功能153
7.4.1select查询154
7.4.2函数154
7.4.3统计函数154
7.4.4distinct去除重复值155
7.4.5limit返回记录的条数156
7.4.6为列名取别名156
7.4.7case when then多路分支156
7.4.8like模糊查询157
7.4.9group by分组统计157
7.4.10having过滤分组统计结果157
7.4.11inner join内联接158
7.4.12left outer join和right outer join外联接159
7.4.13full outer join外部联接159
7.4.14order by排序160
7.4.15where查找160
7.5小结161
7.6配套视频162
第8章Hive不错特性163
8.1Beeline163
8.1.1使用Beeline的前提条件163
8.1.2Beeline的基本操作1
8.1.3Beeline的参数选项与管理命令166
8.2Hive JDBC167
8.2.1运行Hive JDBC的前提条件167
8.2.2Hive JDBC基础示例167
8.2.3Hive JDBC综合示例169
8.3Hive函数174
8.3.1内置函数174
8.3.2自定义函数175
8.4Hive表的不错特性181
8.4.1外部表181
8.4.2分区表182
8.5小结185
8.6配套视频185
第9章数据转换工具Sqoop186
9.1Sqoop概述与安装186
9.1.1Sqoop概述186
9.1.2Sqoop安装187
9.2Sqoop导入数据189
9.2.1更改MySQL的root用户密码189
9.2.2准备数据190
9.2.3导入数据到HDFS191
9.2.4查看HDFS数据192
9.2.5导入数据到Hive193
9.2.6查看Hive数据193
9.3Sqoop导出数据194
9.3.1准备MySQL表194
9.3.2导出数据到MySQL194
9.3.3查看MySQL中的导出数据195
9.4深入理解Sqoop的导入与导出196
9.5小结203
9.6配套视频203
0章内存计算框架Spark204
10.1Spark入门204
10.1.1Spark概述204
10.1.2Spark伪分布式安装205
10.1.3由Java到Scala209
10.1.4Spark的应用212
10.1.5Spark入门示例217
10.2Spark Streaming220
10.2.1Spark Streaming概述220
10.2.2Spark Streaming示例221
10.3Spark SQL224
10.3.1Spark SQL概述224
10.3.2spark-sql命令225
10.3.3使用Scala操作Spark SQL227
10.4小结228
10.5配套视频229
1章Hadoop及其常用组件集群安装230
11.1Hadoop集群安装230
11.1.1安装并配置CentOS230
11.1.2安装JDK236
11.1.3安装Hadoop237
11.1.4远程复制文件241
11.1.5验证Hadoop242
11.2HBase集群安装244
11.2.1解压并配置环境变量244
11.2.2配置HBase参数245
11.2.3远程复制文件246
11.2.4验证HBase247
11.3Hive集群安装249
11.3.1解压并配置环境变量249
11.3.2安装MySQL250
11.3.3配置Hive252
11.3.4验证Hive254
11.4Spark集群安装254
11.4.1安装Scala254
11.4.2安装Spark254
11.4.3配置Spark255
11.4.4远程复制文件256
11.4.5验证Spark257
11.5小结259
11.6配套视频259
第三篇实战篇261
2章海量Web日志分析系统263
12.1案例介绍263
12.1.1分析Web日志数据的目的263
12.1.2Web日志分析的典型应用场景265
12.1.3日志的不确定性265
12.2案例分析266
12.2.1日志分析的KPI267
12.2.2案例系统结构267
12.2.3日志分析方法268
12.3案例实现273
12.3.1定义日志相关属性字段273
12.3.2数据合法标识(在分析时是否被过滤)274
12.3.3解析日志274
12.3.4日志合法性过滤275
12.3.5页面访问量统计的实现276
12.3.6页面独立IP访问量统计的实现278
12.3.7用户单位时间PV的统计实现280
12.3.8用户访问设备信息统计的实现282
12.4小结283
12.5配套视频283
3章电商商品推荐系统284
13.1案例介绍284
13.1.1推荐算法284
13.1.2案例的意义285
13.1.3案例需求285
13.2案例设计286
13.2.1协同过滤286
13.2.2基于用户的协同过滤算法289
13.2.3基于物品的协同过滤算法292
13.2.4算法实现设计295
13.2.5推荐步骤与架构设计298
13.3案例实现298
13.3.1实现HDFS文件操作工具299
13.3.2实现任务步骤1:汇总用户对所有物品的评分信息302
13.3.3实现任务步骤2:获取物品同现矩阵305
13.3.4实现任务步骤3:合并同现矩阵和评分矩阵307
13.3.5实现任务步骤4:计算推荐结果310
13.3.6实现统一的任务调度316
13.4小结317
13.5配套视频317
4章分布式垃圾消息识别系统318
14.1案例介绍318
14.1.1案例内容318
14.1.2案例应用的主体结构319
14.1.3案例运行结果321
14.2RPC远程方法调用的设计322
14.2.1Java EE的核心优势:RMI322
14.2.2RMI的基本原理324
14.2.3自定义RPC组件分析325
14.3数据分析设计328
14.3.1垃圾消息识别算法——朴素贝叶斯算法328
14.3.2进行分布式贝叶斯分类学习时的全局计数器330
14.3.3数据清洗分析结果存储332
14.4案例实现333
14.4.1自定义的RPC组件服务端相关实现333
14.4.2自定义的RPC组件客户端相关实现342
14.4.3业务服务器实现347
14.4.4业务客户端实现367
14.5小结370
14.6配套视频370

内容简介

本书以实战开发为原则,以Hadoop3.X生态系统内的主要大数据工具整合应用及项目开发为主线,通过Hadoop大数据开发中常见的11个典型模块和3个完整项目案例,详细介绍HDFS、MapReduce、HBase、Hive、Sqoop、Spark等主流大数据工具的整合使用。本书附带资源包括本书核心内容的教学视频,本书所涉及的源代码、参考资料等。
全书共14章,分为3篇,涵盖的主要内容有Hadoop及其生态组件伪分布式安装和接近分布式安装、分布式文件系统HDFS、分布式计算框架MapReduce、NoSQL数据库HBase、分布式数据仓库Hive、数据转换工具Sqoop、内存计算框架Spark、海量Web日志分析系统、电商商品推荐系统、分布式垃圾消息识别系统等。
本书内容丰富、案例典型、实用性强,适合各个层次希望学数据开发技术的人员阅读,尤其适合有一定Java基础而要进等