《大数据Hadoop 3.X分布式处理实战》[47M]百度网盘|亲测有效|pdf下载

书籍详情

大数据Hadoop 3.X分布式处理实战
出版社:人民邮电出版社
出版时间:2020-04-01
热度:9552
上架时间:2024-06-30 08:52:20
价格:0.0

书籍下载

点击下载

书籍预览

查看链接

免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源，一旦发现资源涉及侵权，将立即删除。希望所有用户一同监督并反馈问题，如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

内容简介

　　本书共14章，前4章主要讲解和演示大数据与Hadoop概述、Hadoop伪分布式安装、HDFS分布式文件系统、MapReduce分布式计算框架。第5到11章讲解了Hadoop生态的常用组件，包括NoSQL数据库HBase、分布式数据仓库Hive、数据转换工具Sqoop、内存计算框架Spark。最后3章讲解了3个企业级的大型大数据综合实战项目。

查看全部↓

作者简介

　　吴章勇，现任中软国际分公司技术总监，曾任阿里巴巴集团架构师，经历中山大学本科、深圳大学硕士、厦门大学博士的系统学习，软件、硬件、管理都比较擅长，并持有信息系统项目管理师、嵌入式系统设计师、高经程序员等多本软考中高级证书；创立培训公司大数据课程体系，主持开发过多个大数据项目，有15年以上开发和培训经验，精通Hadoop、Spark、Storm等大数据相关技术。

查看全部↓

内容提要
前言
第一篇 Hadoop技术
第1章大数据与Hadoop概述
1.1 大数据概述
1.1.1 大数据的定义
1.1.2 大数据行业的发展
1.1.3 大数据的典型应用
1.2 Hadoop概述
1.2.1 Hadoop简介
1.2.2 Hadoop生态子项目
1.2.3 Hadoop 3.X的新特性
1.3 小结
1.4 配套视频
第2章 Hadoop伪分布式安装
2.1 Hadoop伪分布式安装前的准备
2.1.1 安装VMware
2.1.2 安装CentOS 7
2.1.3 配置CentOS 7：接受协议
2.1.4 配置CentOS 7：登录系统
2.1.5 配置CentOS 7：设置IP
2.1.6 配置CentOS 7：修改主机名
2.1.7 配置CentOS 7：配置hosts文件
2.1.8 配置CentOS 7：关闭防火墙
2.1.9 配置CentOS 7：禁用selinux
2.1.10 配置CentOS 7：设置SSH免密码登录
2.1.11 配置CentOS 7：重启
2.2 Hadoop伪分布式安装
2.2.1 安装WinSCP
2.2.2 安装PieTTY
2.2.3 安装JDK
2.2.4 安装Hadoop
2.3 Hadoop验证
2.3.1 格式化
2.3.2 启动Hadoop
2.3.3 查看Hadoop相关进程
2.3.4 浏览文件
2.3.5 浏览器访问
2.4 小结
2.5 配套视频
第3章 Hadoop分布式文件系统——HDFS
3.1 HDFS原理
3.1.1 HDFS的假设前提和设计目标
3.1.2 HDFS的组件
3.1.3 HDFS数据复制
3.1.4 HDFS健壮性
3.1.5 HDFS数据组织
3.2 HDFS Shell
3.2.1 Hadoop文件操作命令
3.2.2 Hadoop系统管理命令
3.3 HDFS Java API
3.3.1 搭建Linux下Eclipse开发环境
3.3.2 为Eclipse安装Hadoop插件
3.3.3 HDFS Java API示例
3.4 小结
3.5 配套视频
第4章分布式计算框架MapReduce
4.1 MapReduce原理
4.1.1 MapReduce概述
4.1.2 MapReduce的主要功能
4.1.3 MapReduce的处理流程
4.2 MapReduce编程基础
4.2.1 内置数据类型介绍
4.2.2 WordCount入门示例
4.2.3 MapReduce分区与自定义数据类型
4.3 MapReduce综合实例——数据去重
4.3.1 实例描述
4.3.2 设计思路
4.3.3 程序代码
4.3.4 运行结果
4.4 MapReduce综合实例——数据排序
4.4.1 实例描述
4.4.2 设计思路
4.4.3 程序代码
4.4.4 运行结果
4.5 MapReduce综合实例——求学生平均成绩
4.5.1 实例描述
4.5.2 设计思路
4.5.3 程序代码
4.5.4 运行结果
4.6 MapReduce综合实例——WordCount高级示例
4.7 小结
4.8 配套视频
第二篇 Hadoop生态系统的主要大数据工具整合应用
第5章 NoSQL数据库HBase
5.1 HBase原理
5.1.1 HBase概述
5.1.2 HBase核心概念
5.1.3 HBase的关键流程
5.2 HBase伪分布式安装
5.2.1 安装HBase的前提条件
5.2.2 解压并配置环境变量
5.2.3 配置HBase参数
5.2.4 验证HBase
5.3 HBase Shell
5.3.1 HBase Shell常用命令
5.3.2 HBase Shell综合示例
5.3.3 HBase Shell的全部命令
5.4 小结
5.5 配套视频
第6章 HBase高级特性
6.1 HBase Java API
6.1.1 HBase Java API介绍
6.1.2 HBase Java API示例
6.2 HBase与MapReduce的整合
6.2.1 HBase与MapReduce的整合概述
6.2.2 HBase与MapReduce的整合示例
6.3 小结
6.4 配套视频
第7章分布式数据仓库Hive
7.1 Hive概述
7.1.1 Hive的定义
7.1.2 Hive的设计特征
7.1.3 Hive的体系结构
7.2 Hive伪分布式安装
7.2.1 安装Hive的前提条件
7.2.2 解压并配置环境变量
7.2.3 安装MySQL
7.2.4 配置Hive
7.2.5 验证Hive
7.3 Hive QL的基础功能
7.3.1 操作数据库
7.3.2 创建表
7.3.3 数据准备
7.4 Hive QL的高级功能
7.4.1 select查询
7.4.2 函数
7.4.3 统计函数
7.4.4 distinct去除重复值
7.4.5 limit限制返回记录的条数
7.4.6 为列名取别名
7.4.7 case when then多路分支
7.4.8 like模糊查询
7.4.9 group by分组统计
7.4.10 having过滤分组统计结果
7.4.11 inner join内联接
7.4.12 left outer join和right outer join外联接
7.4.13 full outer join外部联接
7.4.14 order by排序
7.4.15 where查找
7.5 小结
7.6 配套视频
第8章 Hive高级特性
8.1 Beeline
8.1.1 使用Beeline的前提条件
8.1.2 Beeline的基本操作
8.1.3 Beeline的参数选项与管理命令
8.2 Hive JDBC
8.2.1 运行Hive JDBC的前提条件
8.2.2 Hive JDBC基础示例
8.2.3 Hive JDBC综合示例
8.3 Hive函数
8.3.1 内置函数
8.3.2 自定义函数
8.4 Hive表的高级特性
8.4.1 外部表
8.4.2 分区表
8.5 小结
8.6 配套视频
第9章数据转换工具Sqoop
9.1 Sqoop概述与安装
9.1.1 Sqoop概述
9.1.2 Sqoop安装
9.2 Sqoop导入数据
9.2.1 更改MySQL的root用户密码
9.2.2 准备数据
9.2.3 导入数据到HDFS
9.2.4 查看HDFS数据
9.2.5 导入数据到Hive
9.2.6 查看Hive数据
9.3 Sqoop导出数据
9.3.1 准备MySQL表
9.3.2 导出数据到MySQL
9.3.3 查看MySQL中的导出数据
9.4 深入理解Sqoop的导入与导出
9.5 小结
9.6 配套视频
第10章内存计算框架Spark
10.1 Spark入门
10.1.1 Spark概述
10.1.2 Spark伪分布式安装
10.1.3 由Java到Scala
10.1.4 Spark的应用
10.1.5 Spark入门示例
10.2 Spark Streaming
10.2.1 Spark Streaming概述
10.2.2 Spark Streaming示例
10.3 Spark SQL
10.3.1 Spark SQL概述
10.3.2 spark-sql命令
10.3.3 使用Scala操作Spark SQL
10.4 小结
10.5 配套视频
第11章 Hadoop及其常用组件集群安装
11.1 Hadoop集群安装
11.1.1 安装并配置CentOS
11.1.2 安装JDK
11.1.3 安装Hadoop
11.1.4 远程复制文件
11.1.5 验证Hadoop
11.2 HBase集群安装
11.2.1 解压并配置环境变量
11.2.2 配置HBase参数
11.2.3 远程复制文件
11.2.4 验证HBase
11.3 Hive集群安装
11.3.1 解压并配置环境变量
11.3.2 安装MySQL
11.3.3 配置Hive
11.3.4 验证Hive
11.4 Spark集群安装
11.4.1 安装Scala
11.4.2 安装Spark
11.4.3 配置Spark
11.4.4 远程复制文件
11.4.5 验证Spark
11.5 小结
11.6 配套视频
第三篇实战篇
第12章海量Web日志分析系统
12.1 案例介绍
12.1.1 分析Web日志数据的目的
12.1.2 Web日志分析的典型应用场景
12.1.3 日志的不确定性
12.2 案例分析
12.2.1 日志分析的KPI
12.2.2 案例系统结构
12.2.3 日志分析方法
12.3 案例实现
12.3.1 定义日志相关属性字段
12.3.2 数据合法标识（在分析时是否被过滤）
12.3.3 解析日志
12.3.4 日志合法性过滤
12.3.5 页面访问量统计的实现
12.3.6 页面独立IP访问量统计的实现
12.3.7 用户单位时间PV的统计实现
12.3.8 用户访问设备信息统计的实现
12.4 小结
12.5 配套视频
第13章电商商品推荐系统
13.1 案例介绍
13.1.1 推荐算法
13.1.2 案例的意义
13.1.3 案例需求
13.2 案例设计
13.2.1 协同过滤
13.2.2 基于用户的协同过滤算法
13.2.3 基于物品的协同过滤算法
13.2.4 算法实现设计
13.2.5 推荐步骤与架构设计
13.3 案例实现
13.3.1 实现HDFS文件操作工具
13.3.2 实现任务步骤1：汇总用户对所有物品的评分信息
13.3.3 实现任务步骤2：获取物品同现矩阵
13.3.4 实现任务步骤3：合并同现矩阵和评分矩阵
13.3.5 实现任务步骤4：计算推荐结果
13.3.6 实现统一的任务调度
13.4 小结
13.5 配套视频
第14章分布式垃圾消息识别系统
14.1 案例介绍
14.1.1 案例内容
14.1.2 案例应用的主体结构
14.1.3 案例运行结果
14.2 RPC远程方法调用的设计
14.2.1 Java EE的核心优势：RMI
14.2.2 RMI的基本原理
14.2.3 自定义RPC组件分析
14.3 数据分析设计
14.3.1 垃圾消息识别算法——朴素贝叶斯算法
14.3.2 进行分布式贝叶斯分类学习时的全局计数器
14.3.3 数据清洗分析结果存储
14.4 案例实现
14.4.1 自定义的RPC组件服务端相关实现
14.4.2 自定义的RPC组件客户端相关实现
14.4.3 业务服务器实现
14.4.4 业务客户端实现
14.5 小结
14.6 配套视频

查看全部↓

前言

　　前言
　　随着云时代的来临，移动互联网、电子商务、物联网以及社交媒体快速发展，全球的数据正在以几何速度呈爆炸性增长，大数据也吸引了越来越多的人关注。大数据的核心技术就是Hadoop。目前市面上关于Hadoop的书有很多，但基本是关于Hadoop 1.X或Hadoop 2.X的，而且偏重理论讲述，缺少实践案例。本书从Hadoop 3.X实例出发，通过“理论+实践+视频”的方式，帮助读者轻松掌握大数据技术。特别值得一提的是，本书讲解了日志分析、推荐系统、垃圾消息识别3个企业级的综合大数据项目案例，读者稍加改造，即可在生产环境中使用，具有重大的实用价值，也可供在校大学生或研究生毕业设计时参考。
　　本书有何特色
　　1. 版本较新
　　技术研究需要具有一定的前瞻性，本书采用Hadoop 3.X，版本较新。目前国内关于Hadoop的图书基本是关于Hadoop 1.X或Hadoop 2.X的。
　　2. 知识全面
　　本书包括Hadoop及其生态组件伪分布式安装和完全分布式安装、分布式文件系统HDFS、分布式计算框架MapReduce、NoSQL数据库HBase、分布式数据仓库Hive、数据转换工具Sqoop、内存计算框架Spark等主要大数据技术。
　　3. 重视实战
　　针对每一个知识点，在基本理论讲述后都提供了实战项目，真正做到学以致用。读者通过实战项目，可以更容易地掌握大数据技术在具体工作中的应用。
　　4. 视频讲解
　　本书作者具有丰富的IT培训和视频录制经验，针对每章内容精心录制了多个讲解视频。全书有32个相关视频，视频总时长超过12小时，特别是环境搭建、项目运行、源码分析等场景，通过视频学习将更加轻松。
　　5. 图文并茂
　　一图胜过千言万语，全书共有超过200幅插图，用于展示语言难以描述的内容，同时插图也有助于增加阅读的趣味性。
　　6. 在线答疑
　　本书提供答疑QQ群，在线答疑，群号是243363382。也可以通过作者的QQ号进行在线交流，作者的QQ号是107964558。
　　7. 电子资源
　　本书在附带的电子资源中，提供了每章的相关视频、源代码及测试数据，用Eclipse工具打开源代码即可运行。通过运行效果来分析源代码，理解会更容易、更深刻。
　　读者可扫描“职场研究社”二维码，关注后回复“52466”即可获取电子资源下载链接，也可以扫描云课二维码，手机端在线观看视频。
　　适合阅读本书的读者
　　（1）渴望转型进入大数据领域的程序员。
　　（2）希望学习大数据技术的在校大学生或研究生。
　　（3）希望提升技能的初级大数据领域从业人员。
　　（4）希望研究“推荐系统”等大数据典型应用的大数据开发工程师

查看全部↓

相关推荐

计算广告：互联网商业变现的市场与技术（第2版）（精装版）

底层逻辑

Linux命令行大全