Hadoop大数据实战权威指南pdf下载

Hadoop大数据实战权威指南百度网盘pdf下载

作者:
简介:Hadoop大数据实战权威指南
出版社:电子工业出版社
出版时间:2017-07-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

编辑推荐
  深入分析组件原理、充分展示搭建过程、详细指导应用开发。
内容简介
  大数据贵在落实! 本书是一本讲解大数据实战的图书,按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”编写。全书分为三篇,第一篇为大数据的基本概念和技术,主要介绍大数据的背景、发展及关键技术;第二篇为Hadoop大数据平台搭建与基本应用,内容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafk、Spark等;第三篇为大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统,并就京东的部分销售数据应用大数据进行处理分析。
作者简介
  黄东军,男,教授,博士,博士生导师。毕业于中南大学计算机应用技术,先工作于中南大学信息科学与工程学院。中国计算机学会高级会员,教育部计算机科学与技术专业教学指导委员会“物联网工程专业教学研究专家组”成员。
目录
版权信息
前言
第一篇 大数据的基本概念和技术
第1章 绪论
1.1 时代背景
1.1.1 全球大数据浪潮
1.1.2 我国的大数据国家战略
1.2 大数据的概念
1.2.1 概念
1.2.2 特征
1.3 技术支撑体系
1.3.1 概览
1.3.2 大数据采集层
1.3.3 大数据存储层
1.3.4 大数据分析(处理与服务)层
1.3.5 大数据应用层
1.3.6 垂直视图
1.4 大数据人才及其能力要求
1.4.1 首席数据官
1.4.2 数据科学家(数据分析师)
1.4.3 大数据开发工程师
1.4.4 大数据运维工程师
1.5 本章小结
第二篇 Hadoop大数据平台搭建与基本应用
第2章 Hadoop大数据关键技术
2.1 Hadoop生态系统
2.1.1 架构的基本理论
2.1.2 主要组件及其关系
2.2 数据采集
2.2.1 结构化数据采集工具
2.2.2 日志文件采集工具与技术
2.3 大数据存储技术
2.3.1 相关概念
2.3.2 分布式文件存储系统
2.3.3 数据库与数据仓库
2.4 分布式计算框架
2.4.1 离线计算框架
2.4.2 实时流计算平台
2.5 数据分析平台与工具
2.5.1 面向大数据的数据挖掘与分析工具
2.5.2 机器学习
2.6 本章小结
第三篇 数据处理与项目开发
第3章 Linux操作系统与集群搭建
3.1 Linux操作系统
3.1.1 概述
3.1.2 特点
3.1.3 Linux的组成
3.2 Linux安装与集群搭建
3.2.1 安装VMware Workstation
3.2.2 在VMware上安装Linux(CentOS7)
3.3 集群的配置
3.3.1 设置主机名
3.3.2 网络设置
3.3.3 关闭防火墙
3.3.4 安装JDK
3.3.5 免密钥登录配置
3.4 Linux基本命令
3.5 本章小结
第4章 HDFS安装与基本应用
4.1 HDFS概述
4.1.1 特点
4.1.2 主要组件与架构
4.2 HDFS架构分析
4.2.1 数据块
4.2.2 NameNode
4.2.3 DataNode
4.2.4 SecondaryNameNode
4.2.5 数据备份
4.2.6 通信协议
4.2.7 可靠性保证
4.3 文件操作过程分析
4.3.1 读文件
4.3.2 写文件
4.3.3 删除文件
4.4 Hadoop HDFS安装与配置
4.4.1 解压Hadoop安装包
4.4.2 配置Hadoop环境变量
4.4.3 配置Yarn环境变量
4.4.4 配置核心组件文件
4.4.5 配置文件系统
4.4.6 配置yarn-site.xml文件
4.4.7 配置MapReduce计算框架文件
4.4.8 配置Master的slaves文件
4.4.9 复制Master上的Hadoop到Slave节点
4.5 Hadoop集群的启动
4.5.1 配置操作系统环境变量
4.5.2 创建Hadoop数据目录
4.5.3 格式化文件系统
4.5.4 启动和关闭Hadoop
4.5.5 验证Hadoop是否启动成功
4.6 Hadoop集群的基本应用
4.6.1 HDFS基本命令
4.6.2 在Hadoop集群中运行程序
4.7 本章小结
第5章 MapReduce与Yarn
5.1 MapReduce程序的概念
5.1.1 基本编程模型
5.1.2 计算过程分析
5.2 深入理解Yarn
5.2.1 Yarn的基本架构
5.2.2 Yarn的工作流程
5.3 在Linux平台安装Eclipse
5.3.1 Eclipse简介
5.3.2 安装并启动Eclipse
5.4 开发MapReduce程序的基本方法
5.4.1 为Eclipse安装Hadoop插件
5.4.2 WordCount:第一个MapReduce程序
5.5 本章小结
第6章 Hive和HBase的安装与应用
6.1 在CentOS7下安装MySQL
6.1.1 下载或复制MySQL安装包
6.1.2 执行安装命令
6.1.3 启动MySQL
6.1.4 登录MySQL
6.1.5 使用MySQL
6.1.6 问题与解决办法
6.2 Hive安装与应用
6.2.1 下载并解压Hive安装包
6.2.2 配置Hive
6.2.3 启动并验证Hive
6.2.4 Hive的基本应用
6.3 ZooKeeper集群安装
6.3.1 ZooKeeper简介
6.3.2 安装ZooKeeper
6.3.3 配置ZooKeeper
6.3.4 启动和测试
6.4 HBase的安装与应用
6.4.1 解压并安装HBase
6.4.2 配置HBase
6.4.3 启动并验证HBase
6.4.4 HBase的基本应用
6.4.5 应用HBase中常见问题及其解决办法
6.5 本章小结
第7章 Sqoop和Kafka的安装与应用
7.1 安装部署Sqoop
7.1.1 下载或复制Sqoop安装包
7.1.2 解压并安装Sqoop
7.1.3 配置Sqoop
7.1.4 启动并验证Sqoop
7.1.5 测试Sqoop与MySQL的连接
7.2 安装部署Kafka集群
7.2.1 下载或复制Kafka安装包
7.2.2 解压缩Kafka安装包
7.2.3 配置Kafka集群
7.2.4 Kafka的初步应用
7.3 本章小结
第8章 Spark集群安装与开发环境配置
8.1 深入理解Spark
8.1.1 Spark系统架构
8.1.2 关键概念
8.2 安装与配置Scala
8.2.1 下载Scala安装包
8.2.2 安装Scala
8.2.3 启动并应用Scala
8.3 Spark集群的安装与配置
8.3.1 安装模式
8.3.2 Spark的安装
8.3.3 启动并验证Spark
8.3.4 几点说明
8.4 开发环境安装与配置
8.4.1 IDEA简介
8.4.2 IDEA的安装
8.4.3 IDEA的配置
8.5 本章小结
第9章 Spark应用基础
9.1 Spark程序的运行模式
9.1.1 Spark on Yarn-cluster
9.1.2 Spark on Yarn-client
9.2 Spark应用设计
9.2.1 分布式估算圆周率
9.2.2 基于Spark MLlib的贷款风险预测
9.3 本章小结
第10章 交互式数据处理
10.1 数据预处理
10.1.1 查看数据
10.1.2 数据扩展
10.1.3 数据过滤
10.1.4 数据上传
10.2 创建数据仓库
10.2.1 创建Hive数据仓库的基本命令
10.2.2 创建Hive分区表
10.3 数据分析
10.3.1 基本统计
10.3.2 用户行为分析
10.3.3 实时数据
10.4 本章小结
第11章 协同过滤推荐系统
11.1 推荐算法概述
11.1.1 基于人口统计学的推荐
11.1.2 基于内容的推荐
11.1.3 协同过滤推荐
11.2 协同过滤推荐算法分析
11.2.1 基于用户的协同过滤推荐
11.2.2 基于物品的协同过滤推荐
11.3 Spark MLlib推荐算法应用
11.3.1 ALS算法原理
11.3.2 ALS的应用设计
11.4 本章小结
第12章 销售数据分析系统
12.1 数据采集
12.1.1 在Windows下安装JDK
12.1.2 在Windows下安装Eclipse
12.1.3 将WebCollector项目导入Eclipse
12.1.4 在Windows下安装MySQL
12.1.5 连接JDBC
12.1.6 运行爬虫程序
12.2 在HBase集群上准备数据
12.2.1 将数据导入到MySQL
12.2.2 将MySQL表中的数据导入到HBase表中
12.3 安装Phoenix中间件
12.3.1 Phoenix架构
12.3.2 解压安装Phoenix
12.3.3 Phoenix环境配置
12.3.4 使用Phoenix
12.4 基于Web的前端开发
12.4.1 将Web前端项目导入Eclipse
12.4.2 安装Tomcat
12.4.3 在Eclipse中配置Tomcat
12.4.4 在Web浏览器中查看执行结果
12.5 本章小结
前言
  前 言
  本书内容
  本书分为三篇,共有12章。
  (1)第一篇 大数据的基本概念和技术
  第1章 绪论,描述大数据的时代背景与国家大数据战略,探讨大数据的概念和特性,重点阐述大数据支撑体系,包括数据采集、存储、分布式计算和应用,并讨论大数据人才特点与能力要求。
  第2章 Hadoop大数据关键技术,详细介绍大数据系统涉及的主流技术,主要包括数据采集与生成、数据分布式存储、分布式计算框架、数据分析与挖掘等方面的技术和工具。
  (2)第二篇 Hadoop大数据平台搭建与基本应用
  第3章 Linux操作系统与集群搭建,介绍Linux集群的安装、Java开发包JDK的安装,以及集群的配置方法。
  第4章 HDFS安装与基本应用,介绍Hadoop HDFS的架构、工作原理,以及Hadoop安装、配置、启动和程序的运行。
  第5章 MapReduce与YARN,介绍MapReduce的工作原理,描述MapReduceV2(也就是YARN)的架构和执行流程。本章重点介绍如何设计MapReduce程序,给出了在Eclipse中实现Java语言MapReduce程序的具体过程。
  第6章 Hive和HBase的安装与应用,主要介绍Hive和HBase的安装配置和应用方法,同时也介绍MySQL和ZooKeeper的安装与应用。
  第7章 Sqoop和Kafka,介绍Sqoop和Kafka组件的安装及其基本应用方法。
  第8章 Spark集群安装与开发环境配置,介绍Spark架构及其工作原理,详细介绍Spark开发环境的安装与配置,包括热门的IntelliJ IDEA集成开发环境的安装与基本应用。
  第9章 Spark应用基础,介绍Spark程序的运行模式和应用设计方法,通过编写计算圆周率Pi、基于随机森林模型的贷款风险预测Scala程序,展示了在集成开发环境IDEA中编写Spark程序的流程。
  (3)第三篇 大数据处理与项目开发
  第10章 交互式数据处理,介绍如何利用Hive进行大数据处理和分析。Hive是建立在Hadoop MapReduce基础上的数据仓库工具,用户借助SQL语句,可完成很多处理和分析,因此,对实际工作者有很大帮助。
  第11章 协同过滤推荐系统,介绍推荐算法的基本概念和应用,展示基于Spark的机器学库MLlib实现的协同推荐应用。
  第12章 销售数据分析系统,通过一个完整的销售数据分析系统设计,展示如何利用Hadoop的各种组件开发实际的大数据应用系统。本章运用到的组件包括HDFS、MySQL、Eclipse、Phoenix、HBase、WebCollector、Sevlet、Tomcat等,所展示的数据和应用均来自真实场景,对读者有较高参考价值。
  本书特点
  把原理、架构、运行流程分析与实际应用融合起来介绍,融合性阐述框架优于单纯的原理分析,因为原理最终要付诸应用。
  本书高度重视实践能力的培养,对系统安装、配置和应用过程给出了十分详细的描述,所有实验都是基于实际完成的操作介绍的,并配有现场截图,为读者展示了真实、详尽、可重现的场景,十分方便读者自学和钻研。
  与很多大数据技术书籍不同,本书突出了数据处理本身,深入介绍了如何运用技术进行实际的数据分析,所采用的数据样本来自生产一线,所展示的项目具有实用的参考价值,读者掌握这些技术之后,就可以开始进行项目开发了。
  本书的读者群
  本书十分适合初学者入门和进阶。
  本书也可供那些已经学习过Hadoop组件技术,但希望全面、系统地理解并掌握实际应用的读者参考。
  本书对从事大数据项目开发的专业人员也有参考价值,书中所描述的Hadoop组件应用中遇到的各种问题及其解决办法,十分实用。
  本书特别适合自学,读者完全可以利用本书给出的资源和示例,一步一步地完成各项操作和应用,体验一种登堂入室的成就感。
  致谢
  感谢大数据时代,感谢开源社区,感谢Apache基金会,感谢Google,感谢所有关心和热爱大数据的人们!
  作者在创作本书中借鉴了中科普开(北京)科技公司的部分培训资源,在此谨表示衷心的感谢。特别感谢中南大学郑瑾副教授,本书的部分内容使用了她编撰的书稿。由衷地感谢王建新教授、李建彬教授、张祖平教授,他们耐心地审阅了本书,提出了中肯的意见和建议。非常感谢电子工业出版社田宏峰编辑,他细心专业的工作方式,给作者留下深刻印象,并为本书的高质量印装提供了保障。
  由于作者水平有限,本书的错误和疏漏在所难免,恳请广大读者提出宝贵意见和建议。联系邮箱:djhuang@csu.edu.cn。
  作 者  
  2017年5月于长沙