3本 Hadoop权威指南 Hive编程指南 Spark快速大数据分析 大数据平台搭建pdf下载

3本 Hadoop权威指南 Hive编程指南 Spark快速大数据分析 大数据平台搭建百度网盘pdf下载

作者:
简介:3本 Hadoop权威指南 Hive编程指南 Spark快速大数据分析 大数据平台搭建
出版社:
出版时间:
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍




   
   
   
   
   
   
   
   
   
   




Hadoop 指南-内容简介


本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。
本书是一本专业、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的新发展和应用,程序员可以从中探索海量数据集的存储和分析,管理员可以从中了解Hadoop集群的安装和运维。


Hive编程指南-内容简介


《Hive编程指南》是一本ApacheHive的编程指南,旨在介绍如何使用Hive的SQL方法——HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。《Hive编程指南》通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述,演示Hive如何在Hadoop生态系统进行工作。
《Hive编程指南》适合对大数据感兴趣的爱好者以及正在使用Hadoop系统的数据库管理员阅读使用。


Spark快速大数据分析-内容简介


《Spark快速大数据分析》由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。




Hadoop 指南-目录

第Ⅰ部分Hadoop基础知识
dy 章初识Hadoop3
1.1数据!数据!3
1.2数据的存储与分析5
1.3查询所有数据6
1.4不仅仅是批处理7
1.5相较于其他系统的优势8
1.6ApacheHadoop发展简史12
1.7本书包含的内容16
第2章关于MapReduce19
2.1气象数据集19
2.2使用Unix工具来分析数据21
2.3使用Hadoop来分析数据22
2.4横向扩展31
2.5HadoopStreaming37
第3章Hadoop分布式文件系统42
3.1HDFS的设计42
3.2HDFS的概念44
3.3命令行接口50
3.4Hadoop文件系统52
3.5Java接口56
3.6数据流68
3.7通过distcp并行复制76
第4章关于YARN78
4.1剖析YARN应用运行机制79
4.2YARN与MapReduce1相比82
4.3YARN中的调度85
4.4延伸阅读95
第5章Hadoop的I/O操作96
5.1数据完整性96
5.2压缩99
5.3序列化109
5.4基于文件的数据结构127
第Ⅱ部分关于MapReduce
第6章MapReduce应用开发141
6.1用于配置的API142
6.2配置开发环境144
6.3用MRUnit来写单元测试152
6.4本地运行测试数据156
6.5在集群上运行160
6.6作业调优174
6.7MapReduce的工作流176
第7章MapReduce的工作机制184
7.1剖析MapReduce作业运行
机制184
7.2失败191
7.3shuffle和排序195
7.4任务的执行201
第8章MapReduce的
类型与格式207
8.1MapReduce的类型207
8.2输入格式218
8.3输出格式236
第9章MapReduce的特性243
9.1计数器243
9.2排序252
9.3连接264
9.4边数据分布270
9.5MapReduce库类276
第Ⅲ部分Hadoop的操作
dy 0章构建Hadoop集群279

…………已省略更多目录

Hive编程指南-目录

dy 章 基础知识
1.1 Hadoop和MapReduce综述
1.2 Hadoop生态系统中的Hive
1.2.1 Pig
1.2.2 HBase
1.2.3 Cascading、Crunch及其他
1.3 Java和Hive:词频统计算法
1.4 后续事情

第2章 基础操作
 2.1 安装预先配置好的虚拟机
 2.2 安装详细步骤
 2.2.1 装Java
 2.2.2 安装Hadoop
 2.2.3 本地模式、伪分布式模式和分布式模式
 2.2.4 测试Hadoop
 2.2.5 安装Hive
 2.3 Hive内部是什么
 2.4 启动Hive
 2.5 配置Hadoop环境
 2.5.1 本地模式配置
 2.5.2 分布式模式和伪分布式模式配置
 2.5.3 使用JDBC连接元数据
 2.6 Hive命令
 2.7 命令行界面
 2.7.1 CLI 选项
 2.7.2 变量和属性
 2.7.3 Hive中“一次使用”命令
 2.7.4 从文件中执行Hive查询
 2.7.5 hiverc文件
 2.7.6 使用Hive CLI的更多介绍
 2.7.7 查看操作命令历史
 2.7.8 执行shell命令
 2.7.9 在Hive内使用Hadoop的dfs命令
 2.7.10 Hive脚本中如何进行注释
     2.7.11 显示字段名称

第3章 数据类型和文件格式
 3.1 基本数据类型
 3.2 集合数据类型
 3.3 文本文件数据编码
 3.4 读时模式

第4章 HiveQL:数据定义
 4.1 Hive中的数据库
 4.2 修改数据库
 4.3 创建表
 4.3.1 管理表
 4.3.2 外部表
 4.4 分区表、管理表
 4.4.1 外部分区表
 4.4.2 自定义表的存储格式
 4.5 删除表
 4.6 修改表
 4.6.1 表重命名
 4.6.2 增加、修改和删除表分区
 4.6.3 修改列信息
 4.6.4 增加列
 4.6.5 删除或者替换列
 4.6.6 修改表属性
 4.6.7 修改存储属性
 4.6.8 众多的修改表语句

…………已省略更多目录

Spark快速大数据分析-目录

推荐序 xi
译者序 xiv
序 xvi
前言 xvii
dy 章 Spark数据分析导论 1
1.1 Spark是什么 1
1.2 一个大一统的软件栈 2
1.2.1 Spark Core 2
1.2.2 Spark SQL 3
1.2.3 Spark Streaming 3
1.2.4 MLlib 3
1.2.5 GraphX 3
1.2.6 集群管理器 4
1.3 Spark的用户和用途 4
1.3.1 数据科学任务 4
1.3.2 数据处理应用 5
1.4 Spark简史 5
1.5 Spark的版本和发布 6
1.6 Spark的存储层次 6
第2章 Spark下载与入门 7
2.1 下载Spark 7
2.2 Spark中Python和Scala的shell 9
2.3 Spark 核心概念简介 12
2.4 独立应用 14
2.4.1 初始化SparkContext 15
2.4.2 构建独立应用 16
2.5 总结 19
第3章 RDD编程 21
3.1 RDD基础 21
3.2 创建RDD 23
3.3 RDD操作 24
3.3.1 转化操作 24
3.3.2 行动操作 26
3.3.3 惰性求值 27
3.4 向Spark传递函数 27
3.4.1 Python 27
3.4.2 Scala 28
3.4.3 Java 29
3.5 常见的转化操作和行动操作 30
3.5.1 基本RDD 30
3.5.2 在不同RDD类型间转换 37
3.6 持久化( 缓存) 39
3.7 总结 40
第4章 键值对操作 41
4.1 动机 41
4.2 创建Pair RDD 42
4.3 Pair RDD的转化操作 42
4.3.1 聚合操作 45
4.3.2 数据分组 49
4.3.3 连接 50
4.3.4 数据排序 51
4.4 Pair RDD的行动操作 52
4.5 数据分区(进阶) 52
4.5.1 获取RDD的分区方式 55
4.5.2 从分区中获益的操作 56
4.5.3 影响分区方式的操作 57
4.5.4 示例:PageRank 57
4.5.5 自定义分区方式 59
4.6 总结 61
第5章 数据读取与保存 63
5.1 动机 63

…………已省略更多目录