正版全新 Hadoop指南第四版+Spark快速大数据分析+HBase指南+Hive编程指南pdf下载

正版全新 Hadoop指南第四版+Spark快速大数据分析+HBase指南+Hive编程指南百度网盘pdf下载

作者:

简介:正版全新 Hadoop指南第四版+Spark快速大数据分析+HBase指南+Hive编程指南

出版社：

出版时间：2016-11

pdf下载价格：0.00￥

免费下载

前去下载

书籍下载

下载地址

内容介绍

套装四册：

Spark快速大数据分析

HBase威指南

Hive编程指南

Hadoop威指南：大数据的存储与分析（第4版）修订版

本书结合理论和实践，由浅入深，全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章，第Ⅰ部分介绍Hadoop基础知识，主题涉及Hadoop、MapReduce、Hadoop分布式文件、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发；MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维，主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目，主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例，分别来自卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。

本书是一本、全面的Hadoop参考书和工具书，阐述了Hadoop生态圈的新发展和应用，程序员可以从中探索海量数据集的存储和分析，管理员可以从中了解Hadoop集群的安装和运维。

第Ⅰ部分Hadoop基础知识

第1章初识Hadoop3

1.1数据！数据！3

1.2数据的存储与分析5

1.3查询所有数据6

1.4不仅仅是批处理7

1.5相较于其他的优势8

1.6ApacheHadoop发展简史12

1.7本书包含的内容16

第2章关于MapReduce19

2.1气象数据集19

2.2使用Unix工具来分析数据21

2.3使用Hadoop来分析数据22

2.4横向扩展31

2.5HadoopStreaming37

第3章Hadoop分布式文件42

....

..................

书名:HBase威指南(“十二五”国家重点图书出版规划项目)价：89.00元作者:[美]Lars George 著出版社：人民邮电出版社出版日期：2013-10-1ISBN：9787115318893字数：646000页码：476版次：1装帧：平装开本：16开

编辑Apache HBase项目管理委员会主席Michael Stack作序。作者Lars George是HBase Committer，HBase文档的主要贡献者，Cloudera公司解决方案架构师，主要为Hadoop和HBase提供技术支持、咨询和培训工作。这是一本介绍HBase内部机制的书，是·威的HBase开发指南。目录目录第1章简介 11.1 海量数据的黎明 11.2 关系数据库的问题 51.3 非关系型数据库Not-Only-SQL(简称NoSQL) 71.3.1 维度 91.3.2 可扩展性 121.3.3 数据库的范式化和反范式化 121.4 结构 151.4.1 背景 151.4.2 表、行、列和单元格 161.4.3 自动分区 201.4.4 存储API 21

....................

商品名称：	Hive编程指南	开本：
作者：	(美)卡普廖洛//万普勒//卢森格林\|译者:曹坤	页数：
定价：	69	出版时间：	2013-12-01
ISBN号：	9787115333834	印刷时间：	2013-12-01
出版社：	人民邮电	版次：	1
商品类型：	图书	印次：	1

目录：***章基础知识
1.1 Hadoop和MapReduce综述
1.2 Hadoop生态中的Hive
1.2.1 Pig
1.2.2 HBase
1.2.3 Cascading、Crunch及其他
1.3 Java和Hive：词频统计算法
1.4 后续事情
第2章基础操作
2.1 安装预先配置好的虚拟机
2.2 安装详细步骤
2.2.1 装Java
2.2.2 安装Hadoop
2.2.3 本地模式、伪分布式模式和分布式模式
2.2.4 测试Hadoop
2.2.5 安装Hive
2.3 Hive内部是什么
2.4 启动Hive
2.5 配置Hadoop环境
2.5.1 本地模式配置
2.5.2 分布式模式和伪分布式模式配置
2.5.3 使用JDBC连接元数据
2.6 Hive命令
2.7 命令行界面
2.7.1 CLI 选项

...

《Spark快速大数据分析》由 Spark 开发者及核心成员共同打造，讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark，它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法，学会交互、迭代和增量式分析，解决分区、数据本地化和自定义序列化等问题。

作者简介

　　Holden Karau，是Databricks的软件开发工程师，活跃于开源社区。她还著有《Spark快速数据处理》。

　　Andy Konwinski，是Databricks联合创始人，Apache Spark项目技术专家，还是Apache Mesos项目的联合发起人。

　　Patrick Wendell，是Databricks联合创始人，也是Apache Spark项目技术专家。他还负责维护Spark核心引擎的几个子。

　　Matei Zaharia，是Databricks的CTO，同时也是Apache Spark项目发起人以及Apache基金会副主席。