Spark快速大数据分析 |
|
定价 |
59.00 |
出版社 |
人民邮电出版社 |
版次 |
1 |
出版时间 |
2015年09月 |
开本 |
16开 |
作者 |
卡劳 |
装帧 |
平装 |
页数 |
210 |
字数 |
343000 |
ISBN编码 |
9787115403094 |
Hadoop数据分析 |
|
定价 |
69.00 |
出版社 |
人民邮电出版社 |
版次 |
1 |
出版时间 |
2015年09月 |
开本 |
16开 |
作者 |
卡劳 |
装帧 |
平装 |
页数 |
211 |
字数 |
|
ISBN编码 |
9787115479648 |
Hive编程指南 |
|
定价 |
69.00 |
出版社 |
人民邮电出版社 |
版次 |
1 |
出版时间 |
2013年12月 |
开本 |
16开 |
作者 |
卡普廖洛 |
装帧 |
平装 |
页数 |
318 |
字数 |
|
ISBN编码 |
9787115333834 |
内容介绍
本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。
通过提供分布式数据存储和并行计算框架,Hadoop已经从一个集 计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集 计算和分析的概览,为数据科学家深入了解特定主题领域铺平道路,从数据科学家的视角介绍Hadoop集 计算和分析。本书分为两大部分, 部分从很好高的层次介绍分布式计算,讨论如何在集 上运行计算;第二部分则重点关注数据科学家应该了解的工具和技术,意在为各种分析和大规模数据管理提供动力。
编程指南》是一本ApacheHive的编程指南,旨在介绍如何使用Hive的SQL方法――HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。《Hive编程指南》通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述, 终演示Hive如何在Hadoop生态系统进行工作。
《Hive编程指南》适合对大数据感兴趣的爱好者以及正在使用Hadoop系统的数据库管理员阅读使用。
作者介绍
Holden Karau,是Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。
目录
推荐序 xi
译者序 xiv
序 xvi
前言 xvii
D11章 Spark数据分析导论 1
1.1 Spark是什么 1
1.2 一个大一统的软件栈 2
1.2.1 Spark Core 2
1.2.2 Spark SQL 3
1.2.3 Spark Streaming 3
1.2.4 MLlib 3
1.2.5 GraphX 3
1.2.6 集 管理器 4
1.3 Spark的用户和用途 4
1.3.1 数据科学任务 4
1.3.2 数据处理应用 5
1.4 Spark简史 5
1.5 Spark的版本和发布 6
1.6 Spark的存储层次 6
D12章 Spark下载与入门 7
2.1 下载Spark 7
2.2 Spark中Python和Scala的shell 9
●前言ix
●XX部分 分布式计算入门
●dy 章 数据产品时代2
●1.1 什么是数据产品2
●1.2 使用Hadoop构建大规模数据产品4
●1.2.1 利用大型数据集4
●1.2.2 数据产品中的Hadoop5
●1.3 数据科学流水线和Hadoop生态系统6
●1.4 小结8
●第2章 大数据操作系统9
●2.1 基本概念10
●2.2 Hadoop架构11
●2.2.1 Hadoop集 12
基础知识
1.1Hadoop和MapReduce综述
1.2Hadoop生态系统中的Hive
1.2.1Pig
1.2.2HBase
1.2.3Cascading、Crunch及其他
1.3Java和Hive:词频统计算法
1.4后续事情
第2章基础操作
2.1安装预先配置好的虚拟机
2.2安装详细步骤
2.2.1装Java
2.2.2安装Hadoop
2.2.3本地模式、伪分布式模式和分布式模式
2.2.4测试Hadoop
2.2.5安装Hive
2.3Hive内部是什么
2.4启动Hive
2.5配置Hadoop环境
2.5.1本地模式配置