Hive编程指南 (美)卡普廖洛 等 9787115333834 人民邮电出版社pdf下载

Hive编程指南 (美)卡普廖洛 等 9787115333834 人民邮电出版社百度网盘pdf下载

作者:
简介:Hive编程指南 (美)卡普廖洛 等 9787115333834 人民邮电出版社
出版社:
出版时间:2013-12
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

基本信息

书名:Hive编程指南

定价:69.00元

作者:(美)卡普廖洛 等

出版社:人民邮电出版社

出版日期:2013-12-01

ISBN:9787115333834

字数:

页码:

版次:1

装帧:平装-胶订

开本:16开

商品重量:0.4kg

编辑推荐


市场中本Hive图书。
Hive在Hadoop系统中的应用趋势比较可观。

内容提要


《Hive编程指南》是一本Apache Hive的编程指南,旨在介绍如何使用Hive的SQL方法HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。全书通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述,终演示Hive如何在Hadoop生态系统进行工作。

《Hive编程指南》适合对大数据感兴趣的爱好者以及正在使用Hadoop系统的数据库管理员阅读使用。

目录


*章 基础知识
1.1 Hadoop和MapReduce综述
1.2 Hadoop生态系统中的Hive
1.2.1 Pig
1.2.2 HBase
1.2.3 Cascading、Crunch及其他
1.3 Java和Hive:词频统计算法
1.4 后续事情

2章 基础作
2.1 安装预先配置好的虚拟机
2.2 安装详细步骤
2.2.1 装Java
2.2.2 安装Hadoop
2.2.3 本地模式、伪分布式模式和分布式模式
2.2.4 测试Hadoop
2.2.5 安装Hive
2.3 Hive内部是什么
2.4 启动Hive
2.5 配置Hadoop环境
2.5.1 本地模式配置
2.5.2 分布式模式和伪分布式模式配置
2.5.3 使用*BC连接元数据
2.6 Hive命令
2.7 命令行界面
2.7.1 CLI 选项
2.7.2 变量和属性
2.7.3 Hive中“一次使用”命令
2.7.4 从文件中执行Hive查询
2.7.5 hiverc文件
2.7.6 使用Hive CLI的更多介绍
2.7.7 查看作命令历史
2.7.8 执行shell命令
2.7.9 在Hive内使用Hadoop的dfs命令
2.7.10 Hive脚本中如何进行注释
2.7.11 显示字段名称

3章 数据类型和文件格式
3.1 基本数据类型
3.2 集合数据类型
3.3 文本文件数据编码
3.4 读时模式

4章 HiveQL:数据定义
4.1 Hive中的数据库
4.2 修改数据库
4.3 创建表
4.3.1 管理表
4.3.2 外部表
4.4 分区表、管理表
4.4.1 外部分区表
4.4.2 自定义表的存储格式
4.5 删除表
4.6 修改表
4.6.1 表重命名
4.6.2 增加、修改和删除表分区
4.6.3 修改列信息
4.6.4 增加列
4.6.5 删除或者替换列
4.6.6 修改表属性
4.6.7 修改存储属性
4.6.8 众多的修改表语句

5章 HiveQL:数据作
5.1 向管理表中装载数据
5.2 通过查询语句向表中*入数据
5.3 单个查询语句中创建表并加载数据
5.4 导出数据

6章 HiveQL:查询
6.1 SELECTFROM语句
6.1.1 使用正则表达式来指定列
6.1.2 使用列值进行计算
6.1.3 算*运算符
6.1.4 使用函数
6.1.5 LIMIT语句
6.1.6 列别名
6.1.7 嵌套SELECT语句
6.1.8 CASEWHENTHEN 句式
6.1.9 什么情况下Hive可以避免进行MapReduce
6.2 WHERE语句
6.2.1 谓词作符
6.2.2 关于浮点数比较
6.2.3 LIKE和RLIKE
6.3 GROUP BY 语句
6.4 JOIN语句
6.4.1 INNER JOIN
6.4.2 JOIN优化
6.4.3 LEFT OUTER JOIN
6.4.4 OUTER JOIN
6.4.5 RIGHT OUTER JOIN
6.4.6 FULL OUTER JOIN
6.4.7 LEFT SEMI-JOIN
6.4.8 笛卡尔积JOIN
6.4.9 *p-side JOIN
6.5 ORDER BY和SORT BY
6.6 *有SORT BY 的DISTRIBUTE BY
6.7 CLUSTER BY
6.8 类型转换
6.9 抽样查询
6.9.1 数据块抽样
6.9.2 分桶表的输入裁剪
6.10 UNION ALL

7章 HiveQL:视图
7.1 使用视图来降低查询复杂度
7.2 使用视图来限制基于条件过滤的数据
7.3 动态分区中的视图和*p类型
7.4 视图零零碎碎相关的事情

8章 HiveQL:索引
8.1 创建索引
8.2 重建索引
8.3 显示索引
8.4 删除索引
8.5 实现一个定制化的索引处理器

9章 模式设计
9.1 按天划分的表
9.2 关于分区
9.3 *键和标准化
9.4 同一份数据多种处理
9.5 对于每个表的分区
9.6 分桶表数据存储
9.7 为表增加列
9.8 使用列存储表
9.8.1 重复数据
9.8.2 多列
9.9 (几乎)总是使用压缩

*0章 调优
10.1 使用EXPLAIN
10.2 EXPLAIN EXTENDED
10.3 限制调整
10.4 JOIN优化
10.5 本地模式
10.6 并行执行
10.7 严格模式
10.8 调整*pper和reducer个数
10.9 JVM重用
10.10 索引
10.11 动态分区调整
10.12 推测执行
10.13 单个MapReduce中多个GROUP BY
10.14 虚拟列

*1章 其他文件格式和压缩方法
11.1 确定安装编解码器
11.2 选择一种压缩编/解码器
11.3 开启中间压缩
11.4 *终输出结果压缩
11.5 sequence file存储格式
11.6 使用压缩实践
11.7 存档分区
11.8 压缩:包扎

*2章 开发
12.1 修改Log4J属性
12.2 连接Java调试器到Hive
12.3 从源码编译Hive
12.3.1 执行Hive测试用例
12.3.2 执行hook
12.4 配置Hive和Eclipse
12.5 Maven工程中使用Hive
12.6 Hive中使用hive_test进行单元测试
12.7 新增的*件开发工具箱(PDK)

*3章 函数
13.1 发现和描述函数
13.2 调用函数
13.3 标准函数
13.4 聚合函数
13.5 表生成函数
13.6 一个通过日期计算其星座的UDF
13.7 UDF与GenericUDF
13.8 不变函数
13.9 用户自定义聚合函数
13.10 用户自定义表生成函数
13.10.1 可以产生多行数据的UDTF
13.10.2 可以产生具有多个字段的单行数据的UDTF
13.10.3 可以模拟复杂数据类型的UDTF
13.11 在 UDF中访问分布式缓存
13.12 以函数的方式使用注解
13.12.1 定数性(deterministic)标注
13.12.2 状态性(st*eful)标注
13.12.3 *性
13.13 宏命令

*4章 Streaming
14.1 恒等变换
14.2 改变类型
14.3 投影变换
14.4 作转换
14.5 使用分布式内存
14.6 由一行产生多行
14.7 使用streaming进行聚合计算
14.8 CLUSTER BY、DISTRIBUTE BY、SORT BY
14.9 GenericMR Tools for Streaming to Java
14.10 计算cogroup

*5章 自定义Hive文件和记录格式
15.1 文件和记录格式
15.2 阐明CREATE TABLE句式
15.3 文件格式
15.3.1 SequenceFile
15.3.2 RCfile
15.3.3 示例自定义输入格式:DualInputFor*t
15.4 记录格式:SerDe
15.5 CSV和TSV SerDe
15.6 Ob*e*Inspe*or
15.7 Thing Big Hive Refle*ion Ob*e*Inspe*or
15.8 XML UDF
15.9 XP*h相关的函数
15.10 JSON SerDe
15.11 Avro Hive SerDe
15.11.1 使用表属性信息定义Avro Sche*
15.11.2 从指定URL中定义Sche*
15.11.3 进化的模式
15.12 二进制输出

*6章 Hive的Thrift服务
16.1 启动Thrift Server
16.2 配置Groovy使用HiveServer
16.3 连接到HiveServer
16.4 获取集*状态信息
16.5 结果集模式
16.6 获取结果
16.7 获取执行计划
16.8 元数据存储方法
16.9 管理HiveServer
16.9.1 生产环境使用HiveServer
16.9.2 清理
16.10 Hive ThriftMetastore
16.10.1 ThriftMetastore 配置
16.10.2 客户端配置

*7章 存储处理程序和NoSQL
17.1 Storage Handler Background
17.2 HiveStorageHandler
17.3 HBase
17.4 Cassandra
17.4.1 静态列映*(St*ic Column Mapping)
17.4.2 为动态列转置列映*
17.4.3 Cassandra SerDe Properties
17.5 DynamoDB

*8章 安全
18.1 和Hadoop安全功能相结合
18.2 使用Hive进行验证
18.3 Hive中的权限管理
18.3.1 用户、组和角*
18.3.2 Grant 和 Revoke权限
18.4 分区级别的权限
18.5 自动授权

*9章 锁
19.1 Hive结合Zookeeper支持锁功能
19.2 显式锁和独占锁

20章 Hive和O*ie整合
20.1 O*ie提供的多种动作(A*ion)
20.2 一个只包*两个查询过程的工作流示例
20.3 O*ie 网页控制台
20.4 工作流中的变量
20.5 获取输出
20.6 获取输出到变量

21章 Hive和*网络服务系统(AWS)
21.1 为什么要弹性MapReduce
21.2 实例
21.3 开始前的注意事项
21.4 管理自有EMR Hive集*
21.5 EMR Hive上的Thrift Server服务
21.6 EMR上的实例组
21.7 配置EMR集*
21.7.1 部署hive-site.xml文件
21.7.2 部署.hiverc脚本
21.7.3 建立一个内存密集型配置
21.8 EMR上的持久层和元数据存储
21.9 EMR集*上的HDFS和S3
21.10 在S3上部署资源、配置和辅助程序脚本
21.11 S3上的日志
21.12 现买现*
21.13 安全组
21.14 EMR和EC2以及Apache Hive的比较
21.15 包装

22章 HC*alog
22.1 介绍
22.2 MapReduce
22.2.1 读数据
22.2.2 写数据
22.3 命令行
22.4 安全模型
22.5 架构

23章 案例研究
23.1 m6d.*(Media6Degrees)
23.1.1 M 6D的数据科学,使用Hive和R
23.1.2 M6D UDF伪*
23.1.3 M6D如何管理多MapReduce集*间的Hive数据访问
23.2 Outbrain
23.2.1 站内线上身份识别
23.2.2 计算复杂度
23.2.3 会话化
23.3 NASA喷气推进实验室
23.3.1 区域气候模型评价系统
23.3.2 我们的经验:为什么使用Hive
23.3.3 解决这些问题我们所面临的挑战
23.4 Photobucket
23.4.1 Photobucket 公司的大数据应用情况
23.4.2 Hive所使用的硬件资源信息
23.4.3 Hive提供了什么
23.4.4 Hive支持的用户有哪些
23.5 SimpleReach
23.6 Experiences and Needs from the Customer Trenches
23.6.1 介绍
23.6.2 Customer Trenches的用例

*语词汇表

作者介绍


Edward Capriolo:Media6degrees公司系统管理员,他是Apache软件基金会成员,还是Hadoop-Hive项目成员。
Dean Wampler:Think Big Analytics公司总顾问,对大数据问题以及Hadoop和机器学习有专门的研究。
Jason Rutherglen:Think Big Analytics公司软件架构师,对大数据、Hadoop、搜索和安全有专门的研究。

文摘














序言