pdf下载网
计算机
历史
经济
管理
心理
社会
传记
哲学
医学
经典
HIVE实战 [美] 斯科特·肖(Scott Shaw)、[南非] 安 人民邮电出版社百度网盘pdf下载
作者:
简介:HIVE实战 [美] 斯科特·肖(Scott Shaw)、[南非] 安 人民邮电出版社
出版社:
出版时间:2018-11
pdf下载价格:0.00¥
免费下载
前去下载
书籍下载
下载地址
内容介绍
图书基本信息
图书名称
HIVE实战
作者
斯科特·肖(Scott Shaw)、 安
定价
69.00元
出版社
人民邮电出版社
ISBN
9787115493910
出版日期
2018-11-01
字数
366千字
页码
238
版次
1
装帧
平装
开本
16开
商品重量
0.4Kg
内容简介
Hive“出身名门”,是很初由Facebook公司开发的数据仓库工具。它简单且容易上手,是深入学习Hadoop技术的一个很好的切入点。本书由数据库专家和大数据专家共同撰写,具体内容包括:Hive的安装和配置,其核心组件和架构,Hive数据操作语言,如何加载、查询和分析数据,Hive的性能调优以及安全性,等等。本书旨在为读者打牢基础,从而踏上专业的大数据处理之旅。
作者简介
斯科特·肖(Scott Shaw)Hortonworks公司解决方案工程师,曾为微软公司的商业智能项目担任顾问,拥有近20年的数据管理经验。作为演讲者和培训师,他致力于普及分布式计算、大数据概念、商业智能、Hive和Hadoop。安德烈亚斯·弗朗索瓦·弗穆尔恩(Andreas Fran?ois Vermeulen)集数据科学家、数据仓库架构师、博士研究员、企业顾问等角色于一身,曾获“英国数据科学技术先锋”称号,广泛涉足数据工程、商业智能、云架构、深度学习等多个领域。安库尔·古普塔(Ankur Gupta)Hortonworks公司解决方案工程师,曾在Oracle公司担任顾问,有多年从事数据架构师和Oracle数据库管理员的经验,著有Oracle GoldenGate 11g Complete Cookbook。戴维·杰鲁姆加德(David Kjerrumgaard)Streamlio公司解决方案架构主管,曾是Hortonworks公司的系统架构师和数据流实践主管,拥有Certified Developer for Apache Hadoop认证,精通Hive、Kafka、Spark、Storm等技术。
目录
第 1章 为Hive打好基础:Hadoop 11.1 一只小象出生了 21.2 Hadoop的结构 31.3 数据冗余 61.3.1 传统的高可用性 61.3.2 Hadoop的高可用性 91.4 MapReduce处理 121.4.1 MapReduce 161.4.2 YARN和现代数据架构 171.4.3 Hadoop 和开源社区 191.4.4 我们身在何处 22第 2 章 Hive 简介 242.1 Hadoop 发行版 252.2 集群架构 272.3 Hive 的安装 302.4 探寻你的方式 322.5 Hive CLI 35第3 章 Hive架构 373.1 Hive组件 373.2 HCatalog 383.3 HiveServer2 403.4 客户端工具 423.5 执行引擎:Tez 46第4 章 Hive表DDL 484.1 schema-on-read 484.2 Hive数据模型 494.2.1 模式/数据库 494.2.2 为什么使用多个模式/数据库 494.2.3 创建数据库 494.2.4 更改数据库 504.2.5 删除数据库 504.2.6 列出数据库 514.3 Hive中的数据类型 514.3.1 基本数据类型 514.3.2 选择数据类型 514.3.3 复杂数据类型 524.4 表 534.4.1 创建表 534.4.2 列出表 544.4.3 内部表/外部表 544.4.4 内部表/受控表 554.4.5 内部表/外部表示例 554.4.6 表的属性 594.4.7 生成已有表的CREATE TABLE命令 604.4.8 分区和分桶 614.4.9 分区注意事项 634.4.10 对日期列进行高效分区 634.4.11 分桶的注意事项 654.4.12 更改表 664.4.13 ORC文件格式 674.4.14 更改表分区 684.4.15 修改列 724.4.16 删除表/分区 724.4.17 保护表/分区 734.4.18 其他CREATE TABLE命令选项 73第5 章 数据操作语言 755.1 将数据装载到表中 755.1.1 使用存储在HDFS中的文件装载数据 755.1.2 使用查询装载数据 775.1.3 将查询到的数据写入文件系统 805.1.4 直接向表插入值 815.1.5 直接更新表中数据 835.1.6 在表中直接删除数据 845.1.7 创建结构相同的表 855.2 连接 865.2.1 使用等值连接来整合表 865.2.2 使用外连接 875.2.3 使用左半连接 895.2.4 用单次MapReduce实现连接 905.2.5 后使用大的表 915.2.6 事务处理 925.2.7 ACID是什么,以及为什么要用到它 925.2.8 Hive配置 92第6章 将数据装载到Hive 946.1 装载数据之前的设计注意事项 946.2 将数据装载到HDFS 956.2.1 Ambari 文件视图 956.2.2 Hadoop命令行 976.2.3 HDFS的NFS Gateway 976.2.4 Sqoop 986.2.5 Apache NiFi 1016.3 用Hive 访问数据 1056.3.1 外部表 1056.3.2 LOAD DATA语句 1066.4 在Hive中装载增量变更数据 1076.5 Hive流处理 1076.6 小结 108第7章 查询半结构化数据 1097.1 点击流数据 1117.1.1 摄取数据 1137.1.2 创建模式 1167.1.3 装载数据 1167.1.4 查询数据 1167.2 摄取JSON数据 1197.2.1 使用UDF查询JSON 1217.2.2 使用SerDe访问JSON 122第8章 Hive分析 1258.1 构建分析模型 1258.1.1 使用太阳模型获取需求 1258.1.2 将太阳模型转换为星型模式 1298.1.3 构建数据仓库 1378.2 评估分析模型 . 1408.2.1 评估太阳模型 1408.2.2 评估聚合结果 1428.2.3 评估数据集市 1438.3 掌握数据仓库管理 1448.3.1 条件 1448.3.2 检索数据库 1448.3.3 评估数据库 1478.3.4 过程数据库 1608.3.5 转换数据库 1858.3.6 你掌握了什么 1928.3.7 组织数据库 1928.3.8 报表数据库 1968.3.9 示例报表 1978.4 高级分析 1998.5 接下来学什么 199第9章 Hive性能调优 2009.1 Hive性能检查表 2009.2 执行引擎 2019.2.1 MapReduce 2019.2.2 Tez 2019.3 存储格式 2039.3.1 ORC格式 2039.3.2 Parquet格式 2059.4 矢量化查询执行 2069.5 查询执行计划 2069.5.1 基于代价的优化 2089.5.2 执行计划 2109.5.3 性能检查表小结 212第 10章 Hive的安全性 21310.1 数据安全性的几个方面 21310.1.1 身份认证 21410.1.2 授权 21410.1.3 管理 21410.1.4 审计 21410.1.5 数据保护 21410.2 Hadoop的安全性 21510.3 Hive的安全性 21510.3.1 默认授权模式 21510.3.2 基于存储的授权模式 21610.3.3 基于SQL标准的授权模式 21710.3.4 管理通过SQL进行的访问 21810.4 使用Ranger进行Hive授权 21910.4.1 访问Ranger用户界面 22010.4.2 创建Ranger策略 22010.4.3 使用Ranger审计 222第 11章 Hive的未来 22411.1 LLAP 22411.2 Hive-on-Spark 22511.3 Hive:ACID 和MERGE 22511.4 可调隔离等级 22511.5 ROLAP/基于立方体的分析 22611.6 HiveServer2的发展 22611.7 面向不同工作负载的多个HiveServer2实例 226附录A 建立大数据团队 227附录B Hive函数 231
编辑推荐
面对与日俱增的海量数据,能否从中提取商业价值直接关乎公司的市场竞争力。Hive是大数据生态圈必不可少的数据仓库,它为存储在Hadoop文件系统中的数据提供便捷的类SQL查询、统计和分析,从而为公司进入大数据生态圈并迈向商业智能铺平道路。本书着眼于Hive在真实环境中的应用,内容囊括Hive的方方面面,是针对大数据分析人员的实践参考指南。- 理解Hive的架构和数据类型- 高效执行DML操作- 查询半结构化数据- 巧妙提升Hive的性能- 了解Hive的安全性及发展趋势
文摘
序言
相关内容
包邮 Hive性能调优实战
味觉乐园:看香料、咖啡、、酒如何创造人间的私密天堂,(英)希维尔布希(Schivelibusch,w
新商业模式创新设计:转型重塑企业核心竞争力,郑翔洲著,电子工业出版社9787121156298【正版
英文原版 Honey in a Hive 蜂房里的蜜蜂 分级读物L2 小花生推荐 自然
Hive编程指南 数据库管理书 Hadoop数据仓库工具教程 Hive SQL方法 h
正版1 Hive性能调优实战 林志煌 机械工业出版?