Hive性能调优实战林志煌pdf下载

Hive性能调优实战林志煌百度网盘pdf下载

作者:
简介:Hive性能调优实战林志煌
出版社:
出版时间:2020-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

作  者:林志煌 著
定  价:89
出 版 社:机械工业出版社
出版日期:2020年01月01日
页  数:282
装  帧:平装
ISBN:9787111644323
前言 章 举例感受Hive性能调优的多样性 1.1 感受改写SQL对性能的影响 1.1.1 数据准备 1.1.2 union案例 1.1.3 改写SQL实现union的优化 1.1.4 失败的union调优 1.2 感受调整数据块大小对性能的影响 1.2.1 数据准备 1.2.2 案例比较 1.3 感受不同数据格式对性能的提升 1.3.1 数据准备 1.3.2 案例比较 1.4 感受不同的表设计对性能的影响 1.4.1 数据准备 1.4.2 案例比较 1.5 调优其实不难 第2章 Hive问题排查与调优思路 2.1 小白推演Hive的优化方法 2.1.1 类比关系型数据库的调优 2.1.2 学数据分布式计算的基本原理 2.1.3 学习使用YARN提供的日志 2.1.4 干预SQL的运行方式 2.2 老工对Hive的调优理解 2.2.1 从一个过度优化案例说起 2.2.2 编码和调优的原则 2.2.3 Hive程序相关规范 2.3 总结调优的一般性过程 第3章 环境搭建 3.1 Docker基础 3.1.1 Docker介绍 3.1.2 安装Docker 3.1.3 常见的Docker使用与管理命令 3.1.4 使用Dockerfile构建服务镜像 3.1.5 Dockerfile语法 3.2 Cloudera Docker搭建伪分布式环境 3.3 Docker搭建分布式集群 3.3.1 构建JDK镜像 3.3.2 构建Hadoop镜像 3.3.3 构建Hive镜像 3.3.4 启动集群 3.4 CDM搭建分布式集群 3.4.1 Cloudera Manager组件 3.4.2 Docker构建内部源 3.4.3 CDM安装分布式集群 3.5 使用GitHub开源项目构建集群 第4章 Hive及其相关大数据组件 4.1 Hive架构 4.1.1 Hive 1.x版本基本结构 4.1.2 Hive元数据 4.2 YARN组件 4.2.1 YARN的优点 4.2.2 YARN基本组成 4.2.3 YARN工作流程 4.2.4 YARN资源调度器 4.3 HDFS架构 4.3.1 常见HDFS优化 4.3.2 HDFS基本架构和读写流程 4.3.3 HDFS高可用架构 4.3.4 NameNode联盟 4.4 计算引擎 4.4.1 MapReduce计算引擎 4.4.2 Tez计算引擎 4.4.3 LLAP长时在线与处理程序 4.4.4 Spark计算引擎 第5章 深入MapReduce计算引擎 5.1 MapReduce整体处理过程 5.2 MapReduce作业输入 5.2.1 输入格式类InputFormat 5.2.2 InputFormat在Hive中的使用 5.3 MapReduce的Mapper 5.3.1 Mapper类 5.3.2 Hive中与Mapper相关的配置 5.4 MapReduce的Reducer 5.4.1 Reducer类 5.4.2 Hive中与Reducer相关的配置 5.5 MapReduce的Shuffle 5.6 MapReduce的Map端聚合 5.6.1 Combiner类 5.6.2 Map端的聚合与Hive配置 5.7 MapReduce作业输出 5.7.1 OutputFormat作业输出 5.7.2 Hive配置与作业输出 5.8 MapReduce作业与Hive配置 5.9 MapReduce与Tez对比 5.9.1 通过案例代码对比MapReduce和Tez 5.9.2 Hive中Tez和LLAP相关的配置 第6章 HiveSQL执行计划 6.1 查看SQL的执行计划 6.1.1 查看执行计划的基本信息 6.1.2 查看执行计划的扩展信息 6.1.3 查看SQL数据输入依赖的信息 6.1.4 查看SQL操作涉及的相关权限信息 6.1.5 查看SQL的向量化描述信息 6.2 简单SQL的执行计划解读 6.3 带普通函数/操作符SQL的执行计划解读 6.3.1 执行计划解读 6.3.2 普通函数和操作符 6.4 带聚合函数的SQL执行计划解读 6.4.1 在Reduce阶段聚合的SQL 6.4.2 在Map和Reduce阶段聚合的SQL 6.4.3 不错分组聚合 6.5 带窗口/分析函数的SQL执行计划解读 6.6 表连接的SQL执行计划解读 6.6.1 Hive表连接的类型 6.6.2 内连接和外连接 6.6.3 左半连接 第7章 Hive数据处理模式 7.1 过滤模式 7.1.1 where子句过滤模式 7.1.2 having子句过滤 7.1.3 distinct子句过滤 7.1.4 表过滤 7.1.5 分区过滤 7.1.6 分桶过滤 7.1.7 索引过滤 7.1.8 列过滤 7.2 聚合模式 7.2.1 distinct模式 7.2.2 count(列)、count(*)、count(1)行计数聚合模式 7.2.3 可计算中间结果的聚合模式 7.2.4 不可计算中间结果的聚合模式 7.3 连接模式 7.3.1 普通Map连接 7.3.2 桶的Map连接和排序合并桶的Map连接 7.3.3 倾斜连接 7.3.4 表连接与基于成本的优化器 第8章 YARN日志 8.1 查看YARN日志的方式 8.1.1 ResourceManager Web UI界面 8.1.2 JobHistory Web UI界面 8.2 快速查看集群概况 8.2.1 Cluster Metrics集群度量指标 8.2.2 Cluster Node Metrics集群节点的度量信息 8.2.3 Cluster Overview集群概况 8.3 查看集群节点概况 8.3.1 节点列表概况 8.3.2 节

内容简介

本书旨在介绍如何进行Hive的性能调优,以及调优时所涉及和使用的工具。书中重点介绍了Hive性能调优所涉及的Hadoop组件和Hive工具。考虑到很多调优方法的着眼点有一定的相似性,这些调优方法可以适用于多个Hive版本,所以本书在介绍Hive的相关内容时会穿插Hive 1.x、Hive 2.x及Hive 3.x等多个版本的内容。 本书共11章,涵盖的内容有: 举例感受Hive优化的多面性; Hive问题排查与调优思路;环境搭建; Hive及其相关大数据组件; 深入MapReduce计算引擎; HiveSQL执行计划; Hive的数据处理模式; YARN日志; 数据存储; 发现并优化Hive中的性能问题; Hive知识体系总结。 本书内容实用,很好适合对大数据技术感兴趣的读者阅读,尤其是Hive进阶读者。另外,本书还适合IT培训机构的大数据培训学员和高校相关专业的学生阅读。
林志煌 著
林志煌,曾在中国互联网头部公司长期从事大数据相关项目的研发。擅长并能够熟练使用Hive、MapReduce和Spark等大数据相关技术。经手过日数据流量TB级别和总量PB级别的Hadoop大数据平台建设。从事过数据采集、数据清洗、数据仓库模型构建及数据产品研发等工作,涵盖了数据生命周期的主要阶段。