Hive性能调优实战 Hive性能优化教程 hive编程指南 hive教程书籍 搭建大数据平台企业级pdf下载

Hive性能调优实战 Hive性能优化教程 hive编程指南 hive教程书籍 搭建大数据平台企业级百度网盘pdf下载

作者:
简介:Hive性能调优实战 Hive性能优化教程 hive编程指南 hive教程书籍 搭建大数据平台企业级
出版社:
出版时间:2020-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

基本信息

书名:Hive性能调优实战

定价:89.00元

作者:林志煌

出版社:机械工业出版社

出版日期:2020-01-01

ISBN:9787111644323

字数:

页码:

版次:1

装帧:装-胶订

开本:16开

商品重量:0.4kg

编辑推荐


重点介绍了Hive性能调优所涉及的Hadoop组件和Hive工具

站在工程的角度介绍Hive性能调优,注重调优方法的可落地性

从语法、表模型设计、执行计划和计算引擎等多个角度进行讲解

注重实例演示和调优方法的总结,给出近百个实例带领读者实际练

适用于Hive 1.x、Hive 2.x及Hive 3.x等多个版本

Hive性能调优实战》核心内容:

举例感受Hive性能调优的多样性

Hive问题排查与调优思路

环境搭建

Hive及其相关大数据组件

深入MapReduce计算引擎

Hive SQL执行计划

Hive数据处理模式

YARN日志

数据存储

发现并优化Hive中的性能问题

Hive知识体系总结

赠送:

《Hive性能调优实战》源代码文件(需要下载)

内容提要


《Hive性能调优实战》旨在介绍如何进行Hive性能调优,以及调优时所涉及的工具。书中重点介绍了Hive性能调优所涉及的Hadoop组件和Hive工具。考虑到很多调优方法的着眼点有的相似性,这些调优方法可以适用于多个Hive版本,所以《Hive性能调优实战》在介绍Hive的相关内容时会穿*Hive 1.x、Hive 2.x及Hive 3.x等多个版本的内容。

《Hive性能调优实战》共11章,涵盖的内容如下:

  • 举例感受Hive性能调优的多样性
  • Hive问题排查与调优思路
  • 环境搭建
  • Hive及其相关大数据组件
  • 深入MapReduce计算引擎
  • Hive SQL执行计划
  • Hive数据处理模式
  • YARN日志
  • 数据存储
  • 发现并优化Hive中的性能问题
  • Hive知识体系总结

《Hive性能调优实战》内容实用,非常适合对大数据技*感兴趣的读者阅读,尤其是Hive进阶读者。另外,《Hive性能调优实战》还适合IT培训机构的大数据培训学员和高校相关专业的学生阅读。

目录


1.1 感受改写SQL对性能的影响 11.1.2 union案例 41.1.4 失败的union调优 81.2.1 数据准备 111.3 感受不同数据格式对性能的提升 151.3.2 案例比较 161.4.1 数据准备 191.5 调优其实不难 242.1 小白推演Hive的优化方法 252.1.2 学数据分布式计算的基本原理 282.1.4 干预SQL的运行方式 332.2.1 从一个过度优化案例说起 362.2.3 Hive程序相关规范 493章 环境搭建 533.1.1 Docker介绍 543.1.3 常见的Docker使用与管理命令 583.1.5 Dockerfile语法 633.3 Docker搭建分布式集* 683.3.2 构建Hadoop镜像 703.3.4 启动集* 733.4.1 Cloudera Manager组件 753.4.3 CDM安装分布式集* 794章 Hive及其相关大数据组件 894.1.1 Hive 1.x版本基本结构 894.2 YARN组件 974.2.2 YARN基本组成 974.2.4 YARN资源调度器 1004.3.1 常见HDFS优化 1024.3.3 HDFS高可用架构 1054.4 计算引擎 1094.4.2 Tez计算引擎 1114.4.4 Spark计算引擎 1155.1 MapReduce整体处理过程 1175.2.1 输入格式类InputFor*t 1185.3 MapReduce的Mapper 1215.3.2 Hive中与Mapper相关的配置 1235.4.1 Reducer类 1265.5 MapReduce的Shuffle 1285.6.1 Combiner类 1295.7 MapReduce作业输出 1315.7.2 Hive配置与作业输出 1335.9 MapReduce与Tez对比 1355.9.2 Hive中Tez和LLAP相关的配置 1416.1 查看SQL的执行计划 1436.1.2 查看执行计划的扩展信息 1486.1.4 查看SQL作涉及的相关权限信息 1526.2 简单SQL的执行计划解读 1586.3.1 执行计划解读 1616.4 带聚合函数的SQL执行计划解读 1646.4.2 在Map和Reduce阶段聚合的SQL 1676.5 带窗口/分析函数的SQL执行计划解读 1726.6.1 Hive表连接的类型 1756.6.3 左半连接 1787.1 过滤模式 1817.1.2 having子句过滤 1837.1.4 表过滤 1867.1.6 分桶过滤 1897.1.8 列过滤 1917.2.1 distin*模式 1937.2.3 可计算中间结果的聚合模式 1977.3 连接模式 2007.3.2 桶的Map连接和排序合并桶的Map连接 2077.3.4 表连接与基于成本的优化器 2108.1 查看YARN日志的方式 2128.1.2 JobHistory Web UI界面 2158.2.1 Cluster Metrics集*度量指标 2178.2.3 Cluster Overview集*概况 2208.3.1 节点列表概况 2218.3.3 节点作业信息 2248.5 查看集*作业运行信息 2308.5.2 查看作业运行的基本信息 2319章 数据存储 2369.1.1 ORC的结构 2379.1.3 ACID事务的支持 2409.2.1 表配置属性 2419.3 文件存储格式之Apache Parquet 2429.3.2 Parquet的相关配置 2450章 发现并优化Hive中的性能问题 24710.2 监控当前集*状态 25310.3.1 使用HS2 WebUI排除非大数据组件的问题 25810.3.3 Map任务读取小文件和大文件 26110.3.5 缓慢的Shuffle 26410.4 数据倾斜 26610.4.2 业务无关的数据引发的数据倾斜 26710.4.4 无法削减中间结果的数据量引发的数据倾斜 2681章 Hive知识体系总结 27011.2 数据粒度 27111.3.1 sele*查询语句 27611.3.3 数据控制语言(DML) 27911.4 文件作 281

作者介绍


林志煌 曾在中国互联网头部公司长期从事大数据相关项目的研发。擅长并能够熟练使用Hive、MapReduce和Spark等大数据相关技*。经手过日数据流量TB级别和总量PB级别的Hadoop大数据台建设。从事过数据采集、数据清洗、数据仓库模型构建及数据产品研发等工作,涵盖了数据生命周期的主要阶段。

文摘


序言