正版全新 Hadoop构建数据仓库实践+Hive编程指南 2本 大数据技术书籍 数据库管理pdf下载

正版全新 Hadoop构建数据仓库实践+Hive编程指南 2本 大数据技术书籍 数据库管理百度网盘pdf下载

作者:
简介:正版全新 Hadoop构建数据仓库实践+Hive编程指南 2本 大数据技术书籍 数据库管理
出版社:
出版时间:
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

Hadoop构建数据仓库实践+Hive编程指南 2本 大数据技术书籍 数据库管理



Hadoop构建数据仓库实践

本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库,将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用。 本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用HIVE进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关的师生教学参考。

第1章 数据仓库简介

1.1 什么是数据仓库 1

1.1.1 数据仓库的定义 1

1.1.2 建立数据仓库的原因 3

1.2 操作型与分析型 5

1.2.1 操作型 5

1.2.2 分析型 8

1.2.3 操作型和分析型对比 9

1.3 数据仓库架构 10

1.3.1 基本架构 10

1.3.2 主要数据仓库架构 12

1.3.3 操作数据存储 16

1.4 抽取-转换-装载 17

1.4.1 数据抽取 17

1.4.2 数据转换 19

1.4.3 数据装载 20

1.4.4 开发ETL的方法 21

1.4.5 常见ETL工具 21

1.5 数据仓库需求 22

1.5.1 基本需求 22

1.5.2 数据需求 23

 1.6 小结 24

第2章 数据仓库设计基础

2.1 关系数据模型 25

2.1.1 关系数据模型中的结构 25

2.1.2 关系完整性 28

2.1.3 规范化 30

2.1.4 关系数据模型与数据仓库 33

2.2 维度数据模型 34

2.2.1 维度数据模型建模过程 35

2.2.2 维度规范化 36

2.2.3 维度数据模型的特点 37

2.2.4 星型模式 38

2.2.5 雪花模式 40

2.3 Data Vault模型 42

2.3.1 Data Vault模型简介 42

2.3.2 Data Vault模型的组成部分 43

2.3.3 Data Vault模型的特点 44

2.3.4 Data Vault模型的构建 44

2.3.5 Data Vault模型实例 46

2.4 数据集市 49

2.4.1 数据集市的概念 50

2.4.2 数据集市与数据仓库的区别 50

2.4.3 数据集市设计 50

2.5 数据仓库实施步骤 51

2.6 小结 54

第3章 Hadoop生态圈与数据仓库

3.1 大数据定义 55

3.2 Hadoop简介 56

3.2.1 Hadoop的构成 57

3.2.2 Hadoop的主要特点 58

3.2.3 Hadoop架构 58

3.3 Hadoop基本组件 59

3.3.1 HDFS 60

3.3.2 MapReduce 65

3.3.3 YARN 72

3.4 Hadoop生态圈的其他组件 77

3.5 Hadoop与数据仓库 81

3.5.1 关系数据库的可扩展性瓶颈 82

3.5.2 CAP理论 84

3.5.3 Hadoop数据仓库工具 85

3.6 小结 88

第4章 安装Hadoop

4.1 Hadoop主要发行版本 89

4.1.1 Cloudera Distribution for Hadoop(CDH) 89

4.1.2 Hortonworks Data Platform(HDP) 90

4.1.3 MapR Hadoop 90

4.2 安装Apache Hadoop 91

4.2.1 安装环境 91

4.2.2 安装前准备 92

4.2.3 安装配置Hadoop 93

4.2.4 安装后配置 97

4.2.5 初始化及运行 97

4.3 配置HDFS Federation 99

4.4 离线安装CDH及其所需的服务 104

4.4.1 CDH安装概述 104

4.4.2 安装环境 106

4.4.3 安装配置 106

4.4.4 Cloudera Manager许可证管理 114

4.5 小结 115.........


Hive编程指南

  《Hive编程指南》是一本Apache Hive的编程指南,旨在介绍如何使用Hive的SQL方法HiveQL来汇总、查询和分析存储在Hadoop分布式文件上的大数据集合。全书通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述,·终演示Hive如何在Hadoop生态进行工作。

  《Hive编程指南》适合对大数据感兴趣的爱好者以及正在使用Hadoop的数据库管理员阅读使用。

第1章 基础知识 
1.1 Hadoop和MapReduce综述 
1.2 Hadoop生态中的Hive 
1.2.1 Pig 
1.2.2 HBase 
1.2.3 Cascading、Crunch及其他 
1.3 Java和Hive:词频统计算法 
1.4 后续事情 

第2章 基础操作 
2.1 安装预先配置好的虚拟机 
2.2 安装详细步骤 
2.2.1 装Java 
2.2.2 安装Hadoop 
2.2.3 本地模式、伪分布式模式和分布式模式 
2.2.4 测试Hadoop 
2.2.5 安装Hive 
2.3 Hive内部是什么 
2.4 启动Hive 
2.5 配置Hadoop环境 
2.5.1 本地模式配置 
2.5.2 分布式模式和伪分布式模式配置 
2.5.3 使用JDBC连接元数据 
2.6 Hive命令 
2.7 命令行界面 
2.7.1 CLI 选项 
2.7.2 变量和属性 
2.7.3 Hive中“一次使用”命令 
2.7.4 从文件中执行Hive查询 
2.7.5 hiverc文件 
2.7.6 使用Hive CLI的更多介绍 
2.7.7 查看操作命令历史 
2.7.8 执行shell命令 
2.7.9 在Hive内使用Hadoop的dfs命令 
2.7.10 Hive脚本中如何进行注释 
2.7.11 显示字段名称 

第3章 数据类型和文件格式 
3.1 基本数据类型 
3.2 集合数据类型 
3.3 文本文件数据编码 
3.4 读时模式 

第4章 HiveQL:数据定义 
4.1 Hive中的数据库 
4.2 修改数据库 
4.3 创建表 
4.3.1 管理表 
4.3.2 外部表 
4.4 分区表、管理表 
4.4.1 外部分区表 
4.4.2 自定义表的存储格式 
4.5 删除表 
4.6 修改表 
4.6.1 表重命名 
4.6.2 增加、修改和删除表分区 
4.6.3 修改列信息 
4.6.4 增加列 
4.6.5 删除或者替换列 
4.6.6 修改表属性 
4.6.7 修改存储属性 
4.6.8 众多的修改表语句 

第5章 HiveQL:数据操作 
5.1 向管理表中装载数据 
5.2 通过查询语句向表中插入数据 
5.3 单个查询语句中创建表并加载数据 
5.4 导出数据 

第6章 HiveQL:查询 
6.1 SELECT…FROM语句 
6.1.1 使用正则表达式来指定列 
6.1.2 使用列值进行计算 
6.1.3 算术运算符 
6.1.4 使用函数 
6.1.5 LIMIT语句 
6.1.6 列别名 
6.1.7 嵌套SELECT语句 
6.1.8 CASE…WHEN…THEN 句式 
6.1.9 什么情况下Hive可以避免进行MapReduce 
6.2 WHERE语句 
6.2.1 谓词操作符 
6.2.2 关于浮点数比较 
6.2.3 LIKE和RLIKE 
6.3 GROUP BY 语句 
6.4 JOIN语句 
6.4.1 INNER JOIN 
6.4.2 JOIN优化 
6.4.3 LEFT OUTER JOIN 
6.4.4 OUTER JOIN 
6.4.5 RIGHT OUTER JOIN 
6.4.6 FULL OUTER JOIN 
6.4.7 LEFT SEMI-JOIN 
6.4.8 笛卡尔积JOIN 
6.4.9 map-side JOIN 
6.5 ORDER BY和SORT BY 
6.6 含有SORT BY 的DISTRIBUTE BY 
6.7 CLUSTER BY 
6.8 类型转换 
6.9 抽样查询 
6.9.1 数据块抽样 
6.9.2 分桶表的输入裁剪 
6.10 UNION ALL ..........


^_^:4a9cf4241e3a4f837c3b98cf180f099b