Hadoop构建数据仓库实践pdf下载

Hadoop构建数据仓库实践百度网盘pdf下载

作者:
简介:Hadoop构建数据仓库实践
出版社:清华大学出版社
出版时间:2017-07-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

编辑推荐
  本书共13章,主要内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用Hive进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。
  本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训学校相关专业的师生教学参考。
内容简介
  本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库,将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。
  本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用HIVE进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。
  本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。
作者简介
  王雪迎 ,毕业于中国地质大学计算机专业,高级工程师,拥有20年数据库、数据仓库相关技术经验。曾先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。
目录
作者简介
内容简介
前言
第1章 数据仓库简介
1.1 什么是数据仓库
1.2 操作型系统与分析型系统
1.3 数据仓库架构
1.4 抽取-转换-装载
1.5 数据仓库需求
1.6 小结
第2章 数据仓库设计基础
2.1 关系数据模型
2.2 维度数据模型
2.3 Data Vault模型
2.4 数据集市
2.5 数据仓库实施步骤
2.6 小结
第3章 Hadoop生态圈与数据仓库
3.1 大数据定义
3.2 Hadoop简介
3.3 Hadoop基本组件
3.4 Hadoop生态圈的其他组件
3.5 Hadoop与数据仓库
3.6 小结
第4章 安装Hadoop  
4.1 Hadoop主要发行版本
4.2 安装Apache Hadoop
4.3 配置HDFS Federation
4.4 离线安装CDH及其所需的服务
4.5 小结
第5章 Kettle与Hadoop
5.1 Kettle概述
5.2 Kettle连接Hadoop
5.3 导出导入Hadoop集群数据
5.4 执行Hive的HiveQL语句
5.5 MapReduce转换示例
5.6 Kettle提交Spark作业
5.7 小结
第6章 建立数据仓库示例模型
6.1 业务场景
6.2 Hive相关配置
6.3 Hive表分类1.管理表
6.4 向Hive表装载数据
6.5 建立数据库表
6.6 装载日期维度数据
6.7 小结
第7章 数据抽取
7.1 逻辑数据映射
7.2 数据抽取方式
7.3 导出成文本文件
7.4 分布式查询
7.5 使用Sqoop抽取数据
7.6 小结
第8章 数据转换与装载
8.1 数据清洗
8.2 Hive简介
8.3 初始装载
8.4 定期装载
8.5 Hive优化
8.6 小结
第9章 定期自动执行ETL作业
9.1 crontab
9.2 Oozie简介
9.3 建立定期装载工作流
9.4 建立协调器作业定期自动执行工作流
9.5 Oozie优化
9.6 小结
第10章 维度表技术
10.1 增加列
10.2 维度子集
10.3 角色扮演维度
10.4 层次维度
10.5 退化维度
10.6 杂项维度
10.7 维度合并
10.8 分段维度
10.9 小结
第11章 事实表技术
11.1 事实表概述
11.2 周期快照
11.3 累积快照
11.4 无事实的事实表
11.5 迟到的事实
11.6 累积度量
11.7 小结
第12章 联机分析处理
12.1 联机分析处理简介
12.2 Impala简介
12.3 Hive、SparkSQL、Impala比较
12.4 联机分析处理实例
12.5 Apache Kylin与OLAP
12.6 小结
第13章 数据可视化
13.1 数据可视化简介
13.2 Hue简介
13.3 Zeppelin简介
13.4 Hue、Zeppelin比较
13.5 数据可视化实例
13.6 小结
精彩书摘
  对于每一种技术,先要理解相关的概念和它之所以出现的原因,这对于我们继续深入学习其技术细节大有裨益。本章将介绍数据仓库的定义,它和传统操作型数据库应用的区别,以及为什么我们需要数据仓库。
  在对数据仓库的概念有了一个基本的认识后,向读者介绍四种常见的数据仓库架构,然后说明ETL这个重要的数据仓库概念。本章最后概要介绍对于一个数据仓库的基本需求和数据需求。
  数据仓库的概念可以追溯到20世纪80年代,当时IBM的研究人员开发出了“商业数据仓库”。本质上,数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。数据仓库概念的提出,是为了解决和这个数据流相关的各种问题,主要是解决多重数据复制带来的高成本问题。在没有数据仓库的时代,需要大量的冗余数据来支撑多个决策支持环境。在大组织里,多个决策支持环境独立运作是典型的情况。尽管每个环境服务于不同的用户,但这些环境经常需要大量相同的数据。处理过程收集、清洗、整合来自多个数据源的数据,并为每个决策支持环境做部分数据复制。数据源通常是早已存在的操作型系统,很多是遗留系统。此外,当一个新的决策支持环境形成时,操作型系统的数据经常被再次复用。用户访问这些处理后的数据。
  数据仓库之父Bill Inmon在1991年出版的Building the Data Warehouse一书中首次提出了被广为认可的数据仓库定义。Inmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。这个定义有些复杂并且难以理解。下面我们将它分解开来进行说明。
  面向主题
  传统的操作型系统是围绕组织的功能性应用进行组织的,而数据仓库是面向主题的。主题是一个抽象概念,简单地说就是与业务相关的数据的类别,每一个主题基本对应一个宏观的分析领域。数据仓库被设计成辅助人们分析数据。例如,一个公司要分析销售数据,就可以建立一个专注于销售的数据仓库,使用这个数据仓库,就可以回答类似于“去年谁是我们这款产品的最佳用户”这样的问题。这个场景下的销售,就是一个数据主题,而这种通过划分主题定义数据仓库的能力,就使得数据仓库是面向主题的。主题域是对某个主题进行分析后确定的主题的边界,如客户、销售、产品都是主题域的例子。
精彩插图