正版大数据Hive离线计算开发实战+Hadoop大数据开发实战书pdf下载

正版大数据Hive离线计算开发实战百度网盘pdf下载

作者:
简介:正版大数据Hive离线计算开发实战+Hadoop大数据开发实战书
出版社:
出版时间:2019-02
pdf下载价格:9.00¥


预览


内容介绍




9787115448088 9787115502179


大数据Hive离线计算开发实战

本书从数据处理平台数据库和数据仓库入手,帮助读者逐步搭建大数据Hive数据仓库平台,并介绍了这种传统数据分析方法在大数据平台成功应用的典型案例。本书通过对Hive数据定义语言、Hive数据纵语言、Hive数据基本查询、Hive数据复杂查询的详细介绍,全面阐述了Hive大数据平台工具的应用与开发。另外,还介绍了Hive数据库对象、用户自定义函数以及Azkaban工作流作业调度器,帮助读者掌握Hive平台的强大功能和特性。*后,通过电商、汽车销售数据分析以及微博数据分析3个实战开发项目案例,让读者对Hive大数据平台数据仓库工具的实战应用有更深的理解。




杨力,原北大青鸟学术部经理兼教学总监,中信国安创客霸王课特聘*级讲师,现任北京兄弟连IT教育大数据专家级讲师,一直从事大数据方向,是大数据领域专家,*深顾问,致力于大数据技术的推广与普及,拥有Apache Hadoop、Oracle OCM等多项产品的技术认证证书。曾创立国内&家大数据校企合作大数据实验室平台,现已推广到全国高校,助力高校大数据学科的建设和研究,对国内大中型企业的信息设计与实施有丰富的实践经验。曾在一线任职新奥集团大数据平台&席架构师,京东万象大数据平台缔造人之一,二六三网络通信反垃圾邮件数据平台项目经理、中信银行网银数据平台技术经理等要职。




01章 数据仓库基础 1
1.1 数据处理平台 1
1.2 数据库 2
1.3 关系型数据库 2
1.3.1 数据库三范式 3
1.3.2 数据库事务 6
1.3.3 数据库设计理念 7
1.4 数据仓库 7
1.4.1 无数据仓库的时代 7
1.4.2 数据仓库的发展 8
1.5 数据仓库设计理念 9
1.6 数据库与数据仓库的不同 10
1.7 本章总结 11
1.8 本章习题 11
02章 Hive安装部署 12
2.1 Hive基本概念 12
2.1.1 Hive简介 12
2.1.2 Hive设计特性 13
2.1.3 Hive与传统数据库的对比 14
2.2 Hive安装部署 14
2.3 安装配置MySQL 16
2.4 配置启动Hive 22
2.5 Hive常用内部命令 26
2.6 Hive数据类型 27
2.6.1 Hive基本数据类型 28
2.6.2 Hive集合数据类型 30
2.7 本章总结 36
2.8 本章习题 36
03章 Hive数据定义与作 37
3.1 HiveQL数据定义语言 37
3.1.1 创建数据库 38
3.1.2 删除数据库 40
3.1.3 创建表 40
3.1.4 修改表 45
3.1.5 删除表 46
3.1.6 分区表 47
3.2 HiveQL数据作 53
3.2.1 向管理表中装载数据 54
3.2.2 经查询语句向表中插入数据 54
3.2.3 单个查询语句中创建表并加载数据 55
3.2.4 导入数据 55
3.2.5 导出数据 56
3.3 本章总结 56
3.4 本章习题 57
04章 HiveQL数据查询基础 58
4.1 HiveQL数据查询语句 58
4.1.1 SELECT语句 58
4.1.2 WHERE语句 59
4.1.3 GROUP BY语句 60
4.1.4 HAVING分组筛选 61
4.1.5 ORDER BY 语句和
SORT BY语句 62
4.2 HiveQL连接查询语句 64
4.3 本章总结 70
4.4 本章习题 70
05章 HiveQL数据查询进阶 71
5.1 Hive内置函数 71
5.1.1 数学函数 72
5.1.2 字符函数 74
5.1.3 转换函数 76
5.1.4 日期函数 76
5.1.5 条件函数 77
5.1.6 聚合函数 77
5.2 Hive构建搜索引擎日志数据分析 79
5.2.1 数据预处理(Linu环境) 79
5.2.2 基于Hive构建日志数据的数据仓库 81
5.2.3 数据分析需求(1):条数统计 84
5.2.4 数据分析需求(2):关键词分析 84
5.2.5 数据分析需求(3):UID分析 85
5.2.6 数据分析需求(4):用户行为
分析 86
5.3 Sqoop应用与开发 88
5.3.1 Sqoop简介 89
5.3.2 Sqoop安装部署 89
5.3.3 Sqoop将Hive表中的数据导入MySQL 91
5.4 本章总结 96
5.5 本章习题 96
06章 Hive数据库对象与
用户自定义函数 97
6.1 Hive视图 97
6.1.1 创建视图 98
6.1.2 查看视图 98
6.1.3 视图应用实战 99
6.1.4 删除视图 100
6.2 Hive分桶表 100
6.2.1 创建表 101
6.2.2 插入数据 101
6.3 Hive用户自定义函数 102
6.3.1 用户自定义函数简介 102
6.3.2 UDF应用开发 103
6.4 Hive用户自定义聚合函数 105
6.4.1 用户自定义聚合函数简介 105
6.4.2 UDAF应用开发 105
6.5 本章总结 108
6.6 本章习题 108
07章 Azkaban任务调度器 109
7.1 Azkaban简介 109
7.1.1 Azkaban基本原理 110
7.1.2 Azkaban核心组件 111
7.2 Azkaban安装部署 112
7.2.1 准备工作 112
7.2.2 安装MySQL 112
7.2.3 配置MySQL 113
7.2.4 配置AzkabanWebServer 114
7.2.5 启动AzkabanWebServer
服务器 116
7.2.6 配置AzkabanEecutorServer 116
7.2.7 启动AzkabanEecutorServer
执行服务器 117
7.2.8 登录访问WebServer并创建
工作流调度项目 117
7.3 Hadoop作业的设置与书写 119
7.4 Hive作业的设置与书写 128
7.5 本章总结 130
7.6 本章习题 131
08章 电商开发实战 132
8.1 构建数据仓库 132
8.1.1 创建数据仓库 133
8.1.2 创建原始数据表 134
8.1.3 加载数据到数据仓库 136
8.1.4 验证数据结果 136
8.2 数据清洗 139
8.2.1 创建临时表 139
8.2.2 数据清洗详细步骤 140
8.2.3 验证清洗 143
8.3算法实现 144
8.3.1 Mahout安装部署 144
8.3.2 itembase协同过滤算法 147
8.3.3 路径准备 148
8.3.4 运行算法 150
8.3.5 查看结果 151
8.4 数据ETL 152
8.4.1 获取数据 152
8.4.2 创建数据库和表 152
8.4.3 加载数据 153
8.4.4 验证ETL过程 153
8.5 本章总结 155
8.6 本章习题 156
09章 汽车销售数据分析
实战开发 157
9.1 数据概况 157
9.2 项目实战 158
9.2.1 构建数据仓库 158
9.2.2 创建原始数据表 159
9.2.3 加载数据到数据仓库 161
9.2.4 验证数据结果 161
9.2.5 统计乘用车辆和商用车辆的
销售数量和销售数量占比 162
9.2.6 统计山西省2013年每个月的
汽车销售数量的比例 162
9.2.7 统计买车的男女比例及男女对车的
*牌的选择 163
9.2.8 统计车的所有权、车辆型号和
车辆类型 165
9.2.9 统计不同类型车在一个月(对应一段
时间,如每月或每年)的总销量 167
9.2.10 通过不同类型(*牌)车销售情况,
来统计发动机型号和燃料种类 168
9.2.11 统计五菱某一年每月的销售量 168
9.3 本章总结 169
9.4 本章习题 169
10章 新浪微博数据分析
实战开发 170
10.1 数据概况 170
10.1.1 数据参数 170
10.1.2 数据类型 171
10.2 项目实战 172
10.2.1 组织数据 172
10.2.2 统计需求 174
10.2.3 特殊需求 179
10.2.4 数据ETL 182
10.3 本章总结 184
10.4 本章习题 184

Hadoop大数据开发实战

内容简介
本书将大数据技术生态圈主流技术框架的应用与发展、搭建Hadoop大数据分布式集平台、大数据分布式文件HDFS(Hadoop Distributed File System)、大数据分布式并行计算框架MapReduce、大数据汽车销售数据统计分析项目5大模块分为11章内容进行阐述。具体分布情况如下:1章是大数据概论,介绍大数据的发展背景及基本概念;2章是搭建Hadoop分布式集;3~6章是HDFS分布式文件入门、HDFS接口、HDFS的运行机制、Hadoop I/O流作;7~10章是初识MapReduce编程模型、MapReduce应用编程开发、MapReduce编程案例、MapReduce运行机制与YARN平台;11章是汽车销售数据统计分析项目实战。本书将理论与实践相结合,介绍了大数据的核心技术,并通过介绍一个企业的开发项目,深入讲解大数据技术在实际工作中的应用。
本书是为所有热爱大数据、打算从事大数据相关工作的读者而编写的,适合有Java编程基础的学习者参考使用,也适合作为高等院校、培训机构的大数据技术教材。

目录
1章 大数据概论 1
1.1 大数据的学习基础 1
1.2 大数据的背景 2
1.3 对大数据的不同认识 2
1.3.1 编程者眼中的大数据 2
1.3.2 营销者和学者眼中的大数据 3
1.3.3 商家看大数据 4
1.4 大数据的行业案例 4
1.4.1 电子地图 4
1.4.2 电子商务——用户画像 5
1.5 大数据的基本概念 6
1.5.1 两个核心 6
1.5.2 分布式存储 6
1.5.3 分布式计算 7
1.6 大数据技术生态圈 7
本章总结 8
本章习题 8
2章 搭建Hadoop分布式集 9
2.1 云平台 9
2.1.1 了解云平台 9
2.1.2 安装VMware软件 9
2.2 安装CentOS 6 10
2.2.1 安装CentOS 6 10
2.2.2 安装中的关键问题 15
2.2.3 克隆HadoopSlave和HadoopSlave1 16
2.2.4 安装SSH客户端传输软件 18
2.2.5 安装Xshell 20
2.3 Linu配置 23
2.4 Hadoop的配置部署 39
本章总结 47
本章习题 47
3章 HDFS入门 48
3.1 Hadoop分布式文件HDFS 48
3.1.1 认识HDFS 48
3.1.2 HDFS的优势 49
3.1.3 HDFS局限性 50
3.1.4 HDFS特性 51
3.2 HDFS核心设计 52
3.2.1 数据块 53
3.2.2 数据块复制 53
3.2.3 数据块副本的存放策略 54
3.2.4 机架感知 55
3.2.5 数据块的备份数 56
3.2.6 安全模式 56
3.2.7 负载均衡 57
3.2.8 心跳机制 60
3.3 HDFS体系结构 60
3.3.1 主从架构 61
3.3.2 核心组件功能 61
3.3.3 数据块损坏处理 63
本章总结 64
本章习题 64
4章 HDFS接口 65
4.1 HDFS命令行接口 65
4.2 HDFS Java接口 67
4.2.1 在Linu虚拟机中安装Eclipse 68
4.2.2 从Hadoop URL读取数据 69
4.2.3 使用FileSystem读取文件 70
4.2.4 FSDataInputStream对象随机读取 71
4.2.5 使用FileSystem写入数据 72
4.2.6 FSDataOutputStream对象批量写入 73
4.2.7 查询文件状态FileStatus 74
4.2.8 创建目录 75
4.2.9 删除文件与目录 76
本章总结 77
本章习题 77
5章 HDFS的运行机制 78
5.1 HDFS中数据流的读写 78
5.1.1 RPC流程 78
5.1.2 RPC实现模型 79
5.1.3 RPC Client主要流程 81
5.1.4 RPC Server实现模型 82
5.1.5 文件读取 83
5.1.6 文件写入 84
5.2 HA机制 85
5.2.1 HDFS的HA机制 85
5.2.2 集节点任务规划 87
5.2.3 初识ZooKeeper 87
5.2.4 安装部署ZooKeeper 89
5.2.5 格式化ZooKeeper集 93
5.2.6 配置Hadoop 94
5.2.7 启动Journalde共享存储集 99
5.2.8 格式化ActiveNamede 100
5.2.9 启动ZooKeeperFailoverController 101
5.2.10 启动ActiveNamede 101
5.2.11 格式化StandbyNamede 102
5.2.12 启动所有Datade节点 102
5.2.13 验证HA的故障自动转移 103
5.3 Federation机制 105
5.3.1 初始HDFS Federation机制 105
5.3.2 HDFS Federation架构原理 106
本章总结 107
本章习题 107
6章 Hadoop I/O流作 108
6.1 数据完整性 108
6.1.1 数据发生 108
6.1.2 数据的检测 109
6.1.3 数据完整性机制 109
6.2 压缩 111
6.2.1 压缩格式 111
6.2.2 Hadoop中对压缩格式的实现Codec 111
6.2.3 压缩格式是否支持切分 114
6.3 序列化 114
6.3.1 序列化简介 114
6.3.2 反序列化 115
6.3.3 序列化的分布式应用 115
6.3.4 初识Hadoop序列化 115
6.3.5 Hadoop序列化实现 116
6.3.6 接口Comparable & Comparator与WritableComparable & WritableComparator 117
6.3.7 Writable类 123
6.4 基于文件的数据结构SequenceFile 125
本章总结 127
本章习题 127
7章 初识MapReduce编程模型 128
7.1 MapReduce编程框架 128
7.1.1 函数式编程模型 128
7.1.2 MapReduce编程模型概念 129
7.1.3 MapReduce的设计目标 130
7.2 WordCount编程实例 130
7.2.1 案例需求 130
7.2.2 搭建开发环境Eclipse 131
7.2.3 代码实现 132
7.2.4 代码测试 135
7.2.5 案例剖析 139
7.3 Hadoop MapReduce架构 141
7.3.1 Hadoop MapReduce架构的基本概念 141
7.3.2 MapReduce架构核心组件 142
本章总结 144
本章习题 144
8章 MapReduce应用编程开发 145
8.1 MapReduce编程开发 145
8.1.1 设计思路 145
8.1.2 搜索引擎数据处理实战 147
8.2 MapReduce在集上的运作 152
8.2.1 打包作业 152
8.2.2 启动作业 154
8.2.3 通过WebUI查看Job状态 154
8.3 MapReduce的类型与格式 155
8.3.1 combiner函数 155
8.3.2 MapReduce框架Partitioner分区方法 157
8.3.3 MapReduce输入格式 158
本章总结 166
本章习题 166
9章 MapReduce编程案例 167
9.1 数据去重 167
9.1.1 实例表述 167
9.1.2 设计思路 168
9.1.3 程序代码 168
9.1.4 代码结果 169
9.2 数据排序 170
9.2.1 实例表述 171
9.2.2 设计思路 171
9.2.3 程序代码 171
9.2.4 代码结果 173
9.3 平均成绩 174
9.3.1 实例表述 174
9.3.2 设计思路 175
9.3.3 程序代码 175
9.3.4 代码结果 177
9.4 多表关联 178
9.4.1 实例表述 178
9.4.2 设计思路 179
9.4.3 程序代码 179
9.4.4 代码结果 181
9.5 二次排序 182
9.5.1 实例描述 182
9.5.2 设计思路 182
9.5.3 程序代码 182
9.5.4 代码结果 185
本章总结 186
本章习题 186
10章 MapReduce运行机制与YARN平台 187
10.1 剖析MapReduce作业运行机制 187
10.1.1 提交作业的方式 187
10.1.2 作业的运行组件 187
10.1.3 作业的运行解析 188
10.2 Shuffle和排序 190
10.2.1 Mapper端 190
10.2.2 Reducer端 193
10.2.3 MapReduce性能调优 196
10.3 任务的执行 197
10.4 作业的调度 199
10.4.1 先进先出调度器 199
10.4.2 公平调度器 199
10.4.3 计算能力调度器 200
10.5 YARN平台简介 200
10.5.1 YARN的诞生 200
10.5.2 YARN的工作原理 200
10.6 YARN平台架构 201
本章总结 204
本章习题 204
11章 汽车销售数据统计分析项目 205
11.1 数据概况 205
11.2 项目实战 206
11.2.1 统计乘用车辆和商用车辆的数量和销售额分布 206
11.2.2 统计某年每个月的汽车销售数量的比例 208
11.2.3 统计某个月份各市区县的汽车销售的数量 210
11.2.4 用户数据市场分析——统计买车的男女比例 213
11.2.5 统计不同所有权、型号和类型汽车的销售数量 216
11.2.6 统计不同车型的用户的年龄和性别 218
11.2.7 统计分析不同车型销售数据 219
11.2.8 通过不同类型(品牌)汽车销售情况统计发动机型号和燃料种类 222
11.2.9 统计同排量不同品牌汽车的销售量 224
本章总结 226
本章习题 226


暂时没有目录,请见谅!

^_^:e1929ce0e424bbf7327d4eb4978d3382