大数据平台架构与原型实现 数据中台建设实战 pdf下载

大数据平台架构与原型实现 数据中台建设实战 百度网盘pdf下载

作者:耿立超
简介:大数据平台架构与原型实现 数据中台建设实战 pdf下载
出版社:电子工业出版社
出版时间:2020-07
pdf下载价格:9.00¥


预览


内容介绍

作  者:耿立超 著

定  价:108

出 版 社:电子工业出版社

出版日期:2020年07月01日

页  数:400

装  帧:平装

ISBN:9787121390449

"★ 数据中台建设工程实战 首著 ★ 大数据平台建设脚手架 首著 ★ 涵盖建设一个企业数据平台所需各个重要环节 ★ 不仅有架构方案、技术选型,还有实现细节 ★ 更有作者14年相关从业经验的总结 ★ 以及长达3年的对本书内容的雕琢 ★ 书中的知识和见解可以复用于很多企业 ★ 丰富翔实的原型系统代码是一份宝贵的“礼物” ★ 这是一本多年大数据平台建设的总结之作 ★ 也是一本数据中台工程建设实践指导之作 ★ 可以说是整个数据行业的“宝贵财富” ★ 不同的读者都将从本书中获益匪浅 等

章 企业与数据1
1.1 数据的价值3
1.2 企业的数据应用能力6
1.3 企业的数据技术成熟度12
1.4 数据团队建设14
1.4.1 大数据人才类型14
1.4.2 数据团队的组织与管理20
1.5 建设数据文化25
第2章 聚焦中台27
2.1 中台简介27
2.2 企业信息系统现状28
2.2.1 点对点式的系统集成29
2.2.2 重复建设30
2.2.3 阻碍业务沉淀与发展31
2.3 烟囱架构案例:会员管理31
2.4 曾经的“救赎”——SOA38
2.5 中台详解41
2.5.1 中台架构42
2.5.2 中台的技术体系46
2.5.3 中台的组织架构48
2.5.4 中台不是“银弹”51
2.6 数据中台52
2.6.1 企业数据资产的现状53
2.6.2 数据中台具备的能力54
2.6.3 数据中台建设策略56
第3章 基础设施60
3.1 集群规划61
3.1.1 集群规模与节点配置61
3.1.2 节点角色分配63
3.2 创建实例与组网65
3.2.1 登录云控制台65
3.2.2 创建专有网络67
3.2.3 创建安全组67
3.2.4 创建实例72
3.2.5 申请弹性公网IP地址78
3.3 安装集群79
3.3.1 软件清单79
3.3.2 环境预配置80
3.3.3 安装Redis86
3.3.4 安装Galera(MySQL集群)87
3.3.5 搭建本地CDH Reitory100
3.3.6 安装Cloudera Manager Server103
3.3.7 安装CDH110
3.3.8 高可用配置114
3.3.9 安装Spark 2117
3.3.10 启用Spark SQL118
3.4 安装单节点集群121
第4章 架构与原型122
4.1 大数据平台架构设计123
4.2 原型项目业务背景127
4.3 原型项目架构方案132
4.4 原型项目工程结构139
4.5 部署原型项目142
4.5.1 配置服务器142
4.5.2 构建与部署151
4.5.3 小化增量部署165
第5章 数据采集167
5.1 技术堆栈与选型168
5.2 需求与概要设计171
5.3 原型项目设计173
5.4 生成dummy数据174
5.5 基于Sqoop的批量导入177
5.5.1 项目原型177
5.5.2 使用Sqoop180
5.5.3 增量导入与全量导入184
5.6 基于Camel的实时采集185
5.6.1 项目原型186
5.6.2 基本的数据采集188
5.6.3 应对采集作业超时193
5.6.4 应对数据延迟就绪197
第6章 主数据管理202
6.1 主数管理据系统的建设策略202
6.2 原型设计204
6.3 项目构建与运行205
6.4 使用主数据209
6.5 围绕主数据进行领域建模209
6.6 主数据在内存数据库中的组织粒度219
第7章 实时计算221
7.1 ETL已死,流计算永存221
7.2 技术堆栈与选型223
7.2.1 Storm223
7.2.2 Spark Streaming225
7.2.3 Flink235
7.2.4 Kafka Stream237
7.2.5 关于选型的考量238
7.3 实时计算需求分析239
7.4 原型项目介绍与构建241
7.5 流计算工程结构243
7.6 集成Kafka245
7.7 集成HBase246
7.8 基于时间窗口的聚合运算252
7.9 自定义状态的流255
7.10 自定义状态的设计260
7.11 Structured Streaming性能相关的参数263
第8章 批处理与数据仓库266
8.1 大数据与数据仓库266
8.2 数据仓库的基本理论267
8.2.1 维度和度量268
8.2.2 事实表和维度表268
8.2.3 维度的基数269
8.2.4 Cube和Cuboid269
8.2.5 星型模型与雪花模型269
8.3 批处理需求分析271
8.4 数据仓库架构272
8.5 原型项目介绍与构建277
8.6 数据仓库工程结构283
8.7 临时数据层的设计与构建285
8.8 源数据层的设计与构建286
8.8.1 数据模型287
8.8.2 建表并处理数据288
8.8.3 SQL黏合与作业提交293
8.8.4 增量导入与全量导入298
8.8.5 源数据层的表分区300
8.8.6 SRC层数据归档300
8.9 明细数据层的设计与构建301
8.9.1 数据模型301
8.9.2 建表并处理数据302
8.9.3 合并增量数据305
8.9.4 SQL参数替换307
8.10 汇总数据层的设计与构建309
8.10.1 数据模型309
8.10.2 建表并处理数据312
8.10.3 构建维度模型314
8.10.4 缓慢变化维度318
8.10.5 2型SCD表320
8.10.6 生成代理主键328
8.10.7 运行示例329
8.11 实现UDF332
第9章 数据存储335
9.1 批处理的数据存储335
9.2 NoSQL数据库概览341
9.3 HBase与Cassandra343
9.4 HBase的Rowkey设计349
9.4.1 “热点”问题与应对策略349
9.4.2 定长处理352
9.4.3 佳实践352
9.5 探索HBase二级索引356
0章 作业调度3
10.1 技术堆栈与选型3
10.2 需求与概要设计365
10.3 工作流的组织策略366
10.4 工程结构370
10.5 项目构建372
10.6 实现工作流375
10.7 实现coordinator381
10.8 部署与提交工作流385
10.9 作业依赖管理389
10.9.1 Oozie的作业依赖管理391
10.9.2 原型项目中的作业依赖394

目前,在基于大数据技术的数据中台建设过程中,由于缺乏完备的架构参考和类似于“脚手架”的原型项目,很多IT团队会在工程技术层面上感到无从下手。开发人员迫切地需要设计良好的架构参考和简单易用的原型项目帮助他们快速启动自己的数据中台建设,本书就是为这一目标而写作的。本书以大数据平台的架构设计为主题,围绕一个2万行源代码的原型项目讲解和演示如何在工程技术层面构建当下流行的数据中台。全书涵盖建设一个企业数据平台所需的各个重要环节,包括基础设施建设、数据采集、主数据管理、实时计算、批处理与数据仓库、数据存储及作业调度,每个环节独立成章,每一章介绍对应主题的架构方案和技术选型,然后结合原型项目讲解具体的实现细节。如果你是一位架构师,本书可以帮助你提升对大数据平台的整体把控力;如果你是中不错开发人员,建议你选择自己感兴趣的章节深入学习原型项目的代码;如果你是企业的CIO或数据团队的负责人,本书的、2、4章等

耿立超 著

"耿立超: 架构师,拥有14年IT系统开发和架构经验,在大数据、企业级应用架构、SaaS、分布式存储和领域驱动设计等方面都有丰富的实践经验,热衷于函数式编程。 目前负责企业数据中台的架构设计和开发工作,对Hadoop和Spark生态系统有深入和广泛的了解,参与过Hadoop商业发行版的开发,曾带领团队开发过多个基于大数据技术的企业数据平台,完成包含数据采集、数据仓库、实时处理和数据服务的完整平台建设。"