正版全新  大数据平台架构与原型实现:数据中台建设实战pdf下载

正版全新 大数据平台架构与原型实现:数据中台建设实战百度网盘pdf下载

作者:
简介:正版全新 大数据平台架构与原型实现:数据中台建设实战
出版社:
出版时间:2020-07
pdf下载价格:9.00¥


预览


内容介绍

编辑

适读人群 :在这个时代,我们不见得要自己搭建整个平台,但是了解原理可以让自己工作起来事半功倍,不管是自己搭建,还是利用成熟平台,懂得理论,明白实践,再开始实践就会胸有成竹、游刃有余。

★ 数据中台建设工程实战 首著

★ 大数据平台建设脚手架 首著

★ 涵盖建设一个企业数据平台所需各个重要环节

★ 不仅有架构方案、技术选型,还有实现细节

★ 更有作者14年相关从业经验的总结

★ 以及长达3年的对本书内容的雕琢

★ 书中的知识和见解可以复用于很多企业

★ 丰富翔实的原型代码是一份宝贵的“礼物”

★ 这是一本多年大数据平台建设的总结之作

★ 也是一本数据中台工程建设实践指导之作

★ 可以说是整个数据行业的“宝贵财富”

★ 不同的读者都将从本书中获益匪浅

★ 架构师:可提升对大数据平台的整体把控力

★ 中开发人员:可深入学习原型项目代码

★ CIO或数据团队的负责人:可参考数据中台战略、

规划数据平台蓝图及组建数据团队

在这个时代,我们不见得要自己搭建整个平台,但是了解原理可以让自己工作起来事半功倍,不管是自己搭建,还是利用成熟平台,懂得理论,明白实践,再开始实践就会胸有成竹、游刃有余。


内容简介

目前,在基于大数据技术的数据中台建设过程中,由于缺乏完备的架构参考和类似于“脚手架”的原型项目,很多IT团队会在工程技术层面上感到无从下手。开发人员迫切地需要设计良好的架构参考和简单易用的原型项目帮助他们快速启动自己的数据中台建设,本书就是为这一目标而写作的。

本书以大数据平台的架构设计为主题,围绕一个2万行源代码的原型项目讲解和演示如何在工程技术层面构建当下流行的数据中台。全书涵盖建设一个企业数据平台所需的各个重要环节,包括基础设施建设、数据采集、主数据管理、实时计算、批处理与数据仓库、数据存储及作业调度,每个环节独立成章,每一章介绍对应主题的架构方案和技术选型,然后结合原型项目讲解具体的实现细节。

如果你是一位架构师,本书可以帮助你提升对大数据平台的整体把控力;如果你是中开发人员,建议你选择自己感兴趣的章节深入学习原型项目的代码;如果你是企业的CIO或数据团队的负责人,本书的第1、2、4章对于你定制企业数据中台战略、规划数据平台蓝图及组建数据团队都有重要的参考价值。


作者简介

★耿立超

架构师,拥有14年IT开发和架构经验,在大数据、企业级应用架构、SaaS、分布式存储和领域驱动设计等方面都有丰富的实践经验,热衷于函数式编程。

目前负责企业数据中台的架构设计和开发工作,对Hadoop和Spark生态有深入和广泛的了解,参与过Hadoop商业发行版的开发,曾带领团队开发过多个基于大数据技术的企业数据平台,完成包含数据采集、数据仓库、实时处理和数据服务的完整平台建设。


精彩书评

这本书的架构理论、方案和一些重要建议都经过了实践检验,并取得了良好的效果,我相信书中的知识和见解可以复用于很多企业,帮助他们打破信息孤岛,将线上与线下渠道连接在一起,为消费者提供更佳的用户体验,并帮助企业在激烈的市场竞争中迅速而敏捷地捕捉商机。

——欧莱雅集团亚太区首席信息官 Rita Lau

本书涵盖了大数据平台建设的全部环节,通读下来,整体上实操性很强,架构原理融于了工程原型的搭建过程,对于希望自己动手实践的读者会很有帮助,同时在操作步骤中介绍了相应的逻辑及设计,有利于读者更好地领会背后的原理。在这个时代,我们不见得要自己搭建整个平台,但是了解原理可以让自己工作起来事半功倍,不管是自己搭建,还是利用成熟平台,懂得理论,明白实践,再开始在企业中搭建数据驱动内部经营的完善体系就会胸有成竹、游刃有余。

——彩食鲜CTO、鲲鹏会荣誉导师、苏宁科技集团原副总裁 乔新亮

这本书的理论基础扎实,架构方案完备,更难能可贵的是它还有丰富翔实的原型代码供读者参考和学习,这对很多读者来说是一份宝贵的“礼物”,而作为企业的CTO,这本书给我的除技术外,它还对企业的数据战略和中台架构做了精彩的论述,对很多企业构建数据中台都有指导意义。这是一本很有诚意、干货满满的书,不仅对程序员、架构师有帮助,也适合CIO、CTO参考。

——华住集团技术副总裁及盟广CTO 王晓光

数据中台的概念满天飞,但是数据中台的落地始终是一个难点,很难统一。将数据中台的核心通用组件抽象出来,一步步地指导企业如何去构建,这会是数据中台领域的下一个课题。这本书率先在这一方向上进行了阐述,它从数据中台的概念出发,快速落地到实践指导层面,讲解如何从零开始构建数据中台的核心组件。这是一本靠“坚实的”实践积累出来的好书!

——精益数据体系创始人、ThoughtWorks数据智能总经理 史凯

在进行各类数据分析时,都离不开强大而完善的大数据平台。然而常规的IT数据团队对于业务方的需求及数据应用不甚了解,这本书对数据工程师有很大的参考价值,可以帮助他们对大数据平台有一个全面的认识,了解数据从获取到产出为分析结果这一过程中发生的事情,以便更好地与业务部门协作,实现大数据赋能。

——欧莱雅(中国)有限公司大众化妆品部大数据总监 唐雯

本书作者曾经分享过很多在中台落地过程中遇到的问题及解决方案,这些在我们搭建营销相关的业务中台过程中很有启示作用。在每日交易数据的中台建设过程中,我们深刻地体会到数据中台在数据驱动创新方面的价值。本书详细介绍了数据中台的技术选型和架构方案,以及落地过程中的一些关键要素。希望本书能够帮助读者快速搭建自己企业的数据中台,为业务发展助力。

——饿了么营销中台架构师 宋艳飞

本书作者是一位深耕于大数据领域,并一直奋战在一线编写代码的架构师,作者凭借自身十多年的设计和研发经验,归纳总结出了这本通俗易懂的大数据架构和技术书籍。内容从企业数据战略规划到架构方案设计与技术选型,并从开发人员的实际需要出发给出了详细的工程代码,可以说,从理论到实战都进行了而细致的讲解。

——埃森哲(中国)有限公司技术架构经理 张俊

这是一本富有实战色彩的大数据新作,汇聚了作者宝贵的经验与独到的观点。本书涵盖的知识与内容非常丰富,并呈纵深化结构,除技术内容外,还包括与大数据平台配套的人才能力、组织架构与管理方法论,适合不同级别的读者。

——希尔顿酒店集团亚太区数据保护官、信息隐私专家协会上海分会前主席 李宵声


目录


精彩书摘

2.6.3 数据中台建设策略

数据中台是企业的一个战略性的基础设施,建设周期长,牵涉范围广,从过去的实践中我们总结了一些宝贵的经验,作为中台的建设策略分享给读者。数据中台的建设可以分为三个阶段,如图2-12所示。

l 起步阶段:搭建基础设施;

l 积累阶段:汇集数据,确立数据中台的核心地位;

l 发力阶段:基于丰富的数据集和完善的分析模型,产出大量有价值的分析结果,推动业务增长。


下面来分别看一下每个阶段要做的事情和注意事项。

1.起步阶段

起步阶段的首要工作是进行基础设施建设,包括服务器的采购、安装和配置,网络规划,集群搭建,各类工具的安装和调试,资源和权限配置等。自建的IT团队通常会自行完成这些工作,使用供应商模式的甲方公司可以通过一个大数据项目完成初始的基础设施建设工作。当然,也有的企业会选择使用云上的大数据PaaS服务,直接跳过基础设施的建设和维护工作。

在有了大数据集群之后,需要通过一个到几个项目来验证平台的各项组件和服务是否能满足业务需求,对于在平台上工作的团队和个人来说也是一个熟悉和磨合的过程。初始阶段应该使用迭代思想,不断地调整平台的技术堆栈、管理模式,为平台以后的发展壮大积累经验。

2.积累阶段

积累阶段是一个相对艰苦而漫长的过程,数据中台的团队要在这个阶段不断地将企业的各个数据源接入进来,逐渐完善数据中台上的数据版图。中台接入的数据越多、越全,就越能发挥出威力,终的理想状态是企业的全部数据都聚集在中台上,前台的任何数据需求都可以直接或稍做处理即可满足。具体来说,这一阶段需要完成如下工作:

1)广泛对接企业的各个数据源;

2)不断完善数据仓库体系,对企业数据规范管理;

3)不断完善数据服务体系,丰富数据供给的协议和形式;

4)搭建实时处理基础设施,提供部分实时处理服务;

5)搭建人工智能及机器学习基础设施,提供数据分析服务;

6)开始实现部分业务需求,产出业务价值。

3.发力阶段

当数据中台的数据版图足够完善时,就会自然地进入发力阶段,这也是数据中台的收获期,在这一阶段,数据中台的优势会体现得淋漓尽致,基于全面和完善的数据体系和强大灵活的数据分析能力,前台和各业务中心对各种数据的需求都可以通过数据中台满足。前台可以集中精力关注业务层面,快速敏捷地实现新业务功能。在发力阶段,团队需要着重开展如下工作:

1)与业务部门和业务中台紧密合作,深入挖掘业务需求,利用丰富全面的企业数据开展多维度的洞察与分析,对业务决策提供强力支持;

2)深度介入业务的在线处理,通过数据中台的实时处理能力解决应用很难实现的业务需求(如用户积分的实时计算);

3)将数据平台上某些成熟的功能产品化,推广到更多部门和业务场景中。

在发力阶段,中台团队也将被锤炼得更加和成熟,对于所管辖的数据会更加了解,对对接的业务更加熟悉,这也是中台架构培育出的另一项重要资产:的人员和团队。

以上三个阶段是较大时间尺度上的切分,但并不意味着只有前一个阶段彻底完成之后才可以启动后一个阶段的工作,企业可以通过项目的方式驱动数据中台建设,在项目实施过程中可以完成数据采集、处理、存储、分析等一系列工作。每一个阶段又可能会涉及一些基础设施的建设,只要合理地安排好项目计划,有规划、有组织地推进项目开发与平台建设之间的工作,就可以实现长期的战略发展和短期业务需求之间的平衡。另外,数据中台是对既有的改造,在建设过程中会面临新业务需求由谁来实现及新老将如何更迭的问题,对此我们建议的做法是:

让数据中台优先承接新业务,逐步替换老。

意思是说,当有新的业务需求时,如果与原有的关联不是很大,应该优先安排在数据中台上实现,因为这可以让数据中台尽快地产生业务价值,帮助企业建立对数据中台的信心,如果只是一味地迁移遗留的功能,作为一个持续的投入过程,在业务端很难看到ROI,这对于企业决策者和数据中台团队来说压力是很大的,也是不明智的。

后,我们对数据中台做一个简单的总结,数据中台是数据平台发展到现在的的理论模型和技术架构,它以大数据技术作为支撑,提供数据仓库、实时处理、数据服务和一定的人工智能及机器学习能力。我们会在本书接下来的章节中着重讨论数据中台的技术实现,也就是如何构建一个大数据平台。


前言/序言

在当今如火如荼的企业数字化进程中,信息技术发挥的作用越来越重要,IT部门在企业中肩负的责任越来越重大。过去,IT部门通常被归入企业的成本中心,从硬件资源到软件许可,从项目研发到产品采购,企业一直被动地在信息化建设上进行投入。而伴随着数字化浪潮和大数据时代的来临,信息技术已经逐渐转变为驱动企业运营和创新的核心动力之一,在业务流程优化、面向终端消费者的数字化转型,以及提升服务质量、改善用户体验方面都发挥着不可替代的作用。作为企业中兼具技术背景和业务知识的团队,IT部门正从以往的业务支持与技术咨询的角色向业务战略合作伙伴的角色转变,凭借自身独特的优势,IT部门在未来将转变为企业的业务价值创造中心,在电子商务、互联网营销和新零售等新兴业态和商业模式中扮演更加主动的角色。

现代企业的IT生态大体上可以分为应用和数据两大组成部分。过去,核心的业务几乎无一例外都是应用,这些帮助企业维持日常运营,一直是IT部门的工作重心,而数据往往处于“后端”的位置上。一方面数据需要依赖应用生成的业务数据,另一方面传统数据主要提供报表服务,并不直接参与业务流程。然而近几年,随着企业数据的爆炸式增长,以及大数据与人工智能的普及和推广,越来越多的企业意识到“数据”对企业的重要性。一方面,企业和业务部门越来越需要准确、及时甚至带有预见性的数据分析帮助他们做出业务决策;另一方面,以大数据和人工智能为代表的新兴技术正在向业务领域深度融合,将从数据中汲取的重要业务价值直接反哺到业务运营中(用户画像就是这一趋势的典型案例)。这些因素促使很多决策者将建设“数据驱动型”企业作为企业的战略目标之一,进而加大在数据领域的投入,也促使IT部门开启了新一代数据平台的建设工作。

目前,新一代数据平台均以大数据和人工智能作为核心技术支撑,在方法论上,数据中台理论则是现在行业内讨论为热烈的话题,这些理论和技术体系庞大而复杂,需要的人才和团队进行建设和管理,其中很多工作充满挑战,对IT部门和企业来讲都是开创性的,很难找到先例借鉴和参考,也正因为如此,在这一过程中积累的经验和佳实践才是非常宝贵的。这本书的架构理论、方案和一些重要建议都经过了实践的检验,并取得了良好的效果,我相信书中的知识和见解可以复用于很多企业,帮助他们打破信息孤岛,将线上与线下渠道连接在一起,为消费者提供更佳的用户体验,并帮助企业在激烈的市场竞争中迅速而敏捷地捕捉商机。

欧莱雅集团亚太区首席信息官

Rita Lau


前 言

2008年,Hadoop成为Apache的项目,以此为开端,大数据技术迎来了十多年的持续发展,其间随着Spark的异军突起,整个大数据生态圈又经历了一次“装备升级”,变得更加完善和强大。在这一进程中,企业数据平台的设计理念也在不断进化,从初的“数据仓库”到后来的“数据湖”,再到的“数据中台”,方法论革新的背后是大数据技术的强力支撑。,很多企业已经完成了早期对大数据技术的尝试和探索转而进入应用阶段,在实际的工程建设中,IT团队遇到了很多问题和挑战,有的团队在摸索中积累了一些有价值的经验,有的则走了一些弯路,付出了或大或小的代价。

总的来说,大数据的整体架构和工程方案在业界还没有锤炼到像Java社区的企业级应用那样成熟,在Java社区不但有完备的架构理论和模型,更有基于这些理论沉淀下来的标准工程模板,以前有Appfuse,后来有Spring Boot,这些被称为“脚手架”的原型工具极大地方便了Java的企业级应用开发,促进了行业技术架构和工程标准的统一。在大数据领域,开发者们也在迫切地寻求成熟的架构方案和类似于“脚手架”的原型项目帮助他们快速构建自己的企业数据平台,本书就是为这一目标而写作的。

作为本书的作者,我曾经参与过多个大数据平台的设计和开发工作,在长期的工作中积累了一些值得分享的宝贵经验。同时,作为一名坚持在一线编写代码的架构师,我还会在项目初期为团队搭建工程原型,在经过多个项目的优化和提炼之后积累了一套成熟通用的原型方案,本书讲解的原型正是由此而来的。它不仅仅是这本书的示例代码,更是一个能应用于实际项目中的“脚手架”,其源代码具有很高的参考性和可移植性,将虚拟的业务逻辑抽离之后能很容易地应用到实际项目中,以帮助团队快速启动开发工作。在本书中我会把大数据平台的架构设计和原型的具体实现结合在一起讲解,希望能帮助读者有效地学习大数据平台的设计方法和各项技术。

本书涵盖大数据平台建设的各个重要环节,包括基础设施建设、数据采集、主数据管理、实时计算、批处理与数据仓库、数据存储和作业调度等,每个环节独立成章,每一章会介绍相应主题的架构方案和技术选型,然后结合原型项目讲解具体的实现细节。由于大数据涉及的技术众多,而本书讨论的又是平台级的架构和实现,无法就每一项技术都深入展开,所以本书的读者需要具备一定的大数据知识和技术背景。如果你是一位架构师,这本书可以帮助你提升对大数据平台的整体把控力;如果你是中开发人员,建议你选择自己感兴趣的章节深入学习原型项目代码;如果你是企业的CIO或数据团队的负责人,本书的第1、2、4章对于你定制企业数据战略、规划数据平台蓝图及组建数据团队都有重要的参考价值。

本书讲解使用的原型项目已经在GitHub上开源(购买本书后可查看)。它是一个基于Maven构建的多模块项目,每个模块对应大数据平台上的一个重要环节,同时对应本书的一个具体章节,但与很多计算机图书不同的是,这些模块不是琐碎示例代码的集合,而是在一个统一业务背景下分工协作的标准项目,是一个完备的大数据平台原型。

后,给购买本书的读者一条诚恳的建议:“Get your hands dirty!代码先行!”这是能学到本书精髓好的方法。


^_^:4d667b6abef62871d1ddfb0ac1aa53ff