语
数据中台在很多企业已经得到了较好的实践并产生了巨大的收益。随着机器学习,特别是深度学习的快速发展和工业化落地,通过对算法技术与大数据技术进行统一的规划和建设,我们能够将传统的数据中台升华为智能数据中台,并进一步赋能给前台业务来进行智能化改造。本书对于智能数据中台着墨甚多,内容非常全面,从大数据的线下(offline)处理,过渡到近线(near-line)半实时模型更新,再到在线(online)实时服务,对相关解决方案进行了全景式的解析。更为难得的是,作者还介绍了在中美企业的亲身经历和成功实践,这些内容具有高度的可借鉴性,强烈建议互联网行业的广大从业人员阅读。
SHAREit合伙人、COO 王超
强大的中台是互联网公司的核心竞争力。本书内容由浅入深,从基础架构到核心算法,从理论到实践,再结合作者多年在Google、Facebook和新浪微博的工作经验,是难得的技术指南。
Facebook信息流中台负责人 毛昀
在这个人工智能蓬勃发展的时代,一个可靠、可延展、易用的中台,对于大规模数据的处理、建模、预测及业务发展至关重要。本书深入浅出地介绍了算法和数据中台的核心基础,同时结合作者在国内外一线互联网公司的实际工作经验,地讲解了中台的搭建。从业者通读本书,既能够获取关于中台的基础知识,也能够得到有益的启发和有针对性的经验。
Uber Eats技术负责人 吕飞
本书有别于市场上众多的数据中台类图书,是一本关于算法与数据中台技术的“百科全书”,内容包括中台技术的基础设施、在线算法服务、机器学习平台、分布式数据库、大数据平台,还有具体的实践案例。本书包罗万象,讲解深入浅出,是算法与数据中台技术研发人员的参考指南。
Google DoubleClick视频广告技术中台负责人 朱祖韬
以大数据为核心的数据技术早已对各行各业的发展产生了巨大的推动作用。近年来,随着机器学习,特别是深度学习的蓬勃发展和工业化落地,我们已然从大数据时代进入了数据智能时代。本书对数据技术和算法技术,以及背后的中台建设和实践案例进行了深入探讨与剖析,是一本颇具指导价值和内容稀缺性的佳作。
网易前技术副总裁、Strava CTO 刘彦东
本书有别于目前市面上已有的数据中台或技术中台相关著作,作者将机器学习算法和数据技术作为一个有机整体进行了解读,并在剖析具体案例的基础上介绍了 Google、Facebook 和新浪微博等知名互联网公司的实践经验,这些内容是相当有洞见的。特此给互联网行业的从业者及对中台技术感兴趣的读者。
北京大学计算机系研究员 许辰人
技术中台化已成为很多行业的潮流。本书介绍了算法与数据中台的技术架构和算法原理,展示了多家一线互联网公司的架构方案,为中台技术体系搭建提供了宝贵的参考。
好未来教育集团AI平台负责人、算法科学家 杨非
机器学习技术,以及支撑其发展的数据处理技术,早已在诸多领域发挥了不可替代的作用。正如本书中所述,通过技术沉淀及数据整合,通用的算法能力和数据能力可以被复用到诸多不同的业务场景当中并产生巨大的收益。本书翔实地介绍了中台建设的背景和意义,并对与算法和数据相关的中台建设实践进行了深入探讨,这些技术要点和实践经验颇具代表意义,相信读者能从中获得启发。
快手副总裁、短视频负责人 连乔
人工智能应用及其背后的算法、技术,在人们生产生活的各个场景中变得愈发重要。小到智能手机里的人脸解锁,大到智慧或者智慧工厂,都有它们的身影。本书充分结合国内外知名互联网企业的实践,围绕算法技术和数据技术进行了详尽探讨,为从业者提供了可借鉴的经验。
商汤科技副总裁 张少霆
中台概念在互联网公司中正日益普及。然而,构建实用化的数据中台和超大规模的机器学习中台并非易事,它对设计者及开发者的算法和工程能力要求很高。本书从算法和工程等多个维度翔实地介绍了如何设计实用化的大规模机器学习中台、数据中台,以及中外一线互联网公司的实践。作者在大规模机器学习构建方面具备非常丰富的实践经验,所以本书体现出算法与工程并重、理论与实践兼顾的特点,这是很难得的,在此诚挚向大家此书。
新浪微博AI Lab机器学习团队负责人 张俊林
大部分互联网企业都会依存于数据,无论是从数据到洞见,指导业务的发展方向,还是从数据到算法,优化用户价值漏斗。为了积累和提升这些能力,很多发展到一定阶段的企业,都会选择把核心的数据和算法能力沉淀到中台。如何建立中台能力?本书凝聚了国内外互联网企业的经验,为读者回答了这个问题并提供了宝贵的经验。
滴滴总监 郭飞
随着海量数据在各行各业的飞速积累,大数据和算法中台相关技术在很多行业应用中产生了很大影响。本书不仅介绍了与大数据和算法中台技术相关的基础知识与,难得的是,还详细描述了其在互联网行业不同场景下的实践,对于那些希望了解中台技术的相关在校学生和行业从业者,本书是非常难得的学习材料。
腾讯AI Lab机器学习中心总监 黄俊洲
本书每一章都可以独立成篇,各章之间从基础到应用循序渐进,内容既全面又相对独立。作者集合其多年在中美大公司的开发经验倾力打造,本书定将成为该领域中一本不可或缺的技术指南。
美国特拉华大学计算机与信息科学系助理教授 彭曦
数据智能正在从特权变为普惠,如何让业务智能化是每个公司都面临的挑战。本书化阐述了算法、算法平台、数据库和大数据平台,并且通过在业界的广告等中的实践详细解释了中台的应用。相信这些典型会给读者带来启发,开启产品的智能之门。
研究员 蒋晓伟
作者以其在知名互联网企业的亲身体验和深厚的技术底蕴,展现了理论与实践的结合。本书地刻画了一个个经典的实践案例,深入浅出地介绍了算法和数据中台技术在当今互联网科技企业中的应用与发展,是了解算法和数据中台技术及其应用的佳作。
太平人寿CIO、谷歌及贝尔实验室前科学家 熊明
算法和数据对于许多互联网公司来说不可或缺,它们是众多产品和业务进行智能化升级的重要支撑。本书翔实地阐述了算法和数据之间的紧密关系,并依据作者多年在世界互联网公司的工作经验,对中台建设方案和相关实践案例进行了深入探讨。这些内容具有高度的借鉴意义和启发性,相信读者在阅读之后能够从中获得新的感悟,并因地制宜地将相关技术和经验应用到实际的项目开发当中。
Facebook Ads分发技术负责人 潘科
序
数据智能作为新基建中的核心领域,具备的变革能力,它正在对现有的生产生活方式、商业模式甚至经济结构产生着巨大的推动作用。算法技术与数据技术的深度结合是实现数据智能的基础。以机器学习为代表的人工智能,逐渐发展成为当今为主流和影响力的算法技术。它不仅在、搜索和广告等经典的互联网业务中地证明了自己的价值,而且在解决现实生产和生活中的实际问题上,也逐渐彰显出了不可替代的巨大能力。在机器学习被不断地实践和应用的过程中,数据技术特别是大数据领域的相关技术,也取得了长足进步,并成为机器学习算法赖以生存的土壤。数据智能领域的技术进步,和互联网本身的蓬勃发展是密不可分的,两者相互促进,相辅相成。技术的进步不仅可以为已有互联网产品的智能化升级和改造进行赋能,它也是许多新兴互联网业务得以开展的基石,而互联网的发展则为算法技术与数据技术的实践和进化提供了广阔的舞台。
新浪微博作为大的中文社交媒体平台,不仅具有海量的用户规模和平台内容,而且具有社交性和媒体性这两大突出特点。面对不断增长的博文信息及愈加丰富的用户行为,新浪微博一直以来都致力于利用数据技术和算法技术来驱动业务发展和产品迭代。在多年的中台建设过程中,微博平台已经基本实现了数据的共享及通用能力的复用。当下,无论是微博流、视频和微博热搜等用户产品,还是粉丝通和粉丝头条等广告产品,都离不开技术中台的强有力支持。特别地,在中台建设过程中沉淀下来的数据技术和算法技术,已经成为各个产品和业务进行智能化升级和个性化改造的核心推动力。
本书作者充分结合了中外知名互联网企业的实践经验,对较为通用的算法技术、数据技术,以及背后的中台建设历程进行了较为详尽的介绍和总结。在此基础上,本书还对、计算广告,以及本地生活服务这三个经典互联网业务中的实际产品进行了案例剖析,这些内容颇具实践价值和指导意义。本书文笔流畅,具有广阔的技术视野,内容颇具深度,是一本的参考读物,特此给互联网以及信息产业的相关从业人员。
——新浪微博CTO 刘子正
前言
成书背景
在中美各大互联网企业的中台战略实施过程中,人们对中台建设的目标逐步形成了原则性共识。大家普遍希望通过中台战略来实现数据整合、技术沉淀、能力共享和功能复用,并期望以此为切入点来引领组织架构的升级和重塑,从而大幅度提高研发效率、执行效率、组织效率和决策效率。毫无疑问,一个可靠且强大的中台可以为各种前台业务进行赋能,以便支撑它们进行快速试错、快速决策和能力提升。
在纷繁复杂的技术中台体系里,算法中台和数据中台是紧密联系的。算法对于挖掘数据的内在规律并充分发挥数据的潜在价值有着决定性意义,而数据又决定了算法的效果上限,并且大部分算法的生产过程离不开数据计算平台的有力支撑。由此可见,将算法中台与数据中台作为一个有机整体来进行技术规划、技术建设和实际应用具有充足的合理性和非凡的现实意义,这既是许多知名互联网公司的实践方式,也是本书创作的初衷和意义。
我们在对 Google、Facebook、新浪微博及滴滴出行等多家世界知名互联网企业的具体实践进行总结的基础上,围绕算法与数据中台的功能价值、构建思路、技术体系、实践案例和应用前景进行了深入讲解与剖析。我们建议并殷切希望读者带着思考来进行阅读,从而形成自己对于中台战略以及算法与数据中台的理解,并将书中符合自身需要的经验复用到日常的工作、学习和研究当中。
本书内容
本书分为 3 大部分,共 9 章,全面介绍了算法与数据中台的产生背景、技术体系和实践案例。
第 1 章对互联网企业的中台战略,特别是与算法技术和数据技术相关联的技术中台进行了背景分析和案例简介,并阐明了算法与数据中台的重要价值以及应用前景。
第 2 ~ 6 章对算法与数据中台的技术体系进行了深入剖析,并围绕基础设施平台、在线算法平台、机器学习平台、分布式数据库平台和大数据平台这几个核心的组成部分进行了详尽的技术探讨。
第 7 ~ 9 章选择、计算广告和网约车平台这三个经典的互联网业务场景进行了案例分析,以便通过具体的应用实践来加深读者对于算法与数据中台的理解。
目标读者
? 互联网行业,特别是从事个性化、计算广告、大数据平台及技术中台建设的相关从业人员。作者希望本书能够为业界同行带来一定的感悟和启发,并希望书中部分成功的实践经验可以因地制宜地被推广和应用到更多的日常工作与研究当中。
? 对机器学习、深度学习、大数据和分布式计算感兴趣且有一定理论基础的读者。本书可以帮助这类读者对相关的技术要点和实施方案进行化的梳理,并引导他们对感兴趣的技术话题进行深入学习。
? 计算机的高年级本科生、研究生和博士生。本书具有广阔的技术视野且语言平实,有助于在校学生加深对计算机学科中的相关理论、技术和应用的理解,从而帮助他们构建一套较为完整的知识体系。
交流沟通
算法技术和数据技术的发展可谓日新月异、一日千里,而作者的精力和水平有限,因此本书内容难免有一些纰漏甚至。诚恳地邀请所有读者将阅读过程中所遇到的问题和困惑,以及建设性的改进意见反馈给我们,作者定当在力所能及的范围内时间回复有价值的邮件信息。
邮箱:algo.data.zy@gmail.com
QQ:2515475864
诚恳致谢
成书过程是艰辛的,十分感谢在本书的创作和出版过程中给予帮助、支持和鼓励的所有领导、同事、业界同行以及出版社的工作人员,祝大家心想事成。特别地,感谢毛镭在审稿和校对过程中给予的帮助与支持。
詹盈
中国北京 / 美国纽约
2020 年 7 月