大数据理论与工程实践pdf下载

大数据理论与工程实践百度网盘pdf下载

作者:
简介:大数据理论与工程实践
出版社:人民邮电出版社
出版时间:2018-12-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

编辑推荐
  国际数据管理协会(DAMA)中国分会主席、世界银行前首席技术官胡本立作序推荐!

  东南大学网络空间安全学院执行院长程光博士
  昆仑数据首席执行官陆薇博士
  资深安全研究员、某世界著名软件企业反病毒部门经理冯春
  梦网控股副总裁、原中国移动数据仓库和大数据专家陈炯
  倾情推荐!
内容简介
  本书主要面向架构师,或者是有具体大数据问题需要解决的工程师;也适合从零开始搭建大数据结构,或者需要将现有的非大数据的需求修改成大数据方案的读者。你将从书中学到以下方面的知识:
  ◎数据存储
  ◎计算资源
  ◎计算模型
  ◎大数据应用
  ◎数据治理
  ◎大数据与人工智能
作者简介
  陆 晟 博士
  曾任IBM中国研究院研究员,涉及高性能计算、人机交互、虚拟世界等领域,最早在国内推广云计算相关技术。参与创立过烽火安网公司,创立了北京敏思创想软件技术有限公司。此外,先后担任过VMware主任工程师、品友互动技术工程副总裁、猪八戒网商业基础设施中心高级总监兼大数据事业部总经理等职务。现任美数信息科技公司首席技术官。从1995年开始参与中国教育和科研网的建设工作,并以第六完成人获江苏省科技进步二等奖,以第二作者参与过《计算机网络安全导论》第1版的编著。获得国内外专利授权超过15项。
  刘振川
  长期担任品友互动首席研究员。从事广告行业十余年,历经了国内数字广告从0到1的诞生及发展过程。熟悉广告行业的各个技术模块,主导设计开发广告投放、数据分析、人群画像、算法支撑等系统。目前的研究专注于数字营销的智能决策方向。
  汪关盛
  美数信息科技公司创始人、国际数据管理协会(DAMA)中国分会资深顾问。从事数据行业20多年,曾任职美国银行、毕马威、美国在线、谷歌等公司,担任资深咨询员和首席构架师。1999年成立美数集团公司。2012年起兼任北京交通大学大数据教授,讲授大数据相关的硕士和博士全英文课程。受邀在中国平安、腾讯、阿里巴巴、复旦大学在内的多家国内知名企业和高校做过主题演讲。"
目录
推荐序
序言
前言
第1章 概述
大数据处理的特征
基本处理模型
工程角度的大数据历史
大数据的基本处理框架
大数据的技术实施方法
第2章 数据
数据存储
数据寻址
列式存储
键值对高速缓存
持久化的高速缓存
大数据表
第3章 计算资源
集群总线
资源调度
资源控制
第4章 计算模型
MapReduce
SQL类查询
流式计算
图计算
第5章 大数据应用
搜索信息匹配
搜索信息排名
文档相似性判定
文档主题生成
用户画像
广告投放决策
基数计算
第6章 数据治理
元数据管理
主数据管理
数据标准
数据管理成熟度评估
数据资产
数据治理的组织构架
第7章 大数据和人工智能
大数据和计算机视觉
大数据和语音识别
大数据和博弈
术语表
作者介绍
前言
  前言
  大数据是近年来炙手可热的一个词汇。无论是国家还是企业,都希望从大数据产业的发展中获益,而科学家、工程师们也希望在这个新兴的行业中获得较高的回报。因此,市面上大数据相关的书籍也快速丰富了起来,从概述类的书到具体介绍某项技术的书,应有尽有。而本书则从工程实践和基础理论角度讲述大数据的应用,为不同的大数据应用场景提供了思路。
  目前,在实际应用中,人们往往通过架设Hadoop,以及基于Hadoop生态的各种系统来满足大数据应用需求。然而,不是所有的大数据应用都适合用Hadoop的数据存储方式、系统架构和计算模型。例如,对于高实时性要求或者高并发的应用场景,Hadoop就不适合,因此出现了许多基于Hadoop生态的扩展,以解决某些特定类型的问题。
  近年来,大数据技术一直处于高速发展中,很多两年前非常流行的技术逐渐淡出或者销声匿迹了。作为大数据业务的开创者和领头羊,Google公司从未停止过对技术的改进甚至颠覆,例如将数据存储从GFS发展到了BigTable,也推出了Dremel和Pregel等新的计算框架。这是因为Google的工程师了解需求,也知道这些需求背后的技术原理,懂得根据需求权衡和选择最适合特定需求的技术路线和方案;而不是只有榔头这一个工具,导致看任何问题都像是钉子,而解决问题的手段也只有敲击这一项。
  本书不是大数据技术手册,也不是某种具体技术的说明;而是面对具体应用场景时的技术考虑和权衡。在实际应用中,各类大数据应用方案没有优劣之分,只有适合或不适合的差异。甚至大部分情况下,任何选择都需要付出代价,而针对这种收益和代价的衡量及评估才是本书所关注的。此外,书中也会出现一些具体的示例代码,作者提供这些示例代码,希望体现其背后的原理,即使某段代码采用了特定的语言和系统,也不代表在该场景下推荐使用该语言及语言所依赖的系统。
  本书通过探讨技术原理,帮助读者选择合适的工具,或者自行开发适合自己应用场景的工具,无论这个工具是榔头还是钻子,是刨子还是螺丝刀,甚至是目前还不存在的某种类型的工具。作者团队衷心希望本书能为国内大数据企业建立自己的技术特色和技术优势贡献微薄之力。
  本书目标读者群:主要面向架构师,或者是有具体大数据问题需要解决的工程师;也适合从零开始搭建大数据架构,或者需要将现有的非大数据的需求修改成大数据方案的读者和相关专业学习者。同时,对于那些实际上正从事大数据相关工作而自己并不清楚这一点的个人或企业,本书也能给你们带来启发。
  非本书的目标读者群:希望通过教科书式学习从而掌握大数据的某项具体技术的读者;希望通过一本书就知道大数据是什么,从而可以找到一份大数据工作的人士。
  本书作者都长期从事大数据相关的工作,对于很多具体的技术有自己的看法和独到见解,也真正踩过很多坑。由于应用场景的不同,作者对于技术的理解和认识也可能存在差异。我们希望这本书的推出能够抛砖引玉,涌现出更多精彩著作。
精彩书摘
  随着数据的编码和电子化存储技术的发展,大数据现已变成了一种被广泛运用的技术手段。从单一的照片、到相册、再到相册集、然后到家庭相册、再到千千万万家庭的相册;同理,从单一的文件、到文件目录、到文件系统、再到磁盘阵列……随着不断积累,数据总会朝着与日俱增的方向发展。而随着使用人数和使用场景的增加,数据的增量很快就会超过人力所能处理的范畴。个人拍摄的照片尚可自行处理和筛选,而无处不在的监控就不可能再用人工方式全面地查看了。因此,在一定程度上,各种问题最终都会转化成大数据问题。
  关于大数据意义和作用的文章和著作有很多了,例如,吴军博士在《智能时代》一书中列举了大量生动的例子,我们就不再重复。我们写作本书的目的,是为了说明在工程上使用大数据时的各种具体考量。
  随着数据日积月累,需求的应用场景也会越来越丰富。那么,大数据到底是如何被处理的呢?对很多人来说,大数据只是一个概念,而工程师面对的却是待解决的实际问题。他们需要解决这些问题,至于是不是用大数据的方式,一开始未必就能确定。也许他们一开始并没有意识到需要用大数据。当他们发现:我的天啊!数据怎么这么多!我的程序跑个基本处理竟然要五个小时!这时,就该大数据出马了。
  当你发现,需要解决的问题具备几个共同特征,那么这个问题就可以运用大数据手段去解决。也就是说,这个问题基本上就可以算是大数据问题了。
  我们总结了需要利用大数据技术手段处理的数据的三大特征。
  第一,数据量大。至于数据量大到什么程度才算大数据,并不存在统一的硬性标准。在不同的历史时期和软硬件条件下,数据量标准也是不同的。但不管怎么说,当数据量大到用一台处理器处理不过来、多到用单一存储设备难以存下时,就需要采用大数据手段了。
  第二,数据一般带有时间属性。对有些数据来说,时间是主要属性,例如,在某个时刻的设备状态监控信息。而对另外一些数据来说,虽然时间不是最重要的属性,但也是属性之一,例如,某首歌曲或者某部电影,虽然大家关注的是其内容,但是它们同时也具有产生和被使用的时间属性。
  第三,数据一般具有多个属性维度。单一属性的数据虽然可能量也很大,但是从处理和分析的角度来看,数据往往可以被分为很多详细的属性,而这些属性之间的关联和关系才是最有价值的。例如,监控视频包含的也许都是单一的图像数据,而需要被处理的常常是这些图像被分析之前的元数据以及被分析之后的详细数据。例如,采集视频的时间和采集时的地理位置、图像的分辨率是元数据,而图像分析之后得到的人数、天气情况、是否存在需要关注的异常事件等,就属于含有更详细的维度的信息。
  IBM公司提出大数据有5V特征,分别是大量(Volume)、高速(Velocity)、真实(Veracity)、多样(Variety)和低价值密度(Value),它们可以用来说明大数据的数据量大、需要的处理速度快、对数据质量的追求高,同时数据的来源往往很不同,以及价值密度的高低与数据总量的大小成反比等特性。此外,还有人认为大数据的特征是体量大、可分析的维度多、数据完备性重要,以及数据不能够用传统方式处理。这些特性分析和理解当然是没错的,但从事物的不同角度看,关注的重点、可以进行的分类和得到的结论会不同,因此本书中提出的三项大数据特性更多关注的是大数据项目的实施属性,所以我们也称之为大数据处理的三大特征。
  大数据技术是一种帮助数据实现价值的技术手段。挖掘出数据中的价值,才是大数据的应用目标。大数据技术虽然是新兴的数据处理技术,但它与传统的数据仓库等技术相比,数据处理的核心模型并没有发生多大的变化。以前做过传统的数据仓库管理等工作的人转行做大数据,就会发现后者仅仅是处理步骤对应的技术产生了变化。
  传统的数据类问题的解决可以分为四个基本步骤:数据采集、数据存储、数据分析和数据使用。前三个步骤都很直接,而所谓数据使用则有不同的表现形式:可能是用图表对数据进行展示;也可能是利用分析结果做出某种决策;还有可能带来另一轮的采集、存储、分析、使用过程,即在前一轮分析的基础上对结果进行新一轮处理。以前文提到的监控视频数据为例,第一轮采集的数据可能是视频流本身。这些视频数据和元数据(例如采集时间、采集地点)需要被保存下来,然后根据不同需求做出不同的分析,例如分析其中车辆的信息、车牌号码、是否违章等。至于这些数据的分析结果,可以是按时间统计的车辆通行量的图表;也可以是提交给交通管理部门的违章信息;还可以根据不同时间和不同位置的通行情况进一步分析车辆,从而画出车辆的运行轨迹图,或者分析道路拥堵情况。
  这四个步骤也构成了大数据处理的基本模型(如图1-1所示)。
精彩插图