本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
阿里巴巴集团专家鼎力推荐,阿里巴巴资深Java开发和大数据专家撰写
结合大量图和示例,对Spark的核心模块、部署和协作模块的实现原理与使用技巧进行了深入的剖析与解读
本书特色:
按照源码分析的习惯设计,条分缕析。
多图、多示例,帮读者快速在头脑中“建模”。
原理与实现剖析,帮助读者提升架构设计、程序设计等方面的能力。
尽可能保留较多的源码,方便离线和移动环境的阅读。
本书对Spark源代码进行了全面而深入的分析,旨在为Spark的优化、定制和扩展提供原理性的指导。阿里巴巴集团专家鼎力推荐,阿里巴巴资深Java开发和大数据专家撰写。本书对Spark的核心模块、部署和协作模块的实现原理与使用技巧进行了深入的剖析与解读。
本书分为三篇:
准备篇(第1~2章),介绍了Spark的环境搭建、设计理念与基本架构,帮助读者了解一些背景知识。
核心设计篇(第3~7章),着重讲解SparkContext的初始化、存储体系、任务提交与执行、计算引擎及部署模式的原理和源码分析。通过这部分的内容,读者可以通过源码剖析更加深入理解Spark的核心设计与实现,以便在实际使用中能够快速解决线上问题并对性能进行调优。
扩展篇(第8~11章),主要讲解基于Spark核心的各种扩展及应用,包括SQL处理引擎、Hive处理、流式计算框架Spark Streaming、图计算框架GraphX、机器学习库MLlib等内容。通过阅读这部分内容,读者可以扩展实际项目中对Spark的应用场景,让Spark焕发活力。
耿嘉安,10年IT行业相关经验。就职于阿里巴巴商家业务事业部,任资深Java工程师,专注于开源和大数据领域,目前与小伙伴们基于ODPS构建阿里的大数据商业解决方案——御膳房。在大量的工作实践中,对J2EE、JVM、Tomcat、Spring、Hadoop、Spark、MySQL、Redis都有深入研究,尤其喜欢剖析开源项目的源码实现。早期从事J2EE企业级应用开发,对Java相关技术有独到见解。业余时间喜欢研究中国古代历史,古诗词,旅游,足球等。
伴随着互联网的不断演进,人类所面临的数据在体量,产生速度和多样性方面阶跃性发展,随之而来的是数据计算和处理方式的多样化,目前越来越多的数据处理链路是通过多种计算组合而成,例如批量与流式计算,图计算,交互式查询等。而以往几个独立计算系统“物理”拼装组合成的复杂系统在处理这些问题时,往往在成本和效率上产生瓶颈。Spark从迭代计算的数据复用切入,底层一个runtime来支撑多种计算模型,越来越受到业界的重视,社区发展非常迅速。而本书从源码分析角度深入剖析系统,希望读者不仅做到知其然,更要知其所以然,对Spark有更加深入的研究。本书作者在相关领域有多年丰富的实践和应用经验,相信通过研读本书必定可以给读者带来事半功倍的效果。
——强琦 阿里云计算平台资深技术专家
这是一本不错的Spark的入门书籍,完全从工程师的视角出发,从安装到使用再到高阶应用。有些时候甚至有些啰嗦,但这不正是我们读者需要的么?作者用他专一的一线工程师视角与在阿里面临的场景结合,写作的落笔相当接地气。这是一本难得的工程师参考用书。
——张茂森 阿里巴巴商家业务事业部资深数据挖掘专家