本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
目 录译者序前言作者简介*一部分 高*能分布式计算编程基础*1章 引言21.1 分布式系统21.2 分布式系统类型51.2.1 分布式嵌入式系统51.2.2 分布式信息系统71.2.3 分布式计算系统81.3 分布式计算架构91.4 分布式文件系统101.4.1 分布式文件系统需求101.4.2 分布式文件系统架构111.5 分布式系统面临的挑战131.6 分布式系统的发展趋势161.7 高*能分布式计算系统示例18参考文献20*2章 Hadoop入门222.1 Hadoop简介222.2 Hadoop生态系统242.3 Hadoop分布式文件系统262.3.1 HDFS的特*262.3.2 名称节点和数据节点272.3.3 文件系统282.3.4 数据复制282.3.5 通信302.3.6 数据组织302.4 MapReduce准备工作312.5 安装前的准备332.6 单节点集群的安装352.7 多节点集群的安装382.8 Hadoop编程452.9 Hadoop流48参考文献51*3章 Spark入门533.1 Spark简介533.2 Spark内部结构543.3 Spark安装583.3.1 安装前的准备583.3.2 开始使用603.3.3 示例:Scala应用633.3.4 Python下Spark的使用653.3.5 示例:Python应用673.4 Spark部署683.4.1 应用提交683.4.2 单机模式70参考文献72*4章 Scalding和Spark的内部编程744.1 Scalding简介744.1.1 安装744.1.2 编程指南774.2 Spark编程指南103参考文献120*二部分 使用Hadoop、Scalding和Spark的案例研究*5章 案例研究Ⅰ:使用Scalding和Spark进行数据聚类1225.1 简介1225.2 聚类1225.2.1 聚类方法1235.2.2 聚类处理1255.2.3 K均值算法1255.2.4 简单的K均值示例1265.3 实现128问题142参考文献142*6章 案例研究Ⅱ:使用Scalding和Spark进行数据分类1446.1 分类1456.2 概率论1466.2.1 随机变量1466.2.2 分布1466.2.3 均值和方差1476.3 朴素贝叶斯1486.3.1 概率模型1486.3.2 参数估计和事件模型1496.3.3 示例1506.4 朴素贝叶斯分类器的实现1526.4.1 Scalding实现1536.4.2 结果166问题168参考文献168*7章 案例研究Ⅲ:使用Scalding和Spark进行回归分析1697.1 回归分析的步骤1697.2 实现细节1727.2.1 线*回归:代数方法1737.2.2 代数方法的Scalding实现1747.2.3 代数方法的Spark实现1797.2.4 线*回归:梯度下降法1847.2.5 梯度下降法的Scalding实现1877.2.6 梯度下降法的Spark实现195问题198参考文献199*8章 案例研究Ⅳ:使用Scalding和Spark实现推荐系统2008.1 推荐系统2008.1.1 目标2018.1.2 推荐系统的数据源2018.1.3 推荐系统中使用的技术2028.2 实现细节2048.2.1 Spark实现2068.2.2 Scalding实现221问题230参考文献230索引233
K.G.斯里尼瓦沙(K.G.Srinivasa)于2007年获得班加罗尔大学计算机科学与工程博士学位。现就职于班加罗尔的M.S.拉迈阿理工学院计算机科学与工程系,任教授兼主任。他在靠前会议和期刊上共发表过一百多篇研究论文,曾作为访问学者出访过许多大学。他是UGC、DRDO和DST资助的多个项目的首席研究员,其研究领域包括数据挖掘、机器学习、高*能计算和云计算。他是IEEE和ACM的不错成员。
本书分两部分,共8章,介绍了如何使用开源工具和技术开发与实现大规模分布式处理系统,涵盖构建高*能分布式计算系统的方法和佳实践。* 一部分(靠前~4章)介绍了高*能分布式计算编程的基础知识,包括分布式系统、Hadoop入门、Spark入门、Scalding入门等;*二部分(*5~8章)给出了使用Hadoop、Spark、Scalding的案例研究,涉及数据聚类、数据分类、回归分析、推荐系统等。本书适合作为高等院校计算机相关专业的教材,也适合作为软件工程师、应用开发人员、科研人员的参考书。