SPARK实战pdf下载

SPARK实战百度网盘pdf下载

作者:
简介:SPARK实战
出版社:
出版时间:2019-08
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

作  者:[美] 彼得·泽斯维奇(Petar Zečević) 马可·波纳奇(Marko Bonaći) 著 郑美珠 田华 王佐兵 译
定  价:99
出 版 社:机械工业出版社
出版日期:2019年08月01日
页  数:372
装  帧:简装
ISBN:9787111617488
本书完整系统地介绍Spark各模块的原理并兼顾使用实战及综合应用从实战角度讲解Spark,实例丰富,容易理解,内容实用,适合学习
目录译者序致谢前言关于本书关于作者关于封面部分 步章 Apache Spark介绍1.1什么是Spark1.1.1 Spark革命1.1.2 MapReduce的缺点 1.1.3 Spark带来了什么有价值的东西1.2 Spark组件1.2.1 Spark核心1.2.2 Spark SQL 1.2.3 Spark Streaming 1.2.4 Spark MLlib1.2.5 Spark GraphX1.3 Spark程序流1.4 Spark生态系统1.5 建立spark-in-action 虚拟机1.5.1下载启动虚拟机1.5.2 停止虚拟机1.6总结第2章 Spark基础2.1使用spark-in-action虚拟机2.1.1 复制Spark in Action GitHub存储库2.1.2 找到java2.1.3 用虚拟机的Hadoop安装2.1.4 检查虚拟机的Spark安装2.2用Spark shell(壳)编写个Spark程序2.2.1 启动Spark shell2.2.2 个Spark代码示例2.2.3 弹性分布式数据集的概念2.3基础RDD行为和转换2.3.1 使用用map转换 2.3.2 使用distinct和flatMap 转换 2.3.3 使用sample、take和takeSample操作获取RDD的元素2.4 Double RDD功能2.4.1 Double RDD基本统计 2.4.2 使用直方图可视化数据分布2.4.3 近似求和与平均值2.5 总结第3章 编写Spark应用程序3.1在Eclipse上生成一个新的Spark项目3.2开发应用程序3.2.1 准备 GitHub 档案数据3.2.2 加载 JSON3.2.3 从Eclipse运行应用3.2.4 数据汇总3.2.5 排除非公司员工3.2.6 广播变量3.2.7 使用整个数据集3.3提交应用程序3.3.1 建立uberjar3.3.2 调整应用程序3.3.3 使用spark-submit3.4 总结第4章 深入Spark API4.1使用键值对RDD4.1.1 创建键值对RDD4.1.2 键值对RDD的基本功能4.2了解数据分区和减少数据混排4.2.1 使用spark数据分区器4.2.2 了解和避免不必要的数据混排4.2.3 RDD重新分区4.2.4 在分区中映射数据4.3 连接、排序、分组数据 4.3.1 连接数据4.3.2 数据排序4.3.3 数据分组4.4 理解RDD依赖4.4.1 RDD依赖和Spark执行4.4.2 Spark阶段和任务4.4.3 使用检查点保存Spark谱系4.5 使用累加器和广播变量与spark执行器进行沟通4.5.1 使用累加器从执行器获取数据4.5.2 使用广播变量将数据发送数据到执行器4.6总结第二部分 认识Spark家族第5章 Spark SQL查询5.1使用DataFrames5.1.1 从RDD创建DataFrames5.1.2 DataFrame API 基础知识5.1.3 用SQL函数执行数据计算5.1.4 使用缺失值5.1.5 将DataFrames转换为RDD5.1.6 分组和连接数据 5.1.7 执行连接5.2DataFrames:引入DataSet5.3使用SQL命令5.3.1 表目录和Hive metastore5.3.2 执行SQL查询 5.3.3 通过Thrift服务器连接到Spark SQL5.4保存并加载DataFrame 数据5.4.1 内置数据源5.4.2 保存数据5.4.3 加载数据5.5 Catalyst 优化器5.6 Tungsten性能改进5.7总结第6章 使用Spark Streaming提取数据6.1编写Spark Streaming应用程序6.1.1 介绍示例程序6.1.2 创建流上下文6.1.3 创建离散流6.1.4 使用离散流6.1.5 把结果保存到文档6.1.6 启动和停止流计算6.1.7 随着保存计算状态6.1.8 使用窗口操作进行计算6.1.9 检查其他内置输入流6.2使用外部数据源6.2.1 设置kafka6.2.2 使用kafka更改流应用程序6.3 Spark Streaming任务的性能6.3.1 获得良好的性能6.3.2 实现容错6.4结构化流6.4.1 创建流式DataFrame6.4.2 输出流数据6.4.3 检查流执行6.4.4 结构化流的未来方向6.5总结第7章 使用MLlib变聪明7.1机器学习简介7.1.1 机器学习的定义7.1.2 机器学习算法分类7.1.3 使用Spark进行机器学习7.2 Spark中的线性代数7.2.1 本地向量与矩阵实现7.2.2 分布式矩阵7.3线性回归7.3.1 有关线性回归7.3.2 简单的线性回归7.3.3 将模型扩展到多元线性回归7.4分析和准备数据7.4.1 分析数据分布7.4.2 分析列余弦相似性7.4.3 协方差矩阵的计算7.4.4 转化为标记点7.4.5 拆分数据7.4.6 特征缩放和平均归一化7.5拟合和使用线性回归模型7.5.1 预测目标值7.5.2 评估模型性能7.5.3 解释模型参数7.5.4 加载和保存模型7.6调整算法7.6.1 找到正确的步长和迭代次数7.6.2 添加高阶多项式7.6.3 偏差-方差权衡和模型复杂度7.6.4 绘制残差图7.6.5 利用正则化避免过度拟合7.6.6 k折交验证7.7优化线性回归7.7.1 小批量随机梯度下降7.7.2 LBFGS优化7.8总结八、ML:分类和聚类8.1 Spark ML 图书馆8.1.1 估计器,变压器和评估器8.1.2 ML参数8.1.3 ML管道8.2逻辑回归8.2.1 二元逻辑回归模型8.2.2准备数据在Spark中使用逻辑回归8.2.3 训练模型8.2.4 评估分类模型8.2.5 执行k折交验证8.2.6 多类逻辑回归8.3决策树和随机森林8.3.1 决策树8.3.2 随机森林8.4使用k均值聚类8.4.1 k均值聚类8.5总结第9章 使用GraphX连接点9.1 Spark图处理9.1.1 使用GraphX API构造图9.1.2 转换图9.2图算法9.2.1 数据集的介绍9.2.2 短路径算法9.2.3 页面排名9.2.4 连通分量9.2.5 强连通分量9.3实现A *搜索算法9.3.1 了解A *搜索算法9.3.2 实现A *搜索算法9.3.3 测试实现9.4总结第3部分 Spark ops0章 运行Spark10.1 Spark的运行时架构概述10.1.1 Spark运行组件10.1.2 Spark集群类型10.2作业与资源调度10.2.1 集群资源调度10.2.2 Spark作业调度10.2.3 数据局部性考虑10.2.4 Spark内存调度10.3配置Spark10.3.1 Spark配置文件10.3.2 命令行参数10.3.3 系统环境变量10.3.4 译编程方式设置配置10.3.5 master参数10.3.6 查看所有配置的参数10.4 Spark Web UI (网络用户界面)10.4.1 Jobs(作业)页面10.4.2 Stages(阶段)页面10.4.3 Storage(存储)页面10.4.4 Environment(环境)页面10.4.5 Executors(执行器)页面10.5在本地机器运行Spark10.5.1 本地模式10.5.2 本地集群模式10.6总结1章 在Spark独立集群上运行11.1 Spark Standalone集群组件11.1.1 启动Stanalone集群11.1.2 用shell脚本启动群集11.1.3 手动启动集群11.1.4 查看Spark进程11.1.5 Standalone master高可用性和恢复11.3 Standalone集群网络用户界面11.4 在3Standalone集群中运行应用程序11.4.1 驱动器的位置11.4.2 指定执行器的数量11.4.3 指定额外的类路径和文件11.4.4 终止应用程序11.4.5 应用程序自动重启11.5 Spark历史记录服务器和事件日志记录11.6 在 EC2上运行11.6.1 先决条件11.6.2 创建一个E2C独立集群11.6.3 使用E2C集群11.6.4 销毁集群11.7 总结2章 在YARN and Mesos运行12.1 在YARN上运行Spark12.1.1 YARN架构12.1.2 安装配置启动YARN12.1.3 YARN中的资源调度12.1.4 向YARN提交Spark应用程序12.1.5 在YARN上配置Spark12.1.6 为Spark工作配置资源12.1.7 YARN UI12.1.8 在YARN上寻找日志12.1.9 安全注意事项12.1.10 动态资源分配12.2在Mesos上运行Spark12.2.1 Mesos架构12.2.2 安装配置Mesos12.2.3 Mesos Web UI12.2.4 Mesos资源调度12.2.5 向Mesos提交Spark应用程序12.2.6 使用 Docker运行Spark12.3总结第4部分 协同使用3章 实例学习:实时仪表盘13.1了解用例13.1.1 概况13.1.2 了解应用程序组件13.2 运行应用程序13.2.1 在spark-in-action VM中运行应用程序13.2.2 手动启动应用程序13.3 理解源代码13.3.1 KafkaLogsSilator项目13.3.2 Streaming Log Analyzer项目13.3.3 Web统计信息显示板项目13.3.4 建设项目13.4总结4章 H20深入学习Spark14.1什么是深入学习14.2 在Spark中使用H2O和14.2.1 什么是H2O14.4.2 在Spark中启动Sparkling Water14.4.3 启动H2O集群14.4.4 访问Flow UI14.3 使用H2O的深度学习进行回归14.4.3 将数据加载到H2O框架中14.4.4 使用Flow UI构建和评估深度学习模型14.4.5 使用Sparkling Water API构建和评估深度学习模型14.4使用H2O的深度学习进行分类14.4.1 加载和拆分数据14.4.2 通过Flow UI 建造模型14.4.3 通过Sparkling Water API建造模型14.4.4 停止H2O集群14.5总结附录A 安装Apache Spark附录B 了解MapReduce附录C 线性代数基础
本书介绍了Spark应用程序及更不错应用的工作流程,主要从使用角度进行了描述,每个具体内容都有对应的代码。本书涵盖了Apache Spark和它丰富的API,构成Spark的组件(包括Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX),在Spark standalone、 Hadoop YARN以及 Mesos clusters上运行Spark应用程序的部署和安装。通过对应的实例全面、详细地介绍了整个Spark实战开发的流程。*后,还介绍了Spark的不错应用,包括Spark流应用程序及可扩展和快速的机器学习框架H2O。本书可以作为高等院校计算机、软件工程、数据科学与大数据技术等专业的大数据课程材料,可用于指导Spark编程实践,也可供相关技术人员参考使用。
回顾过去一年半,笔者不禁想到:笔者在这个地球上是如何生存的,这是笔者生命中繁忙的18个月!自从Manning出版社让笔者和Marko写一本关于Spark的书,笔者花了大部分空闲时间在Apache Spark上。笔者这段时间过得很充实,学到了很多,并且觉得这是值得的。如今,Spark是一个超热门的话题。它于2009年由Matei Zaharia在加利福尼亚州的伯克利设想的(初是试图证明Mesos执行平台的可行性)。在2010年开源。在2013年Spark被捐赠给了Apache软件基金,从那以后它以闪电般的速度发展。2015年,Spark是活跃的Apache项目之一,有超过1000个贡献者(投稿人、捐助人)。今天,Spark是所有主要Hadoop发行版的一部分,并被许多组织使用,广泛应用于或大或小的程序中。写一本关于Spark的书的挑战在于它发展很快。自从笔者们开始写Spark in Acti等