深入大型数据集pdf下载pdf下载

深入大型数据集百度网盘pdf下载

作者:
简介:本篇主要提供深入大型数据集pdf下载
出版社:博库网旗舰店
出版时间:2021-02
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

基本信息

  • 商品名称:深入大型数据集(并行与分布化Python代码)
  • 作者:(美)约翰·沃勒翰|责编:张春雨|译者:张若飞
  • 定价:99
  • 出版社:电子工业
  • 书号:9787121403682

其他参考信息(以实物为准)

  • 出版时间:2021-02-01
  • 印刷时间:2021-02-01
  • 版次:1
  • 印次:1
  • 开本:16开
  • 包装:平装
  • 页数:300
  • 字数:357千字

内容提要

本书共分3部分,主要介绍如何使用Python语 言来处理大型数据集。 部分介绍map和reduce编 程风格,以及Python中基础的map和reduce函数, 并介绍如何将对象持久化,通过惰性函数和并行函 数来加快大型数据集的处理速度。第2部分介绍 Hadoop和Spark框架,以及如何使用mrjob库来编写 Hadoop作业,如何实现PageRank算法,如何使用 Spark来实现决策树和随机森林的机器学习模型。第 3部分重点介绍云计算和云存储的基础知识,包括如 何通过boto3的Python库将文件上传到AWS S3服务 ,以及如何在AWS的EMR集群中运行分布式的Hadoop 和Spark作业。本书适合有一定Python编程基础, 且希望掌握大型数据集处理能力的开发人员和数据 科学家阅读。

目录

部分
第1章 入门介绍
1.1 你将从本书中学到什么
1.2 为什么是大型数据集
1.3 什么是并行计算
1.3.1 理解并行计算
1.3.2 拥有map和reduce编程风格的可扩展计算
1.3.3 何时应该使用map和reduce编程风格
1.4 map和reduce编程风格
1.4.1 用来转换数据的map函数
1.4.2 用于 转换的reduce函数
1.4.3 用于数据转译管道的map和reduce函数
1.5 可提升速度和可扩展性的分布式计算
1.6 Hadoop:一个map和reduce的分布式框架
1.7 提供高性能map、reduce和其他功能的Spark
1.8 AWS Elastic MapReduce—云上的大型数据集
总结
第2章 加速大型数据集处理任务:map函数和并行计算
2.1 map函数简介
2.1.1 通过map函数来获取URL
2.1.2 惰性函数(比如map)对大型数据集的强大功能
2.2 并行处理
2.2.1 处理器和处理过程
2.2.2 并行化和序列化
2.2.3 顺序和并行化
2.2.4 状态和并行化
2.3 把它们拼在一起:抓取维基百科(Wikipedia)网站
2.3.1 可视化我们的图
2.3.2 回到map函数
2.4 练习
2.4.1 并行化的问题
2.4.2 map函数
2.4.3 并行化和速度
2.4.4 存储序列化
2.4.5 Web抓取数据
2.4.6 异构的map转换
总结
第3章 用来映射复杂转换的函数管道
3.1 辅助函数和函数链
3.2 揭露黑客的通信手段
3.2.1 创建辅助函数
3.2.2 创建一个管道
3.3 Twitter人口预测
3.3.1 推文级别的管道
3.3.2 用户级别的管道
3.3.3 应用管道
3.4 练习
3.4.1 辅助函数和函数管道
3.4.2 数学老师的“把戏”
3.4.3 恺撒密码