《深入大型数据集》[52M]百度网盘|亲测有效|pdf下载

书籍详情

深入大型数据集
出版社:博库网旗舰店
出版时间:2021-02
热度:9090
上架时间:2024-06-30 08:52:20
价格:0.0

书籍下载

点击下载

书籍预览

查看链接

免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源，一旦发现资源涉及侵权，将立即删除。希望所有用户一同监督并反馈问题，如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

基本信息

商品名称：深入大型数据集(并行与分布化Python代码)
作者：(美)约翰·沃勒翰|责编:张春雨|译者:张若飞
定价：99
出版社：电子工业
书号：9787121403682

其他参考信息（以实物为准）

出版时间：2021-02-01
印刷时间：2021-02-01
版次：1
印次：1
开本：16开
包装：平装
页数：300
字数：357千字

内容提要

本书共分3部分，主要介绍如何使用Python语言来处理大型数据集。部分介绍map和reduce编程风格，以及Python中基础的map和reduce函数，并介绍如何将对象持久化，通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍 Hadoop和Spark框架，以及如何使用mrjob库来编写 Hadoop作业，如何实现PageRank算法，如何使用 Spark来实现决策树和随机森林的机器学习模型。第 3部分重点介绍云计算和云存储的基础知识，包括如何通过boto3的Python库将文件上传到AWS S3服务，以及如何在AWS的EMR集群中运行分布式的Hadoop 和Spark作业。本书适合有一定Python编程基础，且希望掌握大型数据集处理能力的开发人员和数据科学家阅读。

部分
第1章入门介绍
1.1 你将从本书中学到什么
1.2 为什么是大型数据集
1.3 什么是并行计算
1.3.1 理解并行计算
1.3.2 拥有map和reduce编程风格的可扩展计算
1.3.3 何时应该使用map和reduce编程风格
1.4 map和reduce编程风格
1.4.1 用来转换数据的map函数
1.4.2 用于转换的reduce函数
1.4.3 用于数据转译管道的map和reduce函数
1.5 可提升速度和可扩展性的分布式计算
1.6 Hadoop：一个map和reduce的分布式框架
1.7 提供高性能map、reduce和其他功能的Spark
1.8 AWS Elastic MapReduce—云上的大型数据集
总结
第2章加速大型数据集处理任务：map函数和并行计算
2.1 map函数简介
2.1.1 通过map函数来获取URL
2.1.2 惰性函数（比如map）对大型数据集的强大功能
2.2 并行处理
2.2.1 处理器和处理过程
2.2.2 并行化和序列化
2.2.3 顺序和并行化
2.2.4 状态和并行化
2.3 把它们拼在一起：抓取维基百科（Wikipedia）网站
2.3.1 可视化我们的图
2.3.2 回到map函数
2.4 练习
2.4.1 并行化的问题
2.4.2 map函数
2.4.3 并行化和速度
2.4.4 存储序列化
2.4.5 Web抓取数据
2.4.6 异构的map转换
总结
第3章用来映射复杂转换的函数管道
3.1 辅助函数和函数链
3.2 揭露黑客的通信手段
3.2.1 创建辅助函数
3.2.2 创建一个管道
3.3 Twitter人口预测
3.3.1 推文级别的管道
3.3.2 用户级别的管道
3.3.3 应用管道
3.4 练习
3.4.1 辅助函数和函数管道
3.4.2 数学老师的“把戏”
3.4.3 恺撒密码

相关推荐

GoWeb编程实战派

机器学习理论导引周志华王魏高尉张利军

跟“龙哥”学C语言编程计算机与互联网李志龙语言文字

深入大型数据集

基本信息

其他参考信息（以实物为准）

内容提要

目录