MapReduce设计模式pdf下载

MapReduce设计模式百度网盘pdf下载

作者:
简介:MapReduce设计模式
出版社:
出版时间:2014-09
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

基本信息

  • 商品名称:MapReduce设计模式
  • 作者:(美)迈纳//舒克|译者:徐钊//赵重庆
  • 定价:49
  • 出版社:人民邮电
  • ISBN号:9787115360946

其他参考信息(以实物为准)

  • 出版时间:2014-09-01
  • 印刷时间:2014-09-01
  • 版次:1
  • 印次:1
  • 开本:16开
  • 包装:平装
  • 页数:213
  • 字数:293千字

内容提要

MapReduce作为一种分布式海量数据处理的编程 框架,已经得到业界的广泛关注。随着Hadoop的普及 ,MapReduce目前已经成为海量数据处理的 基础但 也是 重要的方法之一。
     迈纳、舒克编写的《MapReduce设计模式》是一 本关于设计模式的书,为读者提供解决问题的模板或 通用指南。书中主要介绍编程模式,即如何利用 MapReduce框架解决一类问题,重在提供解决问题的 方法和思路。作者花大量篇幅介绍各种模式的原理及 实现机制,并给出相应的应用实例,让读者对每种模 式能有 直观的理解。
     由于本书不会过多涉及底层框架及MapReduce API,所以希望读者阅读《MapReduce设计模式》之前 ,能够对Hadoop系统有所了解,知道如何编写 MapReduce程序,并了解MapReduce程序框架的工作 原理。《MapReduce设计模式》面向中 MapReduce开发者,涵盖了 大部分MapReduce编程 可能面对的场景,相信初学者和专家同样可以在本书 中得到一些启示。
    

作者简介

赵重庆腾讯数据平台部 工程师。2010年毕业于西北工业大学,同年加人腾讯数据平台部,一直从事Hadoop平台建设相关工作。 徐钊腾讯数据平台部 工程师。2009年毕业于哈尔滨工业大学,同年加入腾讯数据平台部。一直从事Hadoop及其相关生态系统的研发和运营工作,全程参与了腾讯分布式数据仓库TDW的建设,成功将TDW单集群的规模从几百台扩展到几千台,在分布式系统和大数据处理方面积累了丰富的实战经验。 Adam Shook是ClearEdge IT Solutions公司的软件工程师,从事一些大数据技术工作,如Hadoop、Accumulo、Pig以及ZooKeeper。Shook在马里兰大学巴尔的摩分校(UMBC)获得了计算机科学的学士学位,并得到了一份为游戏工作室构建一个全新的高性能图像引擎的工作。为了寻求新的挑战,他在UMBC就读研究生,主要专注的研究方向是分布式计算的相关技术。他很快找到了一份开发工作,作为美国政府承包商,从事大规模的Hadoop部署。Shook参与了Hadoop和Pig的开发及培训课程的指导。在繁忙工作的间隙他喜欢参与相关项目,玩视频游戏。 Donald Miner目前是EMC Greenplum的解决方案架构师,为实现与使用基于Greenplum的大数据系统的用户提供咨询和帮助。在加入Greenplum之前,Miner博士作为承包商为美国政府部署和构建了多个规模巨大且涉及关键任务的Hadoop集群。他还参与了教学,在马里兰大学巴尔的摩分校(UMBC)讲授Hadoop方面的业界前沿相关的课程以及各种人工智能课程。Miner博士在UMBC获得了计算机科学的博士学位,读博士期间他的研究主题为机器学习,博士论文的主题是多智能体系统。

目录

第1章 设计模式与MapReduce
1.1 设计模式
1.2 MapReduce简史
1.3 MapReduce和Hadoop简介
1.4 Hadoop示例:单词计数
1.5 Pig和Hive
第2章 概要模式
2.1 数值概要
2.1.1 模式描述
2.1.2 数值概要示例
2.2 倒排索引概要
2.2.1 模式描述
2.2.2 倒排索引示例
2.3 计数器计数
2.3.1 模式描述
2.3.2 计数器计数示例
第3章 过滤模式
3.1 过滤
3.1.1 模式描述
3.1.2 过滤示例
3.2 布隆过滤
3.2.1 模式描述
3.2.2 布隆过滤器示例
3.3 0示例
3.3.1 模式描述
3.3.2 0示例
3.4 去重
3.4.1 模式描述
3.4.2 去重示例
第4章 数据组织模式
4.1 分层结构
4.1.1 模式描述
4.1.2 分层结构示例
4.2 分区
4.2.1 模式描述
4.2.2 分区示例
4.3 分箱
4.3.1 模式描述
4.3.2 分箱示例
4.4 全排序
4.4.1 模式描述
4.4.2 全排序示例
4.5 混排
4.5.1 模式描述
4.5.2 混排示例
第5章 连接模式
5.1 连接简介
5.2 reduce端连接
5.2.1 模式描述
5.2.2 reduce端连接示例
5.2.3 使用布隆过滤器的。reduce端连接
5.3 复制连接
5.3.1 模式描述
5.3.2 复制连接示例
5.4 组合连接
5.4.1 模式描述
5.4.2 组合连接示例
5.5 笛卡儿积
5.5.1 模式描述
5.5.2 笛卡儿积示例
第6章 元模式
6.1 作业链
6.1.1 关于驱动程序
6.1.2 作业链示例
6.1.3 关于shell脚本
6.1.4 关于JobControl
6.2 链折叠
6.2.1 ChainMapper方法和ChainReducer方法
6.2.2 链折叠示例
6.3 作业归并
作业归并示例
第7章 输入和输出模式
7.1 在Hadoop中自定义输入和输出
7.1.1 InputFormat
7.1.2 Recor’dReader
7.1.3 OutputFormat
7.1.4 RecordWriter
7.2 生成数据
7.2.1 模式描述
7.2.2 生成数据示例
7.3 外部源输出
7.3.1 模式描述
7.3.2 外部源输出示例
7.4 外部源输入
7.4.1 模型描述
7.4.2 外部源输入示例
7.5 分区裁剪
7.5.1 模式描述
7.5.2 分区裁剪示例
第8章 后的思考与设计模式的未来
8.1 数据的本质趋势
8.1.1 图像、音频和视频
8.1.2 流式数据
8.2 YARN的影响
8.3 作为库或者组件的模式
8.4 读者可以帮到什么
附录 布隆过滤器