Hadoop集群与安全pdf下载

Hadoop集群与安全百度网盘pdf下载

作者:
简介:Hadoop集群与安全
出版社:机械工业出版社
出版时间:2014-11-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

编辑推荐
手把手教你配置高效的Hadoop集群,充分利用Hadoop平台的优势;
  为Hadoop生态系统实现强健的端到端的安全保障。
内容简介
  Hadoop自动化安装和配置的问题在于隐藏了许多Hadoop组件协同工作的重要细节,《大数据技术丛书:Hadoop集群与安全》介绍如何手动安装和配置主要的Hadoop组件,以便高效使用Hadoop平台。通过设置一个完全可运行的集群,可对Hadoop内部的运行机制产生更深入的了解,并且有助于你调试任何可能发生的问题。《大数据技术丛书:Hadoop集群与安全》还介绍了保障基于Hadoop的大数据平台安全的实现方案和最佳实践,覆盖Kerberos安全协议和Hadoop安全机制的设计,并包括在企业内部来确保Hadoop及其生态系统相关组件安全的详细方案。
  通过阅读《Hadoop集群与安全》,你将了解:
  ·如何手动配置主要的Hadoop组件,以及Hadoop生态系统。
  ·如何在云端使用Hadoop,包括Elastic MapReduce和Whirr的应用。
  ·如何配置Kerberos并建立安全的Hadoop集群。
  ·如何保护Hadoop生态系统中的敏感数据。
作者简介
  扎伯瑞福斯基(Danil Zburivsky),资深数据库管理员,目前是全球数据基础构架管理公司Pythian的咨询师,其客户涉及金融、娱乐以及通信领域,主要方向是创建各种Hadoop集群。研究兴趣包括Python编程、机器学习等。
  娜拉燕南(Sudheesh Narayana),在大数据解决方案咨询与实施领域具有丰富经验的实践者和技术战略家。他在IT领域的经验超过15年,涉及信息管理、商务智能、大数据分析及云应用和J2EE应用开发等。
  刘杰,中国科学院软件所副研究员,具有多年Hadoop平台研发与实施经验,与团队一起研发基于Hadoop的可视化大数据分析工具Haflow,该工具应用于医疗、交通等多个领域。研究方向包括企业数据集成、面向大数据的系统软件、数据挖掘等。
  沈鑫,毕业于同济大学计算机科学与技术系,资深网络工程师,从事网络安全、管理信息系统的开发与维护,参与开发了多个相关的项目。兴趣爱好是网络安全技术与嵌入式技术。"
目录
版权信息
前言
第1章 构建Hadoop集群
1.1 选择Hadoop集群硬件
1.2 Hadoop发行版
1.3 为Hadoop集群选择操作系统
1.4 小结
第2章 安装和配置Hadoop
2.1 在Hadoop集群中配置操作系统
2.2 设置NameNode
2.3 小结
第3章 配置Hadoop生态系统
3.1 托管Hadoop生态项目
3.2 Sqoop
3.3 Hive
3.4 Impala
3.5 小结
第4章 Hadoop安全
4.1 Hadoop安全概述
4.2 Hadoop分布式文件系统安全
4.3 MapReduce安全
4.4 Hadoop服务级别验证
4.5 Hadoop和Kerberos
4.6 小结
第5章 监控Hadoop集群
5.1 监控策略介绍
5.2 Hadoop参数
5.3 监控MapReduce
5.4 使用Ganglia监控Hadoop
5.5 小结
第6章 在云端使用Hadoop
6.1 Amazon Elastic MapReduce
6.2 使用Whirr
6.3 小结
第7章 Hadoop平台安全概述
7.1 为什么需要保障Hadoop生态系统的安全
7.2 确保Hadoop生态系统安全面临的挑战
7.3 关键安全因素
7.4 小结
第8章 Hadoop安全体系设计
8.1 什么是Kerberos
8.2 不采用Kerberos的Hadoop默认安全模型
8.3 Hadoop Kerberos安全模型实现
8.4 小结
第9章 配置一个安全Hadoop集群
9.1 前提条件
9.2 设置Kerberos
9.3 配置Hadoop使用Kerberos认证
9.4 Hadoop用户设置
9.5 安全Hadoop自动部署
9.6 小结
第10章 Hadoop生态系统安全保障
10.1 为Hadoop生态系统组件配置Kerberos
10.2 Hadoop生态系统组件安全保障最佳实践
10.3 小结
第11章 集成Hadoop与企业安全系统
11.1 集成EIM系统
11.2 从企业网络访问安全Hadoop集群
11.3 小结
第12章 Hadoop中敏感数据安全保护
12.1 Hadoop中敏感数据及保护方法
12.2 小结
第13章 安全事件与审计日志
13.1 Hadoop集群安全事故和事件监控
13.2 Hadoop集群审计日志设置
13.3 小结
附录 Hadoop安全机制解决方案
前言
  前言
  在过去的数年中,Hadoop已经成为数据集成平台的标准解决方案。各企业都在数据基础设施架构中融入新的技术,这要求系统工程师和数据管理员要迅速地掌握新组件的各个方面。由于Hadoop是一款包含多种软件的产品,其中集成了多种不同的开源项目,因此掌握这些技术并不简单,需要进行正确安装和配置才能确保Hadoop平台的健壮性和稳定性。
  许多已有的Hadoop发行版本通过某种类型的图形界面来简化Hadoop的安装。这种方法极大地缩短了构建完整Hadoop集群所需的时间,同时也降低了管理集群配置的复杂性。自动化安装和配置的问题在于隐藏了许多有关Hadoop组件协同工作的重要细节,比如某些组件需要其他组件的原因或者哪些是最为关键的配置参数,等等。
  本书前6章讲解如何手动安装和配置所有主要Hadoop组件。通过设置一个完全可运行的集群,你将会对Hadoop内部的运行机制产生一定的了解并且有助于你调试任何可能发生的问题。你也可以将第1~6章用作主要Hadoop组件和综合配置选项的快速参考。在编写本书的过程中,我自己在实际配置Hadoop集群时也参阅了本书来查找某个特定的变量或者在配置操作系统时寻找最佳步骤。这更加让我坚信,本书会为其他充满热情和经验丰富的Hadoop管理员与开发者提供帮助。
  目前,许多组织在生产环境中实现Hadoop。当一个组织开始大数据之旅,大数据的安全就成为一个重要的问题,而保障敏感数据的安全具有最高的优先级。企业安全部门会担心将Hadoop集成到企业系统后带来的安全隐患。本书第7~13章则提供保障基于Hadoop的大数据平台安全的实现方案和最佳实践,覆盖Kerberos安全协议和Hadoop安全机制的设计思想,并且包括在企业内部来确保Hadoop及其生态系统安全的详细方法。这部分的目标是通过深入研究大数据安全参考架构,从企业视角提供端到端的大数据安全,并且详细介绍如何集成各种技术构建一个安全的大数据平台。
  本书的内容
  第1章“构建Hadoop集群”回顾主要的Hadoop组件以及选择规划和集群硬件的方法,同时还介绍不同的Hadoop发行版本。
  第2章“安装和配置Hadoop”提供安装和配置主要Hadoop组件的详细步骤:NameNode节点(包括高可用方案)、JobTracker节点、DataNode节点以及TaskTracker。
  第3章“配置Hadoop生态系统”介绍Sqoop、Hive和Impala的配置步骤。
  第4章“Hadoop安全”讲解确保不同Hadoop组件安全的方法,同时还对在Hadoop中配置Kerberos进行介绍。
  第5章“监控Hadoop集群”指导读者逐步将集群开发至实际应用阶段。
  第6章“在云端使用Hadoop”介绍如何在虚拟环境中使用Hadoop,其中包括Elastic MapReduce和Whirr的应用。
  第7章“Hadoop平台安全概述”阐述基于Hadoop的大数据平台安全保障带来的关键挑战和需求,提供大数据安全的企业视角,详细介绍大数据安全参考架构。
  第8章“Hadoop安全体系设计”详细介绍Hadoop安全保障系统的内部设计细节,讲解Kerberos安全机制的关键概念。重点介绍理解本书其他章节所需要的各种术语和概念。
  第9章“配置一个安全Hadoop集群”介绍配置Kerberos并建立安全Hadoop集群的详细步骤。
  第10章“Hadoop生态系统安全保障”详细介绍Hadoop生态系统组件之间的交互和通信协议,及带来的安全隐患,提供构建安全的大数据生态系统的详细步骤。
  第11章“集成Hadoop与企业安全系统”介绍如何集成Hadoop安全模型与企业已有的安全系统,如何集中化管理Hadoop生态系统中的用户访问控制。
  第12章“Hadoop中敏感数据的安全保护”提供保护Hadoop生态系统中敏感数据的详细实现方法,介绍大数据平台中适用的各种数据加密技术。
  第13章“安全事件与审计日志”深入介绍大数据平台中安全事件监控系统,提供实现安全流程和策略的最新实践。
  附录“Hadoop安全机制解决方案”介绍用于构建安全的Hadoop大数据生态系统所需要的各种商业的或开源的技术,深入介绍这些技术的细节及它们在大数据安全参考架构中的位置和作用。
  阅读本书需要的条件
  本书中的示例对于软件并没有特定的要求。如果计划在沙盒环境下安装Hadoop集群,那么读者可能需要某种虚拟化软件(比如Virtual Box)。
  为了实践本书提供的例子,则需要一个Hadoop集群。你需要一个多节点Linux集群(最少两个节点安装有CentOS 6.2操作系统或类似系统)。推荐采用Cloudera CDH4.1来安装Hadoop集群。也可以采用任何最新版本的Apache Hadoop发布版本。需要从MIT网站下载并安装Kerberos 5Release 1.11.3(//web.mit.edu/kerberos/krb5-1.11/)。
  适合本书的读者群
  本书十分适合Hadoop实践者(大数据架构师、开发人员、系统管理员)阅读,他们具有一定的Hadoop工作经验并且期望保障Hadoop的安全。本书也适合于为企业设计端到端安全保障的大数据平台的大数据架构师。本书同时适合作为实现和配置安全Hadoop系统管理员的参考手册。
  约定
  本书在排版中会采用一些特殊字体与正文区别,下面是一些示例及其说明。
  代码片段如下所示:
  {
  "access_id": "Your Access Key ID",
  "private_key": "Your AWS Secret Access Key",
  "keypair": "emr-keys",
  "key-pair-file": "/path/to/key-file/emr-keys.pem",
  "log_uri": "s3n://emr-logs-x123/",
  "egion": "us-east-1"
  }
  如果我们希望读者对某些代码块引起重视,则会设置为粗体:
  {
  "access_id": "Your Access Key ID",
  "private_key": "Your AWS Secret Access Key",
  "keypair": "emr-keys",
  "key-pair-file": "/path/to/key-file/emr-keys.pem",
  "log_uri": "s3n://emr-logs-x123/",
  "egion": "us-east-1"
  }
  任何命令行的输入或者输出如下所示:
  特殊段落的标识如下:
  这里给出警告或者重要注意事项。
  这里给出提示或者技巧。
精彩书摘
  Hadoop是一款免费开源的分布式存储和计算平台。在构建该平台后,用户可以使用商用硬件中的集群来存储和处理大量数据。在过去的数年中,Hadoop已经成为大数据项目的事实标准。本章会讲述以下内容:
  •选择Hadoop集群硬件。
  •Hadoop发行版。
  •为Hadoop集群选择操作系统。
  本章会讲解为Hadoop集群选择和配置硬件的概念,还会介绍不同的Hadoop发行版(其数量每年都在增加)以及它们之间的异同点。
  无论读者是Hadoop管理员还是架构师,构建集群的第一步是确定使用硬件的类型以及成本,但是在读者下单购买硬件准备大干一场之前还有一些必要的问题需要考虑。这些问题都与集群设计有关,比如集群需要存储的数据量、数据增长率的估计、主要的数据访问模式,集群是主要用于预定义的计划任务,还是用于探索性数据分析的多租户环境?Hadoop的架构和数据访问模型具有极大的灵活性,它能够承载不同类型的工作量,比如批处理海量数据或者配合诸如Impala这样的项目进行实时分析。
  某些集群更适合于特定类型的任务,因此在选择硬件阶段就应考虑到集群的设计以及目的,这是非常重要的。在处理由成百上千个服务器所组成的集群时,最初有关硬件和总体布局的决定会对集群的性能、稳定性以及对应的成本起着至关重要的作用。
  Hadoop是可扩展的集群,它采用非共享系统处理大规模并行数据。Hadoop的总体概念是单个节点对于整个集群的稳定性和性能来说并不重要。根据这种设计理念,我们可以在单个节点上选择能够高效处理少量(相对于整体的数据量大小)数据的硬件并且在硬件层面也无需过分追求稳定性和冗余性。读者可能已经知道,Hadoop集群由多种类型的服务器所组成。它们中有主节点,比如NameNode、备份NameNode以及JobTracker,还有称为DataNode的工作节点。除了核心的Hadoop成员外,我们通常还会采用多种辅助服务器,比如网关、Hue服务器以及Hive元存储服务器。典型的Hadoop集群结构如图1-1所示。
  这些类型的服务器在集群中各有分工,因此对于节点的硬件规格和可靠性要求也不尽相同。我们首先讨论针对DataNode的不同硬件配置,随后讲解有关NameNode和JobTracker的典型配置。
  DataNode是Hadoop集群中的主要工作节点,它的作用主要有以下两种:存储分布式文件系统数据以及执行MapReduce任务。DataNode是Hadoop的主要存储和计算资源。有些读者可能认为既然DataNode在集群中扮演了如此重要的角色,我们就应该尽可能地使用最好的硬件。事实并非如此。在Hadoop的设计理念中将DataNode定义为“临时工”,也就是说,服务器作为集群的一部分需要足够高效地完成任务,同时在出现故障时替换的成本不会太过昂贵。在大型集群中的硬件故障频率可能是核心Hadoop开发者所考虑的最为重要的因素之一。Hadoop通过将冗余实现从硬件迁移到了软件解决了这一问题。
  Hadoop提供了多种级别的冗余。每个DataNode只存储了分布式文件系统文件的部分数据块,同时这些分块在不同节点中进行了多次复制,因此在单个服务器故障时,数据仍然能保证可访问性。
精彩插图