Storm分布式实时计算模式pdf下载

Storm分布式实时计算模式百度网盘pdf下载

作者:
简介:Storm分布式实时计算模式
出版社:
出版时间:2015-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

作  者:P.Taylor Goetz 著作 董昭 译者
定  价:59
出 版 社:机械工业出版社
出版日期:2015年01月01日
页  数:252
装  帧:平装
ISBN:9787111484387
译者序
前言
作者简介
章分布式单词计数1
1.1Stormtopology的组成部分——stream、spout和bolt1
1.1.1stream2
1.1.2spout2
1.1.3bolt2
1.2单词计数topology的数据流3
1.2.1语句生成spout3
1.2.2语句分割bolt3
1.2.3单词计数bolt4
1.2.4上报bolt4
1.3实现单词计数topology4
1.3.1配置开发环境4
1.3.2实现SentenceSpout5
1.3.3实现语句分割bolt6
1.3.4实现单词计数bolt7
1.3.5实现上报bolt8
1.3.6实现单词计数topology10
1.4Storm的并发机制12
1.4.1WordCountTopology的并发机制13
1.4.2给topology增加worker14
1.4.3配置executor和task14
1.5理解数据流分组17
1.6有保障机制的数据处理20
1.6.1spout的可靠性20
1.6.2bolt的可靠性21
1.6.3可靠的单词计数22
总结23
第2章配置Storm集群24
2.1Storm集群的框架24
2.1.1理解nimbus守护进程25
2.1.2supervisor守护进程的工作方式26
2.1.3ApacheZooKeeper简介26
2.1.4Storm的DRPC服务工作机制27
2.1.5StormUI27
2.2Storm技术栈简介28
2.2.1Java和Clojure28
2.2.2Python29
2.3在Linux上安装Storm29
2.3.1安装基础操作系统30
2.3.2安装Java30
2.3.3安装ZooKeeper30
2.3.4安装Storm30
2.3.5运行Storm守护进程31
2.3.6配置Storm33
2.3.7必需的配置项34
2.3.8可选配置项35
2.3.9Storm可执行程序36
2.3.10在工作站上安装Storm可执行程序36
2.3.11守护进程命令37
2.3.12管理命令37
2.3.13本地调试/开发命令39
2.4把toplogy提交到集群中40
2.5自动化集群配置42
2.6Puppet的快速入门43
2.6.1Puppetmanifest文件43
2.6.2Puppet类和模块44
2.6.3Puppet模板45
2.6.4使用PuppetHiera来管理环境46
2.6.5介绍Hiera46
总结48
第3章Trident和传感器数据49
3.1使用场景50
3.2Tridenttopology50
3.3Tridentspout52
3.4Trident运算57
3.4.1Tridentfilter58
3.4.2Tridentfunction59
3.5Trident聚合器63
3.5.1CombinerAggregator63
3.5.2ReducerAggregator63
3.5.3Aggregator
3.6Trident状态65
3.6.1重复事务型状态69
3.6.2不透明型状态70
3.7执行topology72
总结73
第4章实时趋势分析74
4.1应用场景75
4.2体系结构75
4.2.1数据源应用程序75
4.2.2logbackKafkaappender76
4.2.3ApacheKafka76
4.2.4Kafkaspout76
4.2.5XMPP服务器76
4.3安装需要的软件77
4.3.1安装Kafka77
4.3.2安装OpenFire78
4.4示例程序78
4.5日志分析topology84
4.5.1Kafkaspout84
4.5.2JSONprojectfunction85
4.5.3计算移动平均值86
4.5.4添加一个滑动窗口87
4.5.5实现滑动平均function91
4.5.6按照阈值进行过滤92
4.5.7通过XMPP发送通知94
4.6终的topology96
4.7运行日志分析topology98
总结99
第5章实时图形分析100
5.1使用场景101
5.2体系结构102
5.2.1Twitter客户端102
5.2.2Kafkaspout102
5.2.3Titan分布式图形数据库103
5.3图形数据库简介103
5.3.1访问图——TinkerPop栈104
5.3.2使用BlueprintsAPI操作图形105
5.3.3通过Gremlinshell操作图形106
5.4107
5.5使用Cassandra存储后端设置Titan109
5.5.1安装Cassandra109
5.5.2使用Cassandra后端启动Titan109
5.6图数据模型110
5.7连接Twitter数据流111
5.7.1安装Twitter4J客户端112
5.7.2OAuth配置112
5.7.3TwitterStreamConsumer类112
5.7.4TwitterStatusListener类113
5.8Twittergraphtopology115
5.9实现GraphState116
5.9.1GraphFactory117
5.9.2GraphTupleProcessor117
5.9.3GraphStateFactory117
5.9.4GraphState118
5.9.5GraphUpdater119
5.10实现GraphFactory119
5.11实现GraphTupleProcessor120
5.12组合成TwitterGraphTopology类121
5.13使用Gremlin查询图122
总结123
第6章人工智能124
6.1为应用场景进行设计125
6.2确立体系结构128
6.2.1审视设计中的挑战128
6.2.2实现递归128
6.2.3解决这些挑战132
6.3实现体系结构133
6.3.1数据模型133
6.3.2检视RecursiveTopology136
6.3.3队列交互138
6.3.4function和filter140
6.3.5研究ScoringTopology141
6.3.6分布式远程命令调用(DRPC)146
总结152
第7章整合Druid进行金融分析153
7.1使用场景154
7.2集成一个非事务系统155
7.3topology158
7.3.1spout159
7.3.2filter161
7.3.3状态设计162
7.4实现体系结构165
7.4.1DruidState166
7.4.2实现StormFirehose对象169
7.4.3在ZooKeeper中实现分片状态174
7.5执行实现的程序175
7.6检视分析过程176
总结179
第8章自然语言处理180
8.1MotivatingLambda结构181
8.2研究使用场景183
8.3实现Lambdaarchitecture184
8.4为应用场景设计topology185
8.5设计的实现186
8.5.1TwitterSpout/TweetEmitter187
8.5.2function188
8.6检视分析逻辑191
8.7Hadoop196
8.7.1MapReduce概览196
8.7.2Druid安装197
总结204
第9章在Hadoop上部署Storm进行广告分析205
9.1应用场景205
9.2确定体系结构206
9.2.1HDFS简介208
9.2.2YARN简介208
9.3配置基础设施211
9.3.1Hadoop基础设施211
9.3.2配置HDFS212
9.4部署分析程序217
9.4.1以Pig为基础执行批处理分析217
9.4.2在Storm-YARN基础上执行实时分析218
9.5执行分析223
9.5.1执行批处理分析223
9.5.2执行实时分析224
9.6部署topology229
9.7执行toplogy229
总结230
0章云环境下的Storm231
10.1ElasticComputeCloud简介232
10.1.1建立AWS帐号232
10.1.2AWS管理终端232
10.1.3手工启动一个EC2实例234
10.2ApacheWhirr简介236
10.3使用Whirr配置Storm集群237
10.4WhirrStorm简介239
10.5Vagrant简介243
10.5.1安装Vagrant243
10.5.2创建个虚拟机244
10.6生成Storm安装准备脚本247
10.6.1ZooKeeper247
10.6.2Storm248
10.6.3Supervisord249
总结252
本书由ApacheStorm项目的Committer亲力打造,提供了丰富的Storm实战经验。系统介绍使用Storm进行分布式流式计算的核心概念及应用,从简单的topology出发,首先介绍Storm基础,然后通过更复杂的示例,逐步引入Storm的不错概念、更细致的部署方案以及运营中的关键点。虽然本书内容重点在Storm相关的Java开发上,系统运维工程师、架构师和开发者也都可以参考使用。对于Hadoop爱好者也是一本很好的Storm入门书籍,提供了将批处理运算迁移到实时分析的一种高效途径。
P.Taylor Goetz 著作 董昭 译者
P.Taylor Goetz,是Apache Storm项目核心贡献者以及发布经理,自2011年10月Storm项目抢先发售开源至今都参与其中,具有长期的Storm使用和开发经验。作为Storm用户社区中的活跃贡献者,Taylor领导了一系列开源项目,旨在使企业能够将Storm集成到不同的基础设施上。
Brian O'Neill,现就职于Health Market ScienCe(HMS)公司,任首席技术官,重点进行数据管理和医疗领域数据分析。他已经担任技术主管超过15年,被认可为大数据领域的。作为系统架构师,他有着应对各种不同场景的经验,从初创公司到财富500强公司。他信奉开源精等