前言 [0第0]一部分 序言 [0第0]1章 绪论2 1.1 众核处理器时代2 1.2 以通信为核心的跨层次[0优0]化3 1.3 片上网络简介5 1.3.1拓扑结构6 1.3.2 路由算[0法0]7 1.3.3 流控[1机1]制8 1.3.4 路由器微结构10 1.3.5 性能[0评0]价指标13 1.4 片上网络研究现状14 1.4.1 拓扑结构的研究14 1.4.2 单播通信路由的研究15 1.4.3 聚合通信路由的研究16 1.4.4 流控[1机1]制的研究17 1.4.5 路由器微结构的研究18 1.5 真实处理器的片上网络19 1.5.1 MIT RAW处理器19 1.5.2 Tilera TILE64处理器21 1.5.3 Sony/Toshiba/IBM Cell处理器23 1.5.4 U. T. Austion TRIPS处理器24 1.5.5 Intel Teraflops处理器26 1.5.6 Intel SCC处理器27 1.5.7 Intel Larrabee处理器29 1.5.8 Intel Knights Corner处理器30 1.5.9 真实处理器片上网络特性总结32 1.6 全书内容概述34 1.7 参考文献36 [0第0]二部分 逻辑层实现 [0第0]2章 单周期翼通道路由器结构48 2.1 引言48 2.2 翼通道路由器体系结构50 2.2.1 翼通道单周期路由器总体结构50 2.2.2 翼通道工作原理55 2.3 路由器微体系结构设计58 2.3.1 通道分配部[亻牛]58 2.3.2 快速仲裁部[亻牛]60 2.3.3 SIG管理单元和SIG控制单元61 2.4 实验[0评0]估62 2.4.1 模拟环境62 2.4.2 流水线延迟分析63 2.4.3 延迟与吞吐率64 2.4.4 [mian]积与功耗67 2.5 本章小结68 2.6 参考文献69 [0第0]3章 动态虚通道路由器71 3.1 引言71 3.2 拥塞感[0知0]的动态虚通道结构72 3.2.1 动态虚通道72 3.2.2 拥塞缓解策略74 3.3 拥塞感[0知0]的多端口共享缓冲结构75 3.3.1 多端口共享缓冲的动态虚通道75 3.3.2 拥塞缓解策略78 3.4 DVC路由器微结构78 3.4.1 虚通道控制部[亻牛]79 3.4.2 拥塞缓解电路81 3.4.3 虚通道仲裁部[亻牛]与开关仲裁部[亻牛]82 3.5 HiBB路由器微结构84 3.5.1 虚通道控制部[亻牛]85 3.5.2 虚通道仲裁部[亻牛]与输出端口仲裁部[亻牛]86 3.5.3 虚通道调整结构88 3.6 实验[0评0]估89 3.6.1 DVC路由器[0评0]估89 3.6.2 HiBB路由器[0评0]估92 3.7 本章小结95 3.8 参考文献96 [0第0]4章 虚拟总线拓扑结构98 4.1 引言98 4.2 相关研究99 4.3 研究动[1机1]100 4.3.1 基本片上通信网络100 4.3.2 片上网络问题分析101 4.3.3 基于事务的总线通信[0优0]势103 4.4 虚拟总线片上网络103 4.4.1 拓扑结构103 4.4.2 虚拟总线[1机1]制105 4.4.3 饿死与死锁避免111 4.4.4 VBON路由器结构111 4.5 实验[0评0]估112 4.5.1 模拟框架113 4.5.2 合成流量[0评0]估115 4.5.3 真实应用[0评0]估118 4.5.4 功耗分析119 4.5.5 开销分析119 4.6 本章小结120 4.7 参考文献120 [0第0]三部分 网络层路由和流控设计 [0第0]5章 区域隔离路由算[0法0]124 5.1 引言124 5.2 相关研究126 5.3 研究动[1机1]127 5.3.1 局部自适应算[0法0]的局限性128 5.3.2 应用程序内部的干扰129 5.3.3 应用程序之间的干扰130 5.4 区域隔离路由算[0法0]131 5.4.1 拥塞信息传播网络132 5.4.2 DBAR路由器微结构134 5.4.3 路由函数设计136 5.5 实验[0评0]估139 5.5.1 路由函数[0评0]估140 5.5.2 单区域性能142 5.5.3 多区域性能145 5.5.4 集中型网格网络性能148 5.6 硬[亻牛]开销讨论151 5.6.1 连线资源151 5.6.2 路由器开销151 5.6.3 功耗和能量延迟积151 5.7 进一步讨论152 5.7.1 拥塞信息传播网络带宽152 5.7.2 DBAR的可扩展性153 5.7.3 拥塞信息传播延迟153 5.8 本章小结153 5.9 参考文献153 [0第0]6章 完全自适应路由算[0法0]的流控[1机1]制158 6.1 引言158 6.2 相关研究161 6.2.1 死锁避免理论161 6.2.2 完全自适应路由算[0法0]设计162 6.3 研究动[1机1]162 6.3.1 虚通道分配策略162 6.3.2 路由灵活性163 6.4 流控和路由设计165 6.4.1 全报文发送165 6.4.2 逃逸虚通道的积[0极0]分配策略168 6.4.3 完全自适应路由算[0法0]171 6.4.4 路由器微结构171 6.5 合成流量模式[0评0]测173 6.5.1 合成流量模式结果174 6.5.2 路由算[0法0]的缓存利用率176 6.5.3 敏感性分析178 6.6 真实应用程序[0评0]测181 6.6.1 实验方[0法0]和实验配置182 6.6.2 PARSEC测试集结果182 6.7 流控[1机1]制的详细分析183 6.7.1 缓存利用率的详细分析183 6.7.2 流控[1机1]制的公平性分析187 6.8 进一步讨论189 6.8.1 报文长度和虚通道深度189 6.8.2 DAMQ和混合流控[1机1]制190 6.9 本章小结190 6.10 参考文献190 [0第0]7章 切片气泡流控[1机1]制195 7.1引言195 7.2传统设计的局限197 7.2.1dateline197 7.2.2本地气泡策略198 7.2.3关键气泡策略198 7.2.4处理变长报文的低效性199 7.3切片气泡流控[1机1]制及策略200 7.3.1理论描述200 7.3.2本地切片气泡策略202 7.3.3关键切片气泡策略202 7.3.4饿死现象203 7.4路由器流水线和微结构205 7.4.1FBFC路由器205 7.4.2VCT路由器206 7.5实验方[0法0]207 7.6一维Torus网络性能[0评0]测208 7.6.1性能208 7.6.2缓存利用率210 7.6.3短报文和长报文的传输延迟211 7.7二维Torus网络性能[0评0]测212 7.7.14×4 Torus网络性能212 7.7.2单切片报文比例敏感性分析214 7.7.3缓存数量敏感性分析215 7.7.48×8 Torus网络可扩展性分析216 7.7.5饿死现象分析217 7.7.6PARSEC测试集实验结果219 7.7.7[0大0]规模系统和消息传递编程模式220 7.8开销:功耗和[mian]积221 7.8.1测试方[0法0][0学0]222 7.8.2功耗222 7.8.3[mian]积225 7.8.4与网格网络的比较226 7.9进一步讨论和相关工作229 7.9.1进一步讨论229 7.9.2相关工作229 7.10本章小结230 7.11参考文献231 [0第0]8章 高效能与公平性流控235 8.1基于[0当0]值缓存高效能路由器设计235 8.1.1引言235 8.1.2高效能路由器236 8.1.3实验设计240 8.1.4实验[0评0]估241 8.1.5小结243 8.2基于报文剩余跳数的自适应流控244 8.2.1引言244 8.2.2报文之间的相互作用245 8.2.3公平性流控246 8.2.4实验[0评0]估249 8.2.5小结252 8.3参考文献253 [0第0]四部分 软[亻牛]层编程模式支持 [0第0]9章 一致性协议聚合通信支持256 9.1引言256 9.2归约消息组合框架259 9.2.1消息组合表格式260 9.2.2消息组合实例260 9.2.3消息组合表项的不足262 9.3均衡自适应多播路由算[0法0]262 9.4路由器流水线和微结构264 9.5实验[0评0]估266 9.5.1性能267 9.5.2BAM和RPM多播虚拟网络性能271 9.5.3消息组合表[0大0]小272 9.5.4敏感性分析274 9.6功耗和能量延迟积分析276 9.7相关研究277 9.7.1消息组合277 9.7.2片上网络多播路由算[0法0]278 9.8本章小结278 9.9参考文献279 [0第0]10章 MPI原语的定制通信架构283 10.1引言283 10.2研究背景284 10.3研究动[1机1]286 10.3.1在[0No0]C上实现MPI286 10.3.2MPI函数[0优0]化286 10.4定制通信架构287 10.4.1体系结构概述287 10.4.2定制的片上网络设计:VBON288 10.4.3MPI原语实现:MU288 10.5实验[0评0]估295 10.5.1方[0法0]295 10.5.2实验结果297 10.6本章小结303 10.7参考文献304 [0第0]11章 MPI通信协议[0优0]化308 11.1引言308 11.2研究背景309 11.2.1MPI的通信协议309 11.2.2现存问题310 11.2.3相关工作313 11.3研究动[1机1]314 11.4自适应通信协议315 11.4.1目标与方[0法0]315 11.4.2基本MPI加速的片上网络设计316 11.4.3ADCM结构的支持318 11.4.4与理想协议的比较323 11.5实验[0评0]估324 11.5.1方[0法0]324 11.5.2合成流量结果326 11.5.3真实应用程序328 11.5.4敏感性分析330 11.5.5硬[亻牛]开销331 11.6本章小结331 11.7参考文献332 [0第0]五部分 后记 [0第0]12章 结语与展望336 12.1结语336 12.2展望338
|