“天河一号A”在基本组织架构上和之前的“天河一号”比较相似,因此我们先来熟悉一下“天河一号”的架构和系统情况。
“天河一号”系统共有5120个图形加速处理器(GPU)和6144个通用处理器(CPU),峰值速度达1206TFlops, 内存总容量为98TB,Linpack实测性能为563.1TFlops。其计算量若由一台微型计算机来执行大约连续计算160万年才能完成。“天河一号”是采用并行体系结构的超级计算机,采用的是AMD的图形核心。其特殊之处在于多阵列、可配置、协同并行,实现了“CPU+GPU”的异构协同计算,提高了计算效能。
“天河一号”硬件系统
“天河一号”超级计算机采用了多阵列、可配置、协同并行体系结构,系统由计算阵列、加速阵列和服务阵列组成,其中计算阵列、服务阵列分别由采用通用处理器(CPU)的计算节点机、服务节点机构成,加速阵列则由基于图形加速处理器(GPU)的大量加速节点机构成,实现了“CPU+GPU”的异构协同计算,提高了计算效能。此外,“天河一号”采用了便于维护和高密度的刀片式(Blade)结构,每个机位都有几十个可热插拔的刀片,每个“刀片”实际上就相当于一块计算机主板,组成一台配置有处理器、内存等模块的节点计算机。
如果“天河一号”仅使用传统处理器,每一个处理器只有100GFLOS的计算能力,要想达到与原来同样的性能的话至少需要50000颗处理器。而现在使用“CPU+GPU”的异构并行架构之后系统功耗也会从原来的1200万瓦特减少为404万瓦特,在提倡绿色环保的主题下,这样节省的电力够5000多居民使用一年。由于CPU和GPU的配合,可以把传统中数据密集的大规模数据并行的计算交给GPU来运行,CPU可以计算逻辑性较强的数据结构比较复杂的计算,利用CPU和GPU的协同性工作,互相做自己擅长的工作,使得整个系统的性能得到了更高。CPU采用了复杂的控制逻辑和分支预测,以及大量的缓存来提高执行效率,这样可以使执行单元以很低的延迟获得数据和指令。而对延迟更加敏感的GPU侧重于提高整体的数据吞吐量。设计目标的不同使得CPU和GPU在架构和性能上有巨大差异。具有强大处理能力和高带宽的GPU弥补了CPU在计算方式上性能不足的缺点,在降低成本和性价比方面具有巨大优势。
硬件设计中的大难点是如何将庞大数量的处理器通过网络把节点集合起来,并使得他们可以高速并行的协同工作。“天河一号”并不是简单的拼凑CPU和GPU,让这么庞大的不可思议的硬件协作起来,并让它有惊人的运算能力是必须拥有良好的网络连接的,这里的网络互联芯片完全是中国自主研发的处理器。
“天河一号”其他子系统分别采用如下的结构:并行I/O存储子系统采用全局分布共享并行I/O系统结构,磁盘总容量为1PB;互连系统采用两级QDR Infiniband架构,每个通信链路的带宽为40Gbps;监控诊断子系统采用分布式集中管理架构,具有实时的系统监测、调控和诊断等功能。
什么是Infiniband体系
Infiniband是一种基于通道的、采用交换结构的I/O体系,拥有高性能和互操作性强的特点。如果你看一看超级计算机500强的资料就会发现,Infiniband技术已经从2005年的30席增长到了今天的142席,增长率超过了25%。而且,采用专有互连技术的超级计算机正在不断减少。Infiniband性能关联如右图所示。
Infiniband性能关联