HPL性能分析

HPL(HighPerformanceLinpack)测试可以

表征3种拓扑在双精度浮点运算中的表现。Bal

anceMode、CommonMode和 CascadeMode3种

拓扑的 HPL性能测试结果如表3所示。

为清晰表征3种拓扑在 HPL 性能测试中的

表现差异,以 BalanceMode的测试分数为基准,得

到 Common Mode 和 Cascade Mode2 种拓扑

HPL性能测试分数对 BalanceMode分数的占比,

如图6所示。

HPL测试需要使用处理器与主内存,由于

Dualroot的拓扑上行带宽和内存使用率提升,性

能将会优于 Singleroot的拓扑,故 Balance Mode

和 CommonMode在 HPL 测试中的分数会高于

CascadeMode的。另外,Balance Mode结构将 8

个 GPU 平均挂载在2颗 CPU 下,可以利用2颗

CPU 及内存的资源来完成浮点运算;在 Common

C M P o U de 间中的 ,虽 U 然 PI 所连有接 G 速 P 度 U 够都快挂 , 载 CP 于 U C 间 PU 的 0 单下条 ,但 UP 因 I

连接速度高达10.4GT/s,同时运行8个 GPU 的

浮点运算时,可以通过 UPI来与 CPU1通信,且共

享内存。故整体而言,BalanceMode的 HPL性能

会略高于 CommonMode的。

3.2.3

深度学习性能分析

深度学习 DL(DeepLearning)通过多个处理

层构成的计算模型进行图像、视频和音频等的处理

和识别[6],常用模型有自动编码机、受限玻尔兹曼

机、深度神经网络、卷积神经网络和循环神经网络

等,其中卷积神经网络[7]在图像处理方面应用较为

广泛,如图7所示。

Figure7 Imageprocessingusingconvolutionalneuralnetwork

图7 卷积神经网络处理图像

在 2017 年的 GPU 技术大会 (GTC)上,

NVIDIA 发布了基于 volta的 V100GPU。V100

GPU 是第1个包含“张量核心”的 NVIDIA GPU,

这是4×4矩阵乘法操作设计的核心,是深度学习

模型的主要部分[8]。

深度学习训练模型主要使用 2 种分布策

略———数据并行型和模型并行型[9],本文实验采用

数据并行型策略。对于数据并行,每个 GPU 都有

一个深度学习模型的完整副本。每个 GPU 接收

数据的不同部分进行训练,然后将其参数通过

RingAll-Reduce的方式更新到所有 GPU,以便与

所有 GPU 共享其训练输出。如图8所示,以 Bal

anceMode为例,在运行数据并行的深度学习训练

模型时,当多台机器运行时,GPU 的通信流通过

IB(InfiniBand)卡实现机器之间的信息传递;当单

台机器运行时,基于 NCCL(NVIDIA Collective

CommunicationsLibrary)通信库,8个 GPU 卡的

信息传递构成环形通信流。与 GPU 之间的通信

带宽相比,减小的 CPU 和 GPU 之间的通信带宽

会影响 GPU 获取数据集所需要的时间,即完成一

个 Batchsize所需的时间。

Figure8 Dataparallelcommunication

modeforBalancemode

图8 Balance模式数据并行的通信模式

深度学习训练模型种类繁多,不同模型有不同

的优势,可以应用于各类实际应用场景。如图9所

示,ResNet计算模型借鉴了 HighwayNetwork思

想,利用残差网络构建,其优化的目标为输出和输

在 2017 年的 GPU 技术大会 (GTC)上,

NVIDIA 发布了基于 volta的 V100GPU。V100

GPU 是第1个包含“张量核心”的 NVIDIA GPU,

这是4×4矩阵乘法操作设计的核心,是深度学习

模型的主要部分[8]。

深度学习训练模型主要使用 2 种分布策

略———数据并行型和模型并行型[9],本文实验采用

数据并行型策略。对于数据并行,每个 GPU 都有

一个深度学习模型的完整副本。每个 GPU 接收

数据的不同部分进行训练,然后将其参数通过

RingAll-Reduce的方式更新到所有 GPU,以便与

所有 GPU 共享其训练输出。如图8所示,以 Bal

anceMode为例,在运行数据并行的深度学习训练

模型时,当多台机器运行时,GPU 的通信流通过

IB(InfiniBand)卡实现机器之间的信息传递;当单

台机器运行时,基于 NCCL(NVIDIA Collective

CommunicationsLibrary)通信库,8个 GPU 卡的

信息传递构成环形通信流。与 GPU 之间的通信

带宽相比,减小的 CPU 和 GPU 之间的通信带宽

会影响 GPU 获取数据集所需要的时间,即完成一

个 Batchsize所需的时间。

=================PCIe5.0 Retimer 卡==============

*消除确定性抖动与随机抖动
*Tx/Rx 按通道性能可调
* 2*MICROx8接口
*支持热插拔
* 低功耗，低延时
*符合PCIe5.0基本规范.

功能特性

· 高性能 32GT/s SerDeS ;

·2*MICROx8接口;

· Tx/Rx 按通道性能可调;

· 支持通道极性翻转;

·支持热插拔;

·低功耗，低延时;

·符合PCIe5.0基本规范;

☑支持OEM/ODM定制服务