Back to Blog

基于国产PCIE4.0/5.0 SWITCH 的AI服务器PCIe拓扑及PCIe5.0 Retimer 卡应用研究(三)

#人工智能

HPL性能分析

HPL(HighPerformanceLinpack)测 试 可 以

表征3种拓扑在双精度浮点运算中的表现。Bal

anceMode、CommonMode和 CascadeMode3种

拓扑的 HPL性能测试结果如表3所示。

为清晰表征3种拓扑在 HPL 性能测试中的

表现差异,以 BalanceMode的测试分数为基准,得

到 Common Mode 和 Cascade Mode2 种 拓 扑

HPL性能测试分数对 BalanceMode分数的占比,

如图6所示。

HPL测试 需 要 使 用 处 理 器 与 主 内 存,由 于

Dualroot的拓扑上行带宽和内存使用率提升,性

能将会优于 Singleroot的拓扑,故 Balance Mode

和 CommonMode在 HPL 测试中的分数会高于

CascadeMode的。另外,Balance Mode结构将 8

个 GPU 平均挂载在2颗 CPU 下,可以利用2颗

CPU 及内存的资源来完成浮点运算;在 Common

C M P o U de 间 中 的 ,虽 U 然 PI 所 连 有 接 G 速 P 度 U 够 都 快 挂 , 载 CP 于 U C 间 PU 的 0 单 下 条 ,但 UP 因 I

连接速度高达10.4GT/s,同时运行8个 GPU 的

浮点运算时,可以通过 UPI来与 CPU1通信,且共

享内存。故整体而言,BalanceMode的 HPL性能

会略高于 CommonMode的。

3.2.3

深度学习性能分析

深度学习 DL(DeepLearning)通过多个处理

层构成的计算模型进行图像、视频和音频等的处理

和识别[6],常用模型有自动编码机、受限玻尔兹曼

机、深度神经网络、卷积神经网络和循环神经网络

等,其中卷积神经网络[7]在图像处理方面应用较为

广泛,如图7所示。

Figure7 Imageprocessingusingconvolutionalneuralnetwork

图7 卷积神经网络处理图像

在 2017 年 的 GPU 技 术 大 会 (GTC)上,

NVIDIA 发布了基于 volta的 V100GPU。V100

GPU 是第1个包含“张量核心”的 NVIDIA GPU,

这是4×4矩阵乘法操作设计的核心,是深度学习

模型的主要部分[8]。

深度学 习 训 练 模 型 主 要 使 用 2 种 分 布 策

略———数据并行型和模型并行型[9],本文实验采用

数据并行型策略。对于数据并行,每个 GPU 都有

一个深度学习模型的完整副本。每个 GPU 接收

数据 的 不 同 部 分 进 行 训 练,然 后 将 其 参 数 通 过

RingAll-Reduce的方式更新到所有 GPU,以便与

所有 GPU 共享其训练输出。如图8所示,以 Bal

anceMode为例,在运行数据并行的深度学习训练

模型时,当多台机器运行时,GPU 的通信流通过

IB(InfiniBand)卡实现机器之间的信息传递;当单

台机 器 运 行 时,基 于 NCCL(NVIDIA Collective

CommunicationsLibrary)通信库,8个 GPU 卡的

信息传递构成环形通信流。与 GPU 之间的通信

带宽相比,减小的 CPU 和 GPU 之间的通信带宽

会影响 GPU 获取数据集所需要的时间,即完成一

个 Batchsize所需的时间。

Figure8 Dataparallelcommunication

modeforBalancemode

图8 Balance模式数据并行的通信模式

深度学习训练模型种类繁多,不同模型有不同

的优势,可以应用于各类实际应用场景。如图9所

示,ResNet计算模型借鉴了 HighwayNetwork思

想,利用残差网络构建,其优化的目标为输出和输

在 2017 年 的 GPU 技 术 大 会 (GTC)上,

NVIDIA 发布了基于 volta的 V100GPU。V100

GPU 是第1个包含“张量核心”的 NVIDIA GPU,

这是4×4矩阵乘法操作设计的核心,是深度学习

模型的主要部分[8]。

深度学 习 训 练 模 型 主 要 使 用 2 种 分 布 策

略———数据并行型和模型并行型[9],本文实验采用

数据并行型策略。对于数据并行,每个 GPU 都有

一个深度学习模型的完整副本。每个 GPU 接收

数据 的 不 同 部 分 进 行 训 练,然 后 将 其 参 数 通 过

RingAll-Reduce的方式更新到所有 GPU,以便与

所有 GPU 共享其训练输出。如图8所示,以 Bal

anceMode为例,在运行数据并行的深度学习训练

模型时,当多台机器运行时,GPU 的通信流通过

IB(InfiniBand)卡实现机器之间的信息传递;当单

台机 器 运 行 时,基 于 NCCL(NVIDIA Collective

CommunicationsLibrary)通信库,8个 GPU 卡的

信息传递构成环形通信流。与 GPU 之间的通信

带宽相比,减小的 CPU 和 GPU 之间的通信带宽

会影响 GPU 获取数据集所需要的时间,即完成一

个 Batchsize所需的时间。

=================PCIe5.0 Retimer 卡==============

*消除确定性抖动与随机抖动
*Tx/Rx 按通道性能可调
* 2*MICROx8接口
*支持热插拔
* 低功耗,低延时
*符合PCIe5.0基本规范.

功能特性


· 高性能 32GT/s SerDeS ;

·2*MICROx8接口;

· Tx/Rx 按通道性能可调;

· 支持通道极性翻转;

·支持热插拔;

·低功耗,低延时;

·符合PCIe5.0基本规范;


☑支持OEM/ODM定制服务