Back to Blog

基于国产PCIE4.0/5.0 SWITCH 的AI服务器PCIe拓扑及PCIe4.0X16转接卡应用研究(四)

#人工智能#服务器#运维

AI服务器中的 GPUPCIe拓扑切

换设计

针对不同的深度学习训练模型,结合实际应用

场景,往 往 需 要 在 同 一 台 服 务 器 中 切 换 不 同 的

GPUPCIe拓扑,来实现性能最优化。手动更改线

缆连接方式需要开箱操作,用户体验不友好,还有

可能导致维护人员手指划破等工伤事件。

有如 下 2 种 方 案 可 以 实 现 BMC(Baseboard

ManagementController)远程一键拓扑切换。

(1)基于 PCIeSwitchFW 技术的 GPU 拓扑

远程一键切换

如图11所示,PCIeSwitch0的Port0始终为

上行端口,Port1始终为下行端口;PCIeSwitch1

的 Port0始终为上行端口,Port1始终为上行端

口。拓扑的切换通过配置PCIeSwitch1的FW 或

发送 PCIeSwitch1的配置命令实现

若切换为 Balance Mode,则 BMC 配 置 PCIe

Switch1的 FW 或发送 PCIeSwitch1 的配置命

令,将 PCIeSwitch1下对应的 GPU4~GPU7分

配到 PCIeSwitch1的 Port0;若切换为 Cascade

P M C o I d e e S , w 则 it B ch M 1 C 的 配 配 置 置 PC 命 Ie 令 S , w 将 itc P h CI 1 e 的 Sw F itc W h 或 1 发 下 送 对

应的GPU4~GPU7分配到PCIeSwitch1的Port1。

(2)基于 PCIe4.0MUX 的 GPU 拓扑远程一

键切换。

如图12所示,PCIeSwitch0的Port0始终为

上行端口,Port1始终为下行端口;PCIeSwitch1

的Port0始终为上行端口。拓扑的切换通过BMC

控制 PCIeMUX实现。

若切 换 为 Balance Mode,则 BMC 通 过 配 置

PCIe4.0 MUX,使 PCIeSwitch0 Port1 切 到

NIC0,CPU1切到PCIeSwitch1的Port0;若切换

为 Cascade Mode,则 BMC 通 过 配 置 PCIe4.0

MUX,使 PCIe Switch 0 的 Port1 切 到 PCIe

Switch1的 Port0。

==============PCIe4.0X16转接卡=================

* 高性能 16GT/s SerDeS , 可补偿高达 28dB 的信道损耗
*消除确定性抖动与随机抖动
*Tx/Rx 按通道性能可调
* 支持通道极性翻转
*支持热插拔
* 低功耗,低延时
*符合PCIe4.0基本规范,兼容PCIe3.0及以下规范

功能特性


· 高性能 16GT/s SerDeS , 可补偿高达 28dB 的信道损耗;

·消除确定性抖动与随机抖动;

· Tx/Rx 按通道性能可调;

· 支持通道极性翻转;

·支持热插拔;

·低功耗,低延时;

·符合PCIe4.0基本规范,兼容PCIe3.0及以下规范;