DeepSeek-R1 推理测试:英伟达 GB200 NVL72 性能是同规模 AMD MI355X 集群的约 28 倍

IT之家 1 月 2 日消息,Signal65 最新发布 SemiAnalysis InferenceMAX 基准测试分析报告,在 Deepseek-R1 0528 混合专家(MoE)模型推理场景中,英伟达(NVIDIA)Blackwell GB200 NVL72 机架系统性能远超类似集群规模的 AMD Instinct MI355X 系统。

IT之家注:混合专家模型是一种高效的 AI 模型架构,典型代表之一就是 Deepseek-R1 0528,成为诸多基准测试常用的模型。

图片

图源:Signal65

它不像传统模型那样每次任务都动用整个大脑,而是拥有一群“专家”,每次只根据问题类型激活最懂行的那几个“专家”来处理,但大规模扩展时会引发节点间巨大的通信延迟和带宽压力,形成计算瓶颈。

英伟达为此采用了“极致协同设计”(Extreme Co-Design)策略。GB200 NVL72 通过紧密互联 72 颗芯片,并配备 30TB 的高速共享内存,极大地优化了全对全(all-to-all)通信效率,有效解决了数据传输延迟问题。

图片

图源:英伟达

测试数据显示,在类似的集群配置下,英伟达方案每 GPU 的吞吐量高达 75 tokens / 秒,其性能达到了 AMD Instinct MI355X 的 28 倍。

对于超大规模云计算厂商(Hyperscalers)而言,总体拥有成本(TCO)是核心考量指标。Signal65 结合 Oracle 云定价数据分析指出,GB200 NVL72 机架不仅性能强悍,经济性同样惊人。其每 token 的相对成本仅为 AMD 方案的十五分之一,同时还提供了更高的交互速率。

图片

图源:Signal65

尽管英伟达在 MoE 领域占据统治地位,但这并不代表 AMD 已全面落败。报告指出,AMD 的 MI355X 凭借高容量 HBM3e 内存,在稠密模型(Dense Models)环境中仍是极具侵略性的选项。

该媒体指出 AMD 目前尚未推出新一代机架级解决方案来应对 NVL72 的挑战。不过,随着未来 AMD Helios 平台与英伟达 Vera Rubin 平台的对决临近,双方在机架级扩展方案上的竞争将愈发激烈。

相关阅读: