在人工智能领域,性能的提升一直是各大科技公司竞相追逐的目标。今日,英伟达在NVIDIA GTC 2025大会上宣布了一项令人瞩目的成就——其NVIDIA Blackwell DGX系统成功创造了满血DeepSeek-R1模型AI推理性能的世界纪录。这一消息不仅彰显了英伟达在AI硬件和软件方面的强大实力,更为整个行业树立了新的标杆。
英伟达此次宣布的纪录,无疑是对其在AI领域深厚技术积累的又一次有力证明。3月19日,在GTC大会上,英伟达展示了其DGX系统在运行6710亿参数的满血DeepSeek-R1模型时,所展现出的惊人推理性能。在搭载了八块Blackwell GPU的单个DGX系统上,该模型实现了每用户每秒超过250 token的响应速度,系统最高吞吐量更是突破了每秒3万token的大关。这一数据,无疑是对当前AI推理性能极限的一次有力挑战。
英伟达方面表示,这一成绩的取得,得益于其在硬件和软件方面的双重优化。Blackwell GPU作为英伟达最新的产品,其在性能和能效方面都有着显著的提升。而TensorRT-LLM内部版本的应用,则进一步提升了模型在推理过程中的效率。通过这两者的结合,英伟达成功地将DeepSeek-R1 671B模型的吞吐量提高了约36倍,这一提升幅度无疑是惊人的。
在测试中,英伟达采用了不同的节点配置和测试参数,以全面评估DGX系统的性能。其中,DGX B200和DGX H200分别采用了8块Blackwell GPU,而测试参数则包括输入1024 token、输出2048 token以及并发性MAX等。在计算精度方面,B200采用了FP4精度,而H200则采用了FP8精度。这一设置不仅充分展示了DGX系统在处理大规模模型时的强大能力,也为其在不同应用场景下的灵活性提供了有力支持。
值得一提的是,英伟达在对比了Blackwell架构与Hopper架构的性能后,发现前者与TensorRT软件相结合,可实现显著的推理性能提升。这一发现不仅验证了英伟达在硬件和软件方面的创新成果,也为用户提供了更多选择和优化空间。同时,英伟达还展示了DeepSeek-R1、Llama 3.1 405B和Llama 3.3 70B等模型在DGX平台上的推理性能,进一步证明了其平台的通用性和高效性。
在精度方面,英伟达同样表现出了卓越的实力。DeepSeek-R1模型在FP8和FP4精度下的表现均十分出色,各项评估指标均保持在较高水平。特别是在使用TensorRT Model Optimizer的FP4训练后量化(PTQ)技术时,相较于FP8基准精度,模型在不同数据集上仅产生了微乎其微的精度损失。这一结果不仅证明了英伟达在量化技术方面的领先地位,也为用户在实际应用中提供了更多选择和保障。
英伟达此次创造的纪录,不仅是对自身技术实力的有力证明,更为整个AI行业带来了新的启示。随着AI技术的不断发展,模型的规模和复杂度都在不断增加,这对硬件和软件都提出了更高的要求。而英伟达通过不断创新和优化,成功地将DeepSeek-R1模型的推理性能提升到了一个新的高度,这无疑为其他科技公司树立了榜样。
同时,英伟达的开源和开放态度也值得称赞。英伟达不仅将DGX系统的性能数据公之于众,还将相关的硬件和软件技术进行了开源和开放,供学术界和产业界参考和交流。这一举措不仅有助于推动AI技术的普及和发展,也为整个行业注入了更多的活力和创新动力。
展望未来,AI旋风相信英伟达将继续在AI领域发挥引领作用。随着AI技术的不断进步和应用场景的不断拓展,英伟达有望在AI推理性能、模型优化、量化技术等方面取得更多突破和创新。同时,英伟达也将继续加强与学术界和产业界的合作与交流,共同推动AI技术的普及和发展,为人类社会的进步和繁荣贡献更多智慧和力量。
总之,英伟达此次创造的DeepSeek-R1模型AI推理性能世界纪录,不仅是对自身技术实力的有力证明,更是对整个AI行业的一次有力推动。让我们共同期待英伟达在未来的发展中取得更多辉煌成就!