04月
18

英伟达全新GB300/B300 GPU重磅发布!推理表现大幅提升,产业链格局迎来重大变革

21:28:20

英伟达在GB200和B200发布仅6个月后,再次推出全新GPU——GB300和B300。这看似只是小幅升级,实则蕴含着巨大的变革,尤其是推理模型性能的显著提升,将给整个行业带来深远的影响。

B300/GB300:推理性能的巨大飞跃

B300GPU采用台积电4NP工艺节点,针对计算芯片进行了优化设计。这使得B300的FLOPS性能比B200提升了50%。部分性能提升来自TDP的增加,GB300和B300HGX的TDP分别达到1.4KW和1.2KW(GB200和B200分别为1.2KW和1KW)。其余的性能提升则来自架构增强和系统级优化,例如CPU和GPU之间的动态功率分配。

image.png

除了FLOPS的提升,内存也升级为12-Hi HBM3E,每个GPU的HBM容量增加到288GB。然而,引脚速度保持不变,因此每个GPU的内存带宽仍为8TB/s。值得注意的是,三星未能进入GB200或GB300的供应链。

此外,英伟达在定价方面也做出了调整。这将在一定程度上影响Blackwell产品的利润率,但更重要的是,B300/GB300的性能提升将主要体现在推理模型方面。

为推理模型量身打造

内存的改进对于OpenAI O3风格的LLM推理训练至关重要,因为长序列会增加KVCache,从而限制关键批处理大小和延迟。从H100到H200的升级(主要是内存的增加),带来了以下两方面的改进:

更高的内存带宽(H200为4.8TB/s,H100为3.35TB/s)使得所有可比较的批处理大小的交互性普遍提高了43%。

由于H200运行的批处理大小比H100更大,每秒生成的token数增加了3倍,成本降低了约3倍。这种差异主要是由于KVCache限制了总批处理大小。

更大的内存容量对性能的提升是巨大的。两款GPU之间的性能和经济差异远大于其参数规格所显示的:

image.png

推理模型的用户体验可能较差,因为请求和响应之间存在明显的等待时间。如果能够显著加快推理时间,将提高用户的使用意愿和付费意愿。

硬件通过中代内存升级实现3倍的性能提升是惊人的,远超摩尔定律、黄氏定律或我们所见过的任何其他硬件改进速度。

+1
0

好文章,需要你的鼓励

下一篇

任命徐青森为教育部副部长;任命袭艳春(女)为新华通讯社副社长;任命马琰铭为浙江大学校长(副部长级)。

2025-04-18 21:24:13

24小时热榜
最近更新