英伟达在GB200和B200发布仅6个月后,再次推出全新GPU——GB300和B300。这看似只是小幅升级,实则蕴含着巨大的变革,尤其是推理模型性能的显著提升,将给整个行业带来深远的影响。
B300/GB300:推理性能的巨大飞跃
B300GPU采用台积电4NP工艺节点,针对计算芯片进行了优化设计。这使得B300的FLOPS性能比B200提升了50%。部分性能提升来自TDP的增加,GB300和B300HGX的TDP分别达到1.4KW和1.2KW(GB200和B200分别为1.2KW和1KW)。其余的性能提升则来自架构增强和系统级优化,例如CPU和GPU之间的动态功率分配。
除了FLOPS的提升,内存也升级为12-Hi HBM3E,每个GPU的HBM容量增加到288GB。然而,引脚速度保持不变,因此每个GPU的内存带宽仍为8TB/s。值得注意的是,三星未能进入GB200或GB300的供应链。
此外,英伟达在定价方面也做出了调整。这将在一定程度上影响Blackwell产品的利润率,但更重要的是,B300/GB300的性能提升将主要体现在推理模型方面。
为推理模型量身打造
内存的改进对于OpenAI O3风格的LLM推理训练至关重要,因为长序列会增加KVCache,从而限制关键批处理大小和延迟。从H100到H200的升级(主要是内存的增加),带来了以下两方面的改进:
好文章,需要你的鼓励