B200出货后,我重新读了一遍Megatron-LM那篇论文——万亿参数训练集群的工程鸿沟比想象中更大
去年秋天英伟达把第一台DGX B200送进我们机房的时候,整个组都在围观那个像迷你冰箱一样的8U液冷节点。规格表上写着单卡20 petaFLOPS FP4算力、192GB HBM3e、1.8TB/s的NVLink 5带宽,所有人脑子里都是一个念头:“万亿参数模型可以随便训了。”我当天晚上就把Shoe…
去年秋天英伟达把第一台DGX B200送进我们机房的时候,整个组都在围观那个像迷你冰箱一样的8U液冷节点。规格表上写着单卡20 petaFLOPS FP4算力、192GB HBM3e、1.8TB/s的NVLink 5带宽,所有人脑子里都是一个念头:“万亿参数模型可以随便训了。”我当天晚上就把Shoe…