🏷️ Blackwell

我们用H100烧了18个月模型,等Blackwell等到差点把厂子烧了——10万卡集群TCO账本大白于天下

我是沈青锋,第三次创业,做的方向是用AI视觉给汽车零部件厂做缺陷检测,产线跑一个推理任务平均150毫秒,但模型要一周重训一次才能跟上良率波动。这18个月我们手里捏着3000张H100,电费单每个月能买一辆Model Y。直到Blackwell B200开始出货,我和合伙人在办公室里把TCO模型重新推…

B200出货后,我重新读了一遍Megatron-LM那篇论文——万亿参数训练集群的工程鸿沟比想象中更大

去年秋天英伟达把第一台DGX B200送进我们机房的时候,整个组都在围观那个像迷你冰箱一样的8U液冷节点。规格表上写着单卡20 petaFLOPS FP4算力、192GB HBM3e、1.8TB/s的NVLink 5带宽,所有人脑子里都是一个念头:“万亿参数模型可以随便训了。”我当天晚上就把Shoe…