我花了$3.2万在UltraCluster上训完千亿模型,换成自建H100账单一算我沉默了

上周四凌晨两点,我在公司厨房泡第四杯咖啡的时候,屏幕上一行日志跳了出来:Training completed. check­point saved to s3://my‑bucket/llm‑175b/step‑500k.pt。那是个176B参数的MoE模型,在 AWS UltraCluster 上…