我花了$3.2万在UltraCluster上训完千亿模型,换成自建H100账单一算我沉默了
上周四凌晨两点,我在公司厨房泡第四杯咖啡的时候,屏幕上一行日志跳了出来:Training completed. checkpoint saved to s3://my‑bucket/llm‑175b/step‑500k.pt。那是个176B参数的MoE模型,在 AWS UltraCluster 上…
上周四凌晨两点,我在公司厨房泡第四杯咖啡的时候,屏幕上一行日志跳了出来:Training completed. checkpoint saved to s3://my‑bucket/llm‑175b/step‑500k.pt。那是个176B参数的MoE模型,在 AWS UltraCluster 上…
上季度投资委员会复盘时,我被一组数字钉在椅子上:我们投的7个AIGC项目中,有5个正在用GPU实例跑推理,单月推理成本中位数是$23,400,而它们平均MRR还不到$8,000。有一个团队甚至把40%的A轮融资烧在了AWS账单上。当时CFO甩过来一句:“你们技术顾问不是说大模型推理成本会断崖式下跌吗…