🏷️ Neuron SDK

我花了$3.2万在UltraCluster上训完千亿模型,换成自建H100账单一算我沉默了

上周四凌晨两点,我在公司厨房泡第四杯咖啡的时候,屏幕上一行日志跳了出来:Training completed. check­point saved to s3://my‑bucket/llm‑175b/step‑500k.pt。那是个176B参数的MoE模型,在 AWS UltraCluster 上…

AWS Inf2推理实例:号称成本直降40%,但我的压测数据揭示了什么投资委员会必须知道的事

上季度投资委员会复盘时,我被一组数字钉在椅子上:我们投的7个AIGC项目中,有5个正在用GPU实例跑推理,单月推理成本中位数是$23,400,而它们平均MRR还不到$8,000。有一个团队甚至把40%的A轮融资烧在了AWS账单上。当时CFO甩过来一句:“你们技术顾问不是说大模型推理成本会断崖式下跌吗…