UltraCluster – 伯乐青狼

我在 UltraCluster 里烧了 32 个小时，才看清 Trainium3 互联架构这枚棋子的真正落点

2026年6月23日 8 次浏览

如果你在 2024 年底问我，十万卡训练集群的账本还能怎么砍，我会说“下一代 GPU 的显存带宽再翻一倍，网络换成 800G，也就这样了”。但今年年初在 UltraCluster 上跑完千亿模型全量预训练后，我重新理解了这个问题。这场棋局的关键变量不是算力密度，不是显存容量，而是芯片间的互联拓扑能否…

标签： ?训练 AI基础设施 AWS Trainium3 UltraCluster 分布?