我在 UltraCluster 里烧了 32 个小时,才看清 Trainium3 互联架构这枚棋子的真正落点
如果你在 2024 年底问我,十万卡训练集群的账本还能怎么砍,我会说“下一代 GPU 的显存带宽再翻一倍,网络换成 800G,也就这样了”。但今年年初在 UltraCluster 上跑完千亿模型全量预训练后,我重新理解了这个问题。这场棋局的关键变量不是算力密度,不是显存容量,而是芯片间的互联拓扑能否…
如果你在 2024 年底问我,十万卡训练集群的账本还能怎么砍,我会说“下一代 GPU 的显存带宽再翻一倍,网络换成 800G,也就这样了”。但今年年初在 UltraCluster 上跑完千亿模型全量预训练后,我重新理解了这个问题。这场棋局的关键变量不是算力密度,不是显存容量,而是芯片间的互联拓扑能否…