🏷️ 分布?

我花三个月在Jetson集群上实现自动并行,最后发现PyTorch RPC才是那个被低估的暗棋

年初,我接了一个近乎异想天开的需求:用四块Jetson Orin(单价不到400美元)拼出一套能推理ViT-22B的服务。CTO的原话是,“如果四张便宜板卡的协同成本低于一张A100,我们就能把大模型塞进智慧灯杆、工厂质检站,甚至农田里的无人巡检车。”我当时的第一反应是——你们是不是对22 bill…

B200出货后,我重新读了一遍Megatron-LM那篇论文——万亿参数训练集群的工程鸿沟比想象中更大

去年秋天英伟达把第一台DGX B200送进我们机房的时候,整个组都在围观那个像迷你冰箱一样的8U液冷节点。规格表上写着单卡20 petaFLOPS FP4算力、192GB HBM3e、1.8TB/s的NVLink 5带宽,所有人脑子里都是一个念头:“万亿参数模型可以随便训了。”我当天晚上就把Shoe…

AI+制造业第三个项目:我给生产线上 15 个 Agent 建了共享记忆,结果它们差点把批次号全读脏了

我叫沈青锋,是一个做了八年制造业数字化的连续创业者。现在手上第三个项目,是在一家年产值 40 亿的汽车零部件工厂里,用多智能体系统(Multi-Agent)重构他们的质量追溯和动态排程体系。这篇文章要讲的事情,跟大模型、跟“AI 赋能”没有太大关系——跟分布式数据库、状态同步,还有一次直接导致 47…