DeepSpeed ZeRO-3 – 伯乐青狼

我花30天把Llama 3.1 405B微调压进4张RTX 4090，烧掉$1200后总结的量化与分布式策略

2026年5月25日 20 次浏览

去年11月，老板突然说想拿公司积攒的几万条内部客服对话，微调一个真正懂我们业务的大模型。他点名要用Llama 3.1 405B——对，就是那个4050亿参数、发布时Meta声称在多个benchmark上把GPT-4o按在地上摩擦的巨兽。我当时脑子里只有一个念头：你知不知道这东西一张A100 80G连…