我花30天把Llama 3.1 405B微调压进4张RTX 4090,烧掉$1200后总结的量化与分布式策略
去年11月,老板突然说想拿公司积攒的几万条内部客服对话,微调一个真正懂我们业务的大模型。他点名要用Llama 3.1 405B——对,就是那个4050亿参数、发布时Meta声称在多个benchmark上把GPT-4o按在地上摩擦的巨兽。我当时脑子里只有一个念头:你知不知道这东西一张A100 80G连…
去年11月,老板突然说想拿公司积攒的几万条内部客服对话,微调一个真正懂我们业务的大模型。他点名要用Llama 3.1 405B——对,就是那个4050亿参数、发布时Meta声称在多个benchmark上把GPT-4o按在地上摩擦的巨兽。我当时脑子里只有一个念头:你知不知道这东西一张A100 80G连…