免费T4的30分钟术语注射:4-bit量化+LoRA把Llama 3从随机猜测提到89%准确率,200条问答就够了

我是周明远,一个在嵌入式设备上榨干每一KB内存的AI部署工程师。去年我还在Jetson Orin上给YOLOv8做INT8量化,把推理延迟从22ms砍到9ms;今年公司让我给一个医疗咨询小程序注入专业术语——没有预算、没有A100,手头只有Google Colab的免费T4和一台吃灰的树莓派5。起初…