一张4090训出的7B模型,在某些任务上暴打GPT-4,然后被生产环境连捅四刀

用一张4090训好的7B模型,在客服意图识别任务上准确率比GPT-4高了6个点,推理速度快了15倍。但上线后被生产环境连捅四刀:时间感知缺失、tokenization切碎订单号、vLLM显存泄漏导致周期性OOM、以及反馈循环让模型慢慢退化。本文用真实代码和日志复盘了整个从训练到踩坑到修复的过程。