vLLM部署 – 伯乐青狼

我把Qwen2.5-72B扔进法律咨询聊天框，LoRA微调出的那些沉默和爆发

2026年5月21日 24 次浏览

去年秋天的一个深夜，我看着屏幕上那行“根据相关法律法规，你的问题需要进一步分析”的回复，差点把键盘砸了。这是我们内部用原生Qwen2.5-72B搭建的律师助手原型——客户问“离婚时婚前房产婚后共同还贷怎么分”，模型却像在背法条目录。我关掉终端，打开Jupyter，决定从零开始做一次垂直领域对话系统的…

标签： LoRA训练 Qwen2.5微调 vLLM部署垂直领域对话系统大模型工程实践法律AI

一张4090训出的7B模型，在某些任务上暴打GPT-4，然后被生产环境连捅四刀

2026年4月30日 38 次浏览

用一张4090训好的7B模型，在客服意图识别任务上准确率比GPT-4高了6个点，推理速度快了15倍。但上线后被生产环境连捅四刀：时间感知缺失、tokenization切碎订单号、vLLM显存泄漏导致周期性OOM、以及反馈循环让模型慢慢退化。本文用真实代码和日志复盘了整个从训练到踩坑到修复的过程。