我把Qwen2.5-72B扔进法律咨询聊天框,LoRA微调出的那些沉默和爆发
去年秋天的一个深夜,我看着屏幕上那行“根据相关法律法规,你的问题需要进一步分析”的回复,差点把键盘砸了。这是我们内部用原生Qwen2.5-72B搭建的律师助手原型——客户问“离婚时婚前房产婚后共同还贷怎么分”,模型却像在背法条目录。我关掉终端,打开Jupyter,决定从零开始做一次垂直领域对话系统的…
去年秋天的一个深夜,我看着屏幕上那行“根据相关法律法规,你的问题需要进一步分析”的回复,差点把键盘砸了。这是我们内部用原生Qwen2.5-72B搭建的律师助手原型——客户问“离婚时婚前房产婚后共同还贷怎么分”,模型却像在背法条目录。我关掉终端,打开Jupyter,决定从零开始做一次垂直领域对话系统的…
用一张4090训好的7B模型,在客服意图识别任务上准确率比GPT-4高了6个点,推理速度快了15倍。但上线后被生产环境连捅四刀:时间感知缺失、tokenization切碎订单号、vLLM显存泄漏导致周期性OOM、以及反馈循环让模型慢慢退化。本文用真实代码和日志复盘了整个从训练到踩坑到修复的过程。