LoRA – 伯乐青狼

Qwen2.5-72B的128K上下文，我用10万份法律判决书测出了它的中文长文本天花板

2026年5月20日 20 次浏览

上周组会，我带了一份很“长”的东西给大家看——不是年终总结，而是把10万份中国裁判文书网上的民事判决书灌进了Qwen2.5-72B，让它做摘要。跑完以后我盯着屏幕上的ROUGE分数愣了很久，脑子里反复回放的不是结果，而是大半年前读Qwen技术报告时，那张漂亮的128K上下文“大海捞针”测试图。报告里…

我让客服意图识别模型靠50条标注+LoRA转起来，准确率从78%卷到91%——中小团队的数据飞轮实操手记

2026年5月5日 28 次浏览

客服意图识别模型上线后准确率只有78%，被业务方喷了一周。我放弃了标注海量数据的想法，搭建了一套数据飞轮：主动学习每轮挑50条最难样本，GPT-4生成合成数据补充长尾表达，LoRA微调后快速上线。六轮迭代后准确率冲到91%，人力成本几乎为零。本文把选择和生成脚本、微调流程全盘托出，中小团队完全可以复制。

标签： LoRA 主动学习合成数据意图识别数据飞轮