数据飞轮 – 伯乐青狼

数据飞轮转起来后，我的合成数据版本比代码还乱——DVC+MLflow给我装上了可审计刹车

2026年5月15日 31 次浏览

数据飞轮中的合成数据版本管理不靠脑子靠基础设施。我分享了一套用DVC定义数据生成pipeline、用MLflow关联实验与数据版本哈希的实战方案，实现了合成数据从参数、来源到训练实验的完整血统追踪，并展示了出问题时如何一分钟定位、三分钟回滚，给数据飞轮装上可审计的刹车。

我让客服意图识别模型靠50条标注+LoRA转起来，准确率从78%卷到91%——中小团队的数据飞轮实操手记

2026年5月5日 24 次浏览

客服意图识别模型上线后准确率只有78%，被业务方喷了一周。我放弃了标注海量数据的想法，搭建了一套数据飞轮：主动学习每轮挑50条最难样本，GPT-4生成合成数据补充长尾表达，LoRA微调后快速上线。六轮迭代后准确率冲到91%，人力成本几乎为零。本文把选择和生成脚本、微调流程全盘托出，中小团队完全可以复制。