数据飞轮转起来后,我的合成数据版本比代码还乱——DVC+MLflow给我装上了可审计刹车
数据飞轮中的合成数据版本管理不靠脑子靠基础设施。我分享了一套用DVC定义数据生成pipeline、用MLflow关联实验与数据版本哈希的实战方案,实现了合成数据从参数、来源到训练实验的完整血统追踪,并展示了出问题时如何一分钟定位、三分钟回滚,给数据飞轮装上可审计的刹车。
数据飞轮中的合成数据版本管理不靠脑子靠基础设施。我分享了一套用DVC定义数据生成pipeline、用MLflow关联实验与数据版本哈希的实战方案,实现了合成数据从参数、来源到训练实验的完整血统追踪,并展示了出问题时如何一分钟定位、三分钟回滚,给数据飞轮装上可审计的刹车。
客服意图识别模型上线后准确率只有78%,被业务方喷了一周。我放弃了标注海量数据的想法,搭建了一套数据飞轮:主动学习每轮挑50条最难样本,GPT-4生成合成数据补充长尾表达,LoRA微调后快速上线。六轮迭代后准确率冲到91%,人力成本几乎为零。本文把选择和生成脚本、微调流程全盘托出,中小团队完全可以复制。