MLflow – 伯乐青狼

凌晨两点，线上模型开始胡言乱语，因为有人改了我的Prompt注释——于是我把MLflow塞进了LLM实验流水线

2026年6月4日 18 次浏览

凌晨2点17分，手机开始疯狂震动。我眯着眼看到PagerDuty上跳出来的告警：“rag-qa-service的答案偏离度超过阈值，当前偏离度0.72”。冲到电脑前翻日志，用户问“如何修改密码”，模型给出的回答里却夹杂着大段系统提示词，甚至打印出了内部文档的markdown语法。这已经是我们组三个月…

数据飞轮转起来后，我的合成数据版本比代码还乱——DVC+MLflow给我装上了可审计刹车

2026年5月15日 30 次浏览

数据飞轮中的合成数据版本管理不靠脑子靠基础设施。我分享了一套用DVC定义数据生成pipeline、用MLflow关联实验与数据版本哈希的实战方案，实现了合成数据从参数、来源到训练实验的完整血统追踪，并展示了出问题时如何一分钟定位、三分钟回滚，给数据飞轮装上可审计的刹车。

标签： DVC MLflow 可审计合成数据数据血统数据飞轮版本控制