凌晨两点,线上模型开始胡言乱语,因为有人改了我的Prompt注释——于是我把MLflow塞进了LLM实验流水线
凌晨2点17分,手机开始疯狂震动。我眯着眼看到PagerDuty上跳出来的告警:“rag-qa-service的答案偏离度超过阈值,当前偏离度0.72”。冲到电脑前翻日志,用户问“如何修改密码”,模型给出的回答里却夹杂着大段系统提示词,甚至打印出了内部文档的markdown语法。这已经是我们组三个月…
凌晨2点17分,手机开始疯狂震动。我眯着眼看到PagerDuty上跳出来的告警:“rag-qa-service的答案偏离度超过阈值,当前偏离度0.72”。冲到电脑前翻日志,用户问“如何修改密码”,模型给出的回答里却夹杂着大段系统提示词,甚至打印出了内部文档的markdown语法。这已经是我们组三个月…
数据飞轮中的合成数据版本管理不靠脑子靠基础设施。我分享了一套用DVC定义数据生成pipeline、用MLflow关联实验与数据版本哈希的实战方案,实现了合成数据从参数、来源到训练实验的完整血统追踪,并展示了出问题时如何一分钟定位、三分钟回滚,给数据飞轮装上可审计的刹车。