🏷️ MoE

DeepSeek-V3 MoE路由的诡异行为:我调了6个参数后,推理吞吐涨了3倍,但负载均衡差点把GPU集群干崩

这件事要从上个月的一次凌晨3点的PagerDuty告警说起。我们的核心代码补全服务突然开始大量5xx,延迟从平时的300ms直接飙到12秒。应改为通过`kubectl exec`进入Pod执行`nvidia-smi`或使用GPU监控工具(如DCGM)查看显存状态。。这不对劲——我们跑的是DeepSe…

我在生产环境跑DeepSeek-V3的那一周:API成本狂降60%,但KV缓存过载差点让凌晨的告警把我送走

我叫赵一帆,一个做了8年DevOps的工程师,管理过上百个K8s集群,半夜被PagerDuty叫醒的次数多到能背出每个告警的振铃声。我信奉的一条铁律是:任何看起来能降本增效的新技术,在生产环境跑够7×24小时之前,都只是PPT里的幻觉。去年年底DeepSeek发布V3那次,我被CTO要求评估切换内部…