DeepSeek-V3 MoE路由的诡异行为:我调了6个参数后,推理吞吐涨了3倍,但负载均衡差点把GPU集群干崩
这件事要从上个月的一次凌晨3点的PagerDuty告警说起。我们的核心代码补全服务突然开始大量5xx,延迟从平时的300ms直接飙到12秒。应改为通过`kubectl exec`进入Pod执行`nvidia-smi`或使用GPU监控工具(如DCGM)查看显存状态。。这不对劲——我们跑的是DeepSe…
这件事要从上个月的一次凌晨3点的PagerDuty告警说起。我们的核心代码补全服务突然开始大量5xx,延迟从平时的300ms直接飙到12秒。应改为通过`kubectl exec`进入Pod执行`nvidia-smi`或使用GPU监控工具(如DCGM)查看显存状态。。这不对劲——我们跑的是DeepSe…