凌晨两点 Graviton4 的 CPU 突然飙到 100%——那晚我才知道 SVE2 向量指令不是白给的
我是赵一帆,干了 8 年 DevOps,从物理机到容器化一路摔过来。我们团队维护着一个对外的多模态 AI 推理服务和十几个 Spring Boot 微服务,日请求量八千万上下。去年开始全面往 ARM 生态切,因为 x86 的按需账单实在太疼了,尤其那些跑 Llama3-8B 的推理节点,每个月光 c…
我是赵一帆,干了 8 年 DevOps,从物理机到容器化一路摔过来。我们团队维护着一个对外的多模态 AI 推理服务和十几个 Spring Boot 微服务,日请求量八千万上下。去年开始全面往 ARM 生态切,因为 x86 的按需账单实在太疼了,尤其那些跑 Llama3-8B 的推理节点,每个月光 c…
我是赵一帆,一个被生产环境折磨了8年的DevOps工程师。我们公司在AWS账单上烧了太多钱,尤其是AI推理服务和那堆Spring Boot微服务,x86实例的费用每个月都能让财务皱眉。半年前我开始评估Graviton4,从r8g.4xlarge跑Llama3-8B推理,到把一组核心微服务全量切到AR…