我把Llama推理从x86移到Graviton4省了23%,但半夜那三个坑差点让服务裸奔
去年四季度账单出来的时候,CFO在Slack里直接@我:“咱们AI微服务的EC2开销怎么比数据库集群还贵?”我点开Cost Explorer一看,跑Qwen-7B推理的M7i.4xlarge预留实例,一天吞掉将近400美元。同期流量没涨,模型也没换,纯粹是请求延迟的要求从P99 800ms压到300…
去年四季度账单出来的时候,CFO在Slack里直接@我:“咱们AI微服务的EC2开销怎么比数据库集群还贵?”我点开Cost Explorer一看,跑Qwen-7B推理的M7i.4xlarge预留实例,一天吞掉将近400美元。同期流量没涨,模型也没换,纯粹是请求延迟的要求从P99 800ms压到300…
我把电商推荐系统的推理服务从Python重写成Rust,吞吐量从1200 QPS飙升到6500 QPS,但开发时间从2天暴增到2周。Rust的所有权系统和异步编程让简单功能变得复杂,但性能提升确实惊人。如果你考虑用Rust做AI服务,先看看这篇血泪史。