我把Llama推理从x86移到Graviton4省了23%,但半夜那三个坑差点让服务裸奔

去年四季度账单出来的时候,CFO在Slack里直接@我:“咱们AI微服务的EC2开销怎么比数据库集群还贵?”我点开Cost Explorer一看,跑Qwen-7B推理的M7i.4xlarge预留实例,一天吞掉将近400美元。同期流量没涨,模型也没换,纯粹是请求延迟的要求从P99 800ms压到300…