ARM架构 – 伯乐青狼

我把Llama推理从x86移到Graviton4省了23%，但半夜那三个坑差点让服务裸奔

2026年6月4日 19 次浏览

去年四季度账单出来的时候，CFO在Slack里直接@我：“咱们AI微服务的EC2开销怎么比数据库集群还贵？”我点开Cost Explorer一看，跑Qwen-7B推理的M7i.4xlarge预留实例，一天吞掉将近400美元。同期流量没涨，模型也没换，纯粹是请求延迟的要求从P99 800ms压到300…

标签： AI推理 ARM架构 AWS Graviton4 llama.cpp