AI推理 – 伯乐青狼

我把Llama推理从x86移到Graviton4省了23%，但半夜那三个坑差点让服务裸奔

2026年6月4日 19 次浏览

去年四季度账单出来的时候，CFO在Slack里直接@我：“咱们AI微服务的EC2开销怎么比数据库集群还贵？”我点开Cost Explorer一看，跑Qwen-7B推理的M7i.4xlarge预留实例，一天吞掉将近400美元。同期流量没涨，模型也没换，纯粹是请求延迟的要求从P99 800ms压到300…

标签： AI推理 ARM架构 AWS Graviton4 llama.cpp

Rust写AI推理服务：比Python快5倍但开发体验一言难尽

2026年4月21日 11 次浏览

我把电商推荐系统的推理服务从Python重写成Rust，吞吐量从1200 QPS飙升到6500 QPS，但开发时间从2天暴增到2周。Rust的所有权系统和异步编程让简单功能变得复杂，但性能提升确实惊人。如果你考虑用Rust做AI服务，先看看这篇血泪史。