🏷️ llama.cpp

在Jetson Orin上跑Qwen-1.8B生成PPT:仿真0故障,实测92%成功率,延迟暴涨340%但我再也不怕数据泄密了

我是许彦,一个在机械臂、人形机器人堆里泡了5年的工程师。我手里最值钱的东西不是代码,而是每次去客户现场演示前的那份技术方案PPT。去年有次我给某车企做协作机器人产线改造,PPT里包含了真实节拍数据、车间布局图、甚至成本预算,用某云端AI工具生成大纲后被法务叫停——数据出境风险太高。那之后我开始琢磨一…

我把Llama推理从x86移到Graviton4省了23%,但半夜那三个坑差点让服务裸奔

去年四季度账单出来的时候,CFO在Slack里直接@我:“咱们AI微服务的EC2开销怎么比数据库集群还贵?”我点开Cost Explorer一看,跑Qwen-7B推理的M7i.4xlarge预留实例,一天吞掉将近400美元。同期流量没涨,模型也没换,纯粹是请求延迟的要求从P99 800ms压到300…