llama.cpp – 伯乐青狼

在Jetson Orin上跑Qwen-1.8B生成PPT：仿真0故障，实测92%成功率，延迟暴涨340%但我再也不怕数据泄密了

2026年6月9日 0 次浏览

我是许彦，一个在机械臂、人形机器人堆里泡了5年的工程师。我手里最值钱的东西不是代码，而是每次去客户现场演示前的那份技术方案PPT。去年有次我给某车企做协作机器人产线改造，PPT里包含了真实节拍数据、车间布局图、甚至成本预算，用某云端AI工具生成大纲后被法务叫停——数据出境风险太高。那之后我开始琢磨一…

标签： llama.cpp 本地AI生成PPT

我把Llama推理从x86移到Graviton4省了23%，但半夜那三个坑差点让服务裸奔

2026年6月4日 18 次浏览

去年四季度账单出来的时候，CFO在Slack里直接@我：“咱们AI微服务的EC2开销怎么比数据库集群还贵？”我点开Cost Explorer一看，跑Qwen-7B推理的M7i.4xlarge预留实例，一天吞掉将近400美元。同期流量没涨，模型也没换，纯粹是请求延迟的要求从P99 800ms压到300…