🏷️ ONNX Runtime

我半夜把Copilot Runtime塞进Surface Pro,NPU推理快得离谱,但矢量搜索差点让我把机器砸了

说出来你可能不信,我一个做了6年Python独立开发的老鸟,被微软的Copilot Runtime整整折腾了两宿。不是因为它难用,而是因为它太好用了——好用到我怀疑自己是不是漏了什么致命坑。结果第二天就翻车了:NPU加速没开,矢量搜索API是个半成品,文档写得像迷宫。今天我就把这48小时的折磨和惊喜…

Rust重写推理服务后速度提升了5倍,但我差点被编译器逼疯

为了搞掉在线教育平台批改服务的延迟和内存问题,我用Rust重写了推理网关。结果吞吐暴增5倍,p99延迟从510ms压到42ms,但开发过程几乎让我放弃——Session不支持Send、编译时间漫长、错误信息无法理解。这篇文章记录了我如何手写线程池、用Axum+ONNX Runtime趟过生产坑,以及最终为什么还说“Rust值得,但要用在刀刃上”。