在Jetson Orin上跑LangChain安全护栏:512MB内存预算下,我把注入拦截延迟压到1.8ms

去年我把一个7B的对话模型塞进Jetson Orin Nano 8GB模块的时候,满脑子想的都是怎么把KV cache从3.2GB压到1.1GB,怎么让首token延迟从4.7秒降到2.1秒。那时候安全护栏这件事,在我脑海里约等于「让前端做个输入长度限制」。直到有一天,一个实习生无意中在测试里敲了一…