凌晨两点,我的Jetson Orin突然闭嘴了:Gemma 2端侧部署的血泪调优实录

我叫赵一帆,干了8年DevOps,被报警短信吵醒的次数比我女儿半夜哭闹还多。这次的项目是在一台巴掌大的Jetson Orin上跑Gemma 2对话模型,要求延迟低于500毫秒、每秒至少输出20个token,而且必须是本地推理,数据不能出设备。领导的原话是:“边缘设备嘛,就是要又快又准,别跟上次K8s…