TensorRT-LLM – 伯乐青狼

凌晨两点，我的Jetson Orin突然闭嘴了：Gemma 2端侧部署的血泪调优实录

2026年5月19日 22 次浏览

我叫赵一帆，干了8年DevOps，被报警短信吵醒的次数比我女儿半夜哭闹还多。这次的项目是在一台巴掌大的Jetson Orin上跑Gemma 2对话模型，要求延迟低于500毫秒、每秒至少输出20个token，而且必须是本地推理，数据不能出设备。领导的原话是：“边缘设备嘛，就是要又快又准，别跟上次K8s…