Gemma 2 – 伯乐青狼

Gemma 2那篇技术报告我读了三遍，直到我把2B模型量化塞进安卓机，才发现离线翻译的真正代价

2026年6月10日 0 次浏览

把大语言模型塞进手机做离线翻译，这件事听起来很性感，但在真正动手把Gemma 2部署到一台老款安卓机上时，我才意识到从论文里的BLEU分数到用户按下翻译按钮之间，隔着一整套工程血泪。Google DeepMind在Gemma 2的技术报告里展示了2B模型在FLORES-200基准上零样本翻译的亮眼数…

标签： Gemma 2 离线翻译

凌晨两点，我的Jetson Orin突然闭嘴了：Gemma 2端侧部署的血泪调优实录

2026年5月19日 21 次浏览

我叫赵一帆，干了8年DevOps，被报警短信吵醒的次数比我女儿半夜哭闹还多。这次的项目是在一台巴掌大的Jetson Orin上跑Gemma 2对话模型，要求延迟低于500毫秒、每秒至少输出20个token，而且必须是本地推理，数据不能出设备。领导的原话是：“边缘设备嘛，就是要又快又准，别跟上次K8s…