把GPT-4o mini塞进树莓派5:量化、NPU并行和三次半夜告警的全记录
我叫赵一帆,做了8年DevOps,K8s和CI/CD是我的饭碗。我的人生哲学很简单:生产环境要么稳得像死水,要么监控得响得像火警——因为被半夜叫醒的次数多了,自然就对“稳定”二字有了条件反射式的偏执。所以当团队说“我们准备在树莓派5上跑GPT-4o mini多模态交互,延迟得压在500ms以下”时,…
我叫赵一帆,做了8年DevOps,K8s和CI/CD是我的饭碗。我的人生哲学很简单:生产环境要么稳得像死水,要么监控得响得像火警——因为被半夜叫醒的次数多了,自然就对“稳定”二字有了条件反射式的偏执。所以当团队说“我们准备在树莓派5上跑GPT-4o mini多模态交互,延迟得压在500ms以下”时,…