多模态大模型 – 伯乐青狼

GPT-4o的实时视频API，我把WebRTC接进去跑了48小时，发现论文里没人说的延迟陷阱

2026年5月22日 19 次浏览

上个月组里接了个活，要在一个仓库监控原型里加上“实时异常行为识别”。需求方说得轻巧：“现在大模型不是很能看视频了吗？用GPT-4o那个新出的实时接口，200毫秒出结果，我们装个摄像头就行。”当时我正好读完Meta那篇Video-LLaMA的续作，脑子里全是“视频理解大一统”的幻觉，结果真把WebRT…

标签： GPT-4o WebRTC 多模态大模型实时视频理解