GPT-4o的实时视频API,我把WebRTC接进去跑了48小时,发现论文里没人说的延迟陷阱

上个月组里接了个活,要在一个仓库监控原型里加上“实时异常行为识别”。需求方说得轻巧:“现在大模型不是很能看视频了吗?用GPT-4o那个新出的实时接口,200毫秒出结果,我们装个摄像头就行。”当时我正好读完Meta那篇Video-LLaMA的续作,脑子里全是“视频理解大一统”的幻觉,结果真把WebRT…