🏷️ WebRTC

放弃轮询,拥抱WebRTC:我在GPT-4o实时API上构建数学助手的48小时延迟攻坚战

去年年底,OpenAI 开放 GPT-4o 实时 API 的第一周,我就把团队拖进了一个“48 小时极限改造”项目:把公司已有的文本解题机器人升级成能看、能听、能实时对话的交互式学习助手。产品经理想象的场景很美好:一个学生举着手机对准几何题,AI 立刻看懂图形,用语音引导他一步步推导,随时可以打断追…

OpenAI系统卡里的232ms是骗局吗?我把GPT-4o实时视频API塞进手语翻译原型后的48小时

上个月 OpenAI 把 GPT-4o 的 system card 公开出来的时候,我正在实验室里对着一个实时翻译 demo 抓狂。那篇系统卡里有一个让我过目难忘的数字:音频到音频的平均响应延迟 232 毫秒,而且是在真实网络环境下测的。我第一时间想的是:这不就意味着,我终于可以把“视频理解+语音合…

GPT-4o的实时视频API,我把WebRTC接进去跑了48小时,发现论文里没人说的延迟陷阱

上个月组里接了个活,要在一个仓库监控原型里加上“实时异常行为识别”。需求方说得轻巧:“现在大模型不是很能看视频了吗?用GPT-4o那个新出的实时接口,200毫秒出结果,我们装个摄像头就行。”当时我正好读完Meta那篇Video-LLaMA的续作,脑子里全是“视频理解大一统”的幻觉,结果真把WebRT…