多模态Agent评测 – 伯乐青狼

多模态Agent的评测，我们一直在用错尺子——从轨迹对齐到目标达成的严格考试

2026年6月5日 25 次浏览

我做技术评测这些年，越来越觉得，行业给多模态Agent打分的方式，就像用尺子量温度。传统的对话评分——BLEU、ROUGE，甚至是GPT-4o当裁判的主观分，都没法回答一个关键问题：这个Agent到底能不能办成事？它点没点对按钮，填没填对表单，遇到弹窗是绕过去还是卡死。这些细节，藏在每一次鼠标移动、…