多模态Agent的评测,我们一直在用错尺子——从轨迹对齐到目标达成的严格考试

我做技术评测这些年,越来越觉得,行业给多模态Agent打分的方式,就像用尺子量温度。传统的对话评分——BLEU、ROUGE,甚至是GPT-4o当裁判的主观分,都没法回答一个关键问题:这个Agent到底能不能办成事?它点没点对按钮,填没填对表单,遇到弹窗是绕过去还是卡死。这些细节,藏在每一次鼠标移动、…