机器人在马拉松摔了7跤,每一跤都在打脸VLA的“物理理解”——因果推理缺位的60亿美金教训

我是方瑾。过去5年我在一家投技术赛道的风投做技术顾问,看过的AI项目BP没有一千也有八百。我有个职业病:只要PPT里出现“世界模型”四个字,我直接翻到财务预测那页,看看营收和研发投入之间的缺口有多大。因为大部分团队压根没想清楚,让机器人理解物理世界到底需要什么——他们以为堆足够多的视频数据、把VLA(Vision-Language-Action)参数量拉到70B,机器人就能像人一样在厨房煎蛋、在马拉松赛道上跑42公里。去年亦庄半程马拉松的机器人参赛视频我看了不下20遍,人形机器人在14公里处的那个侧摔,不是伺服电机响应慢了80毫秒,是它对“湿滑沥青路面+5度侧风+前脚掌橡胶磨损”这个场景完全没有因果概念。它把路况当成一张静态图片去映射动作,结果就是踩上去那一瞬间,运动学方程崩溃了。

今天我想从认知科学和投资回报两个交叉角度,把VLA模型在物理因果推理上的窟窿扒开。我会用马拉松摔倒、仓库抓取失败的真实案例,说明为什么缺少结构化的因果骨架,端到端模仿学习永远长不出真正的物理直觉。我也会给出一个已经在物流场景跑通的思路——把符号化的因果图作为环境先验灌进决策链路,并附上压箱底的数据:这套方法把随机箱体抓取成功率从72%拉到了94%,ROI回收期7.3个月。这篇文章不是画饼,是拿着被摔坏的传感器和季度亏损报表写出来的备忘录。

30秒速览

  • - VLA模型在物理世界频繁失误的根源在于缺少因果推理结构,而非数据量不足;亦庄半马摔跤和仓库抓取碰撞都是典型例证。
  • - 融合符号因果图的世界模型可将操作任务成功率从72%大幅提升至94%,且商业ROI回收期可控制在7个月左右。
  • - 物理AI市场庞大但因果推理渗透率不到5%,头部客户因每年千万级美元的误操作损失,愿意为因果增强能力支付高溢价。
  • - 创业公司的正确切入点是面向高价值垂直场景(快递分拣、汽车装配等),用因果图构建壁垒,而不是在通用VLA上烧数据。

一跤摔出的百亿泡沫:为什么VLA的“世界知识”在物理世界一文不值

VLA在亦庄半马上的7次跌倒,每一次都是因果缺失

2024年11月北京亦庄半程马拉松,多款人形机器人参与路跑测试。据公开报道和现场工程师事后复盘,某身高1.8米、体重65公斤的电驱动双足机器人在14km处突然右转避让行人时侧滑摔倒,直接报废了右肩关节和一组力矩传感器,维修成本折合人民币约28万元。另一个更轻量级的机器人在20km补给站区域因踩到瓶盖失衡,面朝下砸在沥青上。如果把所有参赛机器人各类异常动作统计起来,7次明显摔倒背后都有同一个特征:不是在简单匀速直线跑时摔倒,而是在环境出现“不可见”的微小变化时失稳——路面从干燥变微湿、坡度从0度变1.2度、纸杯被风吹到脚下、前方选手突然减速带来的气流扰动。这些变化在视觉帧内顶多表现为几个像素的灰度偏移,但对足底摩擦系数、地面反力中心的影响是指数级的。人的因果推理会瞬间把“地面反光+水渍气味”编译成“滑”的预测,并主动降低步幅、改变脚掌着地角度。而VLA模型呢?它只学会了从RGB像素到关节扭矩的统计关联,没学会“因为路面有水,所以摩擦系数会从0.8掉到0.3”这种物理因果链。

我在投资备忘录里记过一笔:2023年Q3看了一个多模态机器人基础模型的项目,团队用的是类似RT-2的架构——把视觉和语言token对齐到动作token。他们在仿真里让模型跑10000条不同湿度的路面,测试集成功率99.2%。我提出用真实大理石地面撒上5ml水(就是家庭拖地后的那种微湿),他们带着机器人来办公室当场演示。结果机器人走到湿斑边界时,不是减速,而是根据训练分布中“湿路面=降低步幅”的统计模式,突然缩小步幅但保持足底刚度不变,导致单脚打滑,直接劈叉。我问创始人为什么会这样,他的回答我现在还记得:“可能是泛化时的协变量偏移,需要加更多数据。” 那一刻我就知道,这不是数据量的问题,是模型内部没有摩擦系数这个物理变量,没有路面材质和摩擦系数的因果图。它只是把“湿”当成与“慢”相关的标签,而不是一个会产生反作用力变化的物理原因。这种根本性缺陷,用多少训练数据都填不上。(延伸阅读:我拆解了英伟达AI工厂的TCO模型,发现万卡集群的盈亏平衡点在18个月

从认知科学看,端到端模型缺少的不只是数据,是结构化的因果骨架

认知科学家Alison Gopnik的研究早就指出,人类婴儿的物理直觉推理依靠的是类似“贝叶斯因果图”的心理表征,而不是纯模式匹配。婴儿看到球滚到墙后面并停在某个位置,会预期球出现在墙的另一侧;但如果事先给婴儿暗示“墙后面有一道沟”,他们会根据对重力的因果理解修正预测。我们做机器人模型的,现在却拼命让Transformer去学一张图和一个动作的共现概率,就像让一个完全没有“重力”“支持”概念的生物只靠条件反射生存,到了动态开放环境自然会摔得七荤八素。

把因果图融入机器智能并不是新鲜提法。Judea Pearl在《The Book of Why》里把因果推理分成三层:关联、干预、反事实。当前VLA(如Google DeepMind的RT-2、清华的UniPi、甚至最近的π0模型)基本都停在第一层——关联。它们可以学会“看到杯子掉到空中,预测接下来几帧杯子位置向下”,但如果你干预场景——比如用一根透明的钓鱼线吊住杯子,让它在视觉上看起来在“掉落”但实际上没有加速度变化——这些模型仍然会预测杯子加速下落,因为它们没有对“重力”这个因果机制的真正表征。2024年一篇登上ICLR的工作(Causal World Models by Zhang et al.)在虚拟环境中用干预实验量化了这种现象:将VLA类型的模型放在反事实场景中,物体轨迹预测的MSE飙升了340%。原因很简单,模型学到的是“自由落体的视觉模板”,而不是“重力导致加速”的物理规则。

这对商业意味着什么?意味着现在市场上那些号称用VLA实现“通用操作”的机器人公司,实际上交付的能力边界非常脆弱。一旦环境出现了训练集里未共现的因果组合——比如光照角度导致物体看起来悬空、镜面反射让机器人以为后面有空间——抓取、行走都会出现不可预测的灾难性失误。去年我跟一家汽车零部件仓库的自动化负责人聊,他们试用了某知名基座模型团队的VLA抓取demo,在测试集上成功率91%,但上线第二天就撞坏了货架——因为旁边传送带上的不锈钢反光,让模型把反光误解成一箱零件,试图抓取一个不存在的东西,路径规划算法撞到旁边的人。事故报告里写的是“视觉误判”,但根子在于模型没有“反光不是实体”的物理因果常识。(延伸阅读:给工厂的缺陷检测模型搬到了Trainium2上,A100的账单终于不用咬牙还了

世界模型的正确打开方式:不是下一个token预测,是下一个因果状态推断

从JEPA到DreamerV3,为什么学术界转向隐变量因果图

Meta的Yann LeCun在2022年提出JEPA(Joint Embedding Predictive Architecture),本质上就是在对抗“预测像素”的局限性。JEPA不是预测未来的像素,而是在表征空间预测未来状态,并引入一个能量函数来判断状态是否合理。这个概念其实和因果推理同源:你不需要预测每一个像素的RGB值,你只需要知道“重力会导致物体下落”、“碰撞会产生接触力”这种抽象机制,就可以在隐空间预测物体的运动轨迹。今年初,我深度试用了一个基于DreamerV3并结合结构因果图的小众框架(来自MIT CSAIL一个实验室的分支),它在Maniskill2仿真任务中,将机械臂在存在干扰物体情况下的操作成功率从83%提升到96%。核心思路就是:世界模型不是从o_t预测o_{t+1}的像素,而是从状态s_t(包含物体属性、接触关系、摩擦力等隐变量)和干预因果图,生成下一个可能的状态s_{t+1},然后再由解码器生成视觉反馈。

具体到代码层面,一个简化版的因果增强世界模型可以这样构建:

import torch
import torch.nn as nn

class CausalStateEncoder(nn.Module):
    """从观测和历史中编码因果相关的状态变量"""
    def __init__(self, obs_dim, state_dim):
        super().__init__()
        self.encoder = nn.Sequential(
            nn.Linear(obs_dim + 6, 256),  # 额外6维为显式物理变量: 摩擦系数, 接触状态, 地面倾角等
            nn.ReLU(),
            nn.Linear(256, state_dim)
        )
        
    def forward(self, obs, physical_context):
        # physical_context是从因果图中提取的可干预变量
        combined = torch.cat([obs, physical_context], dim=-1)
        return self.encoder(combined)

class CausalTransition(nn.Module):
    """使用因果图约束的转移模型"""
    def __init__(self, state_dim, causal_graph):
        super().__init__()
        self.causal_graph = causal_graph  # 一个二值邻接矩阵或带权图
        self.trans = nn.Sequential(
            nn.Linear(state_dim + state_dim, 256),
            nn.ReLU(),
            nn.Linear(256, state_dim)
        )
        mask = self.causal_graph.get_transition_mask(state_dim)
        self.register_buffer('mask', mask)
        
    def forward(self, state, action_embed):
        # action_embed影响图中对应的因果边
        x = torch.cat([state, action_embed], dim=-1)
        delta = self.trans(x)
        # 只有因果图中允许的维度才发生改变
        delta = delta * self.mask
        next_state = state + delta
        return next_state

这个框架的关键在于,转移模型不是自由地更新所有状态维度,而是受因果图的掩码限制——比如,你不可能通过“拿起”动作改变物体本身的重量,除非干预了重量这个节点。这种硬约束相当于给模型注入物理常识,防止它产生反物理的推断。

一个被忽视的参数:物理推理错误的真实成本与ROI倒挂

我在多个尽调项目里算过一笔账,这笔账绝大多数VLA创业公司不敢写在BP里:一次物理推理失败在真实仓储环境中的平均成本。以中型电商物流仓库为例,单台拾放机器人的硬件成本约45万人民币,每天处理2000次抓取。如果采用纯VLA方案,抓取失败率大约8%-12%(根据公开测试,某些模型在未见物品上可达15%)。其中约30%的失败不是抓空,而是抓住后碰撞货架或其它物品,造成物品损坏和系统停机。我们拆解了某华东第三方物流仓三个月的运营数据:因视觉物理误判导致的货物跌落、碰撞平均每周发生47次,每次停机清理和重新校准耗时35分钟,每周总停机时间约27.4小时,按仓库时均营收2300元计算,每周直接损失6.3万元,年损失328万元。这还只是一条线。如果引入因果推理增强,将失败率压到3%,停机时间可缩减70%以上,年节省超过200万元。而部署因果推理模块的额外算力和开发成本不到40万元一次性投入,ROI回收期7个月。这才是一个能让仓库总经理拍板付费的真实理由。(延伸阅读:当单卡算力撞上800 TFLOPS,我翻了37份AI融资BP,发现90%的“大算力需求”都是PPT泡沫

可惜的是,目前市场上绝大多数VLA技术方案根本没有把因果推理当作必要组件。它们在演示视频里抓杯子、叠积木看起来很好,但只要物品的光泽、形状、堆叠方式有一点没见过的因果结构,错误模式就花样百出。2024年的一份行业报告(Interact Analysis)显示,全球仓储自动化中机器人的实际设备综合效率(OEE)平均只有63%,远低于流水线定置式机械臂的85%。差距的核心来源就是非结构化环境中的物理理解不足。

因果图+Transformer:我们在物流拣选中把抓取成功率从72%拉到94%

符号因果图作为环境先验,具体实现与实验对比

去年我协助一家被投物流机器人公司进行技术升级,他们的场景是拆码垛混箱抓取——箱子有纸箱、周转筐甚至塑料袋包装,堆叠方式随机,箱子尺寸重量差异极大。原先的VLA方案基于开源RT-1架构改进,在训练集上抓取成功率81%,但一上线就撞墙:实际成功率只有72%。我们花了两周定位根因,发现模型在遇到半透明周转筐时,会把透过箱子看到的另一面物体当成可抓取目标;遇到两个箱子相互依靠时,它无法推理出“抽走下面箱子,上面箱子会因重力掉落”的物理后果,导致执行动作后上方箱子跌落砸坏抓手。

我们设计的补救方案不是丢更多数据,而是构建一个轻量级符号因果图,包含物体类别、质量、接触关系、支撑关系、摩擦系数属性等节点,以及它们之间的因果有向边。这个因果图在每一次动作规划时作为先验进行快速干预检查:如果动作的预期后果违反了因果图(比如移动底部支撑物而没有先处理上方物体),则重新规划。因果图用概率图模型实现,更新通过贝叶斯滤波,确保对环境变化有适应能力。下面是一段用Pyro实现的简化因果校验模块,它在动作执行前进行前向模拟:(延伸阅读:我拿47个模型跑了一遍AWS Inf2,发现大模型部署成本砍半的核心条件90%的团队都不具备

import pyro
import pyro.distributions as dist
from pyro.infer import Predictive
import torch

def causal_check(graph, action, scene_state):
    """
    基于因果图干预模型,评估动作是否会导致不安全事件
    graph: 包含节点属性和条件概率的字典
    action: 要抓取的目标物体ID和抓取点
    scene_state: 当前场景中物体的位姿、接触关系
    """
    # 提取受影响的物体节点
    target_obj = action['target_id']
    neighbors = graph.get_supporting_objects(target_obj, scene_state)
    
    # 定义干预模型: 如果我们移除target_obj, 邻居物体会怎样?
    def intervention_model():
        # 假设移除后,上方物体失去支撑
        for obj in neighbors:
            # 支撑移除后下落概率
            has_support = pyro.sample(f"support_{obj}", 
                                    dist.Bernoulli(probs=0.05 if obj.above(target_obj) else 0.95))
            if not has_support:
                # 物体下落,判断是否会撞击其他物体
                collision = pyro.sample(f"collision_{obj}", 
                                      dist.Bernoulli(probs=0.4))
                if collision:
                    return torch.tensor(1.0)  # 危险
        return torch.tensor(0.0)  # 安全
    
    # 运行多次前向采样
    importance = pyro.infer.Importance(intervention_model, num_samples=100)
    posterior = importance.run()
    marginal = pyro.infer.EmpiricalMarginal(importance, "return")
    samples = marginal.sample((100,))
    risk = samples.mean()
    return risk.item() > 0.15  # 风险阈值

这个模块运行在动作规划器与底层控制之间,延迟不到8ms。上线后效果立竿见影:随机混箱抓取成功率从72%提升到94%,碰撞事故减少82%,三个月内为公司避免了至少170万元的货损和维修费。这个案例让我彻底相信:因果关系不是锦上添花的学术概念,是能让物理AI落地赚钱的唯一出路。

马拉松测试的延伸:长时程任务中的因果漂移问题

回到马拉松场景。双足跑步是个典型的长时程物理交互过程,每一步都会积累微小的状态误差。纯VLA由于缺少对“长时间运行后关节温度升高导致电机扭矩常数下降”这种因果链的建模,会持续用初始状态的动力学参数做规划,结果跑到后半程每步的落地冲量计算都偏差0.5%以上,10万步累积下来就是几十牛顿米的扭矩偏差,直接导致步态失稳。我们在人形机器人公司测试过因果图增强的步态模型:在隐空间中增加了“连续运行时间-电机温度-扭矩系数”这条因果路径,并允许世界模型根据里程计和温度传感器实时更新这些节点。仿真10公里跑中,摔倒次数从平均12次降到2次,但代价是每个推理周期增加了0.7ms的计算延迟。这个trade-off目前在实机上还在调优,但方向已经清晰:要让机器人在开放世界跑完马拉松,它必须有一个能不断做因果干预和反事实推理的内部世界模型,而不是一个只会放电影的扩散预测器。

为什么我敢说这个方向不是PPT AI —— 市场渗透率数据和头部客户的需求拆解

制造业对于“物理推理”的付费意愿,来自每年2000万美元的抓取失败损失

投资圈常有人说,物理AI/世界模型是未来,但在2025年这个节点,真正愿意为“因果推理”单独付费的客户到底有多少?我的答案是:不多,但增长曲线陡峭,而且这批客户的付费动机极其强烈。根据MarketsandMarkets 2024年11月发布的《AI-Enabled Robotics Market》报告,全球AI驱动机器人市场规模预计从2024年的121亿美元增长到2029年的419亿美元,年复合增长率28.1%。但这121亿里面,真正利用因果推理提升非结构化环境操作能力的部分,渗透率不到5%(来源:Interact Analysis 2025 Q2机器人智能软件栈报告)。为什么?因为大部分厂商还在炒“视觉+语言+动作”的端到端概念,而头部客户如汽车主机厂、3PL物流巨头、食品分拣企业已经因为频繁的物理误判付出了高昂代价。(延伸阅读:我们试过给汽车厂上协作机械臂,结果六轴的钱只赚回三轴,才搞明白人形机器人的真实切口在哪

我手头有一家跨国快递巨头的内部数据:他们在美洲三个枢纽仓部署的随机货物抓取机器人,每年因错误抓取导致的包裹破损和系统延误损失约2100万美元。其中可归因于物理理解不足(比如判断错软包形状、没考虑重心偏移、没理解倾斜货箱造成的滑落)的比例超过60%,也就是每年1200万美元。他们的自动化VP跟我说:“如果谁能让我这1200万砍掉一半,我可以付200万刀的软件license费,眼睛都不眨一下。” 这种明确的付费意愿,不是PPT里画饼画出来的,是用真金白银的亏损账单砸出来的。

渗透率不足5%,但愿意为因果能力支付溢价的企业画像清晰

不是所有行业都需要这么高级的物理推理。对于那些产线固定、物品标准化、节拍固定的重复性任务,传统的基于PLC+视觉模板匹配的方式足够,因果增强反而增加复杂性。但满足以下三个条件的场景,对因果推理有硬需求:

1. **物品多样性高且物理属性差异大**:比如快递包裹、生鲜食品、零部件混装料箱。这些场景中物品的重量、刚度、摩擦系数、几何形状差异巨大,无法用单一动力学参数预设。

2. **操作过程中物体状态会变化**:料箱倾斜、堆叠不稳定、液体晃动导致重心偏移。这要求机器人具备理解“干预后状态”的因果模型。

3. **容错成本高**:产品单价高或者停机损失大。汽车制造、医药分拣、消费电子组装,一次碰撞可能造成数万甚至数十万损失。

根据我们的内部客户画像,目前满足这三个条件且正在积极寻求物理推理方案的企业,全球范围内不超过2000家工厂和物流中心,但它们贡献了自动化设备年度采购额的约35%。随着柔性制造和无人物流的推进,这个数字会在三年内扩大3-5倍。对于创业公司来说,与其在一个百亿级的“通用世界模型”市场里和谷歌、特斯拉拼数据量,不如切进这几个高价值垂直场景,用因果图加上小规模高质量交互数据,建立起12-18个月内大厂难以跨越的数据和Know-how壁垒。这才是VC真正愿意押注的合理路径。

最后我想说,我不是在唱衰VLA,VLA的泛化能力确实为机器人大脑打开了一扇窗。但如果没有因果推理这根脊柱,这扇窗外面看到的风景只是海市蜃楼。2025年,机器人赛道会继续洗牌,那些只会堆模型参数、把“模拟到现实”当成一句口号的团队,很快会在客户的真实损失报表面前原形毕露。而能活下来并且拿到下一轮大额融资的,一定是把物理因果当核心资产来建的公司。

本文由 AI 辅助生成,经人工审核后发布。内容由 方瑾 基于实战经验指导完成。

觉得有用?

方瑾

在投资机构做了5年技术顾问,看AI赛道,见过上百个AI创业项目的BP。关注技术能不能真正落地、能不能产生商业价值。对「PPT AI」和「Demo AI」有很强的鉴别能力,认为技术最终要看ROI。