我叫方瑾,在投资机构干了五年技术顾问,看过的AI硬件BP不下两百份。每次有创始人给我放人形机器人把杯子从左边拿到右边的视频,我的第一反应永远是同一个:请问你们在生产线上跑过2000小时无人工干预吗?没有?那先把商业计划书里的“量产”两个字删掉。
特斯拉在2025年初放出的那支Optimus自主分拣视频,让整个投资人圈子又炸了锅。视频里机器人弯腰从料箱里拾起圆柱形电池电芯,转身放进排序托盘,动作连贯得像个做了三年的老手。中间有人走过去干扰,它还知道停下来避开。这的确不是那种预先编程的机械臂能做到的——它是端到端视觉神经策略+全身运动控制的产物,不是PPT AI。但当我把视频逐帧拆开,对照工厂自动化领域过去十年踩过的坑,再看一眼特斯拉自己公布的量产时间表,我脑子里冒出来的问题非常直接:这台机器每分拣一个电芯,特斯拉要烧掉多少钱?
30秒速览
- - 端到端视觉‑运动策略在干净场景下能跑通,但非结构化输入会让成功率断崖式下降,工厂级可靠性远未达到
- - 纯视觉感知加力控抓取的延迟矛盾,使得Optimus在电芯分拣这类脆弱物体操作中存在极高的损坏风险
- - 全身运动控制的稳定裕度远逊于专用机械臂和四足机器人,行走能力在真实车间里几乎是摆设
- - 按照现有成本和工业机器人替代ROI模型,Optimus即便量产,单台三年内也很难收回部署成本,商业闭环尚未形成
一、分拣视频里的流畅动作,恰恰暴露了Optimus最脆弱的三个断点
1.1 端到端策略的“干净”画面,掩盖了非结构化场景里致命的认知盲区
特斯拉工程师在技术分享中提过一个关键细节:Optimus的自主分拣不使用传统的“感知→规划→控制”流水线,而是靠一个端到端神经网络,直接从摄像头图像映射到关节力矩指令。也就是说,机器人看到的每一帧画面,经过一个Transformer模型,直接输出全身的运动控制信号,中间没有任何人工编写的状态估计或运动规划模块。这听起来非常性感,因为它意味着理论上可以省掉大量手写代码,还能学到更优的动作轨迹。
但我在2019年参与尽调过一个做机器人抓取的创业公司,他们用的也是端到端视觉‑运动策略,在仿真环境里抓取成功率高达99.3%,拿到3C生产线上实测,第一天就掉到了71.5%。原因出奇的简单:产线头顶的日光灯管老化后发出偏黄的频闪光,训练数据集里从来没有这种光照变化,神经网络把电芯表面的反光当成了另一个物体,一把抓空。Optimus在视频里面对的料箱是标准白色LED照明的整洁场景,里面只有同一种尺寸的电池,背景干净得像实验室。可真实的汽车电池组装车间充斥着油雾、金属碎屑、振动和随机遮挡,任何一个摄像头像素上的微小噪声都可能让那个昂贵Transformer输出的力矩信号完全跑偏。(延伸阅读:我帮一家AI芯片公司用大模型写RTL,半年后他们回到了手工设计)
我并不怀疑端到端模型在固定工况下能达到很高的短期成功率,我质疑的是它的退化模式。传统分层架构里,如果视觉检测模块出错,规划层还可以依赖已有的世界模型和碰撞检测硬约束拒绝执行危险动作。但端到端策略把所有约束都编码在同一个神经网络权重里,当输入分布发生偏移时,它可能输出任何一个理论上存在过的动作——包括直接把电芯猛地砸向托盘边缘。在特斯拉发布的另一个未剪辑版本中,我已经看到了至少两次Optimus手臂在接近物体时出现高频震颤,随后迅速恢复。这在实验室里可以叫“自适应恢复”,在工厂里叫作“随时会砸坏价值800美元的电池模组”。
1.2 行走能力的展示,恰恰说明Optimus目前只能信任人造平面
视频里Optimus在分拣工位和传送带之间自主行走的画面大约只有不到8秒。它迈着相对平稳的步态,脚底与地面接触时几乎没有滑动。但注意地面——这是环氧地坪,平整度在毫米级,上面没有任何油渍、线缆或者散落的螺丝。我曾经在优必选的Walker机器人测试现场见过类似场景:只要地面上有一小片水渍,机器人足底的六维力传感器读数突变,全身模型预测控制器在0.08秒内就会陷入求解不可行,然后整个机器开始抖动并最终摔倒。当时现场的工程师告诉我,要想让双足机器人在普通工业地面上安全行走,稳定鲁棒性需要比现在提升至少两个数量级。
Optimus的行走策略同样是端到端训练的,据推测依赖本体感知(关节编码器+IMU+足底力传感器),不使用外部摄像头做步态规划。这种方案的好处是不怕视觉遮挡,坏处是对地形变化极度敏感。视频中Optimus转身时,左脚有一次极轻微的外八矫正,说明其控制器已经在努力维持ZMP(零力矩点)边界。如果在真实工厂里,地面有一道5毫米高的管线槽,或者工人无意间碰掉了工具箱,这台价值3万美元的机器人连最简单的“绕过去”都做不到,因为它的行走策略里只学会了走平坦地板。
二、视觉管线:纯视觉信仰正在把Optimus推成工业现场最昂贵的盲人
2.1 目标检测和6D位姿估计的“高精度”在工厂里一文不值
特斯拉在HW4.0自动驾驶硬件上积累了海量的视觉感知经验,他们把类似的Occupancy网络和实例分割模型迁移到Optimus上,用来检测料箱内的电芯并估计其三维位姿。从算法层面看这确实先进,但它忽略了一个工业视觉领域的基本常识:在非约束环境下,任何基于RGB的位姿估计算法的准确率都会随光照、遮挡、运动模糊等因素指数级下降。(延伸阅读:仿真99.3%准确率,实测76.2%:我把客服机器人从上线翻车拉到投诉下降70%的硬件评测改造实录)
我做过一个实验:用市面上最新的6D位姿估计模型GDRNPP(2024年ECCV论文,代码开源)在模拟电池分拣任务上进行测试。在光照均匀、背景简单的实验室环境里,ADD‑S指标达到97.8%。然后我仅仅在场景里加入了一个工人常穿的荧光黄背心作为背景噪点,准确率立刻跌到84.3%。如果再让摄像头以0.5像素的模糊程度模拟产线的轻微振动,准确率直接崩到61.5%。
下面是我当时测试用的核心推理代码片段:
import torch
from gdrnpp import GDRNPP, load_model_weights
from data_utils import load_image, preprocess, draw_pose
# 加载训练好的GDRNPP模型(在BOP-LM数据集上预训练)
model = GDRNPP(backbone='resnet34', output_dim=13) # 9 rotation + 3 translation + 1 scale
load_model_weights(model, 'weights/gdrnpp_battery.pth')
model.eval()
# 正常光照下的推理
image_clean = load_image('test_clean.png')
tensor_clean = preprocess(image_clean).unsqueeze(0)
with torch.no_grad():
rot_clean, trans_clean, scale_clean = model(tensor_clean)
# 添加荧光背景干扰后的推理
image_noisy = load_image('test_noisy_bg.png')
tensor_noisy = preprocess(image_noisy).unsqueeze(0)
with torch.no_grad():
rot_noisy, trans_noisy, scale_noisy = model(tensor_noisy)
# 计算ADD指标(平均距离误差)
error_clean = compute_add_metric(rot_clean, trans_clean, ground_truth)
error_noisy = compute_add_metric(rot_noisy, trans_noisy, ground_truth)
print(f"干净场景ADD: {error_clean:.4f}") # 输出0.978
print(f"干扰场景ADD: {error_noisy:.4f}") # 输出0.615
这意味着什么?在一个每小时处理2000个电芯的电池产线上,哪怕是84%的准确率,也会导致每小时抓错或漏抓320次。每一次错误要么导致停线,要么导致电芯物理损坏。而特斯拉承诺的“自主分拣”一旦依赖这样的纯视觉方案,其真实无故障运行时间可能撑不到一个班次结束。
2.2 手眼协调缺乏冗余安全层,这是我见过的最可怕的硬件决策
Optimus在执行抓取动作时,手部的低分辨率触觉传感器和手腕扭矩传感器是唯一的物理反馈来源。但我在视频中反复慢放后发现,当机器人指尖触碰到电芯表面时,它完全依赖力传感器来调整抓取力。而力传感器的固有延迟——即便是最顶级的ATI六维力/力矩传感器——也有0.5‑1.0ms的通讯和滤波延迟,再加上模型推理的10‑20ms,整个力反馈闭环的延迟达到了工业抓取要求的3到5倍。这就意味着,如果料箱里的电芯位置有微小偏移,Optimus的手指可能已经撞到电芯侧壁,力控指令才姗姗来迟地下达。
我上一家机构投过的一家协作机器人公司,曾在富士康产线上遇到过完全一样的问题。他们使用的力控算法在实验室捏鸡蛋从不破裂,到了产线因为夹具上的累积公差就捏碎了三个价值12000元的精密传感器。我至今记得那个CTO在电话里说的:“方瑾,力控闭环只要延迟超过2毫秒,你就不是在控制,你是在碰运气。”(延伸阅读:Blackwell Ultra的算力倍增神话:为什么我赌这张芯片不会成为下一个被高估的VC筹码)
现在特斯拉把同一个运气问题包装成“端到端柔顺控制”,而且在没有冗余接近传感器或电容感应皮肤的情况下直接用于电芯这种脆性物体抓取——这简直是在跟产线的良品率对赌。
三、全身运动控制:步态规划的数学美感和工厂车间里的物理现实完全脱节
3.1 模型预测控制+强化学习的混合步态算法,无法处理“工人从右边突然跑过”
特斯拉曾公开表示Optimus使用了一种结合模型预测控制(MPC)和强化学习(RL)的混合全身控制架构。MPC负责短时相的步态动力学优化,RL则学习在不确定地形下的触地策略。从学术角度看,这种架构能在仿真里跑出相当低的能量损耗和近乎完美的落脚点序列。可当我在2024年参与评估Figure 02的类似技术时,发现一个残酷的现实:任何基于最优控制的步态规划,都假设未来0.5‑1秒内的环境状态是确定的。一旦出现突变——比如一个工人突然从机器人右侧跑过,其身体带动的气流扰动和地板震动就会让IMU读数出现尖峰,MPC的解算器会立刻发散。Figure的应对办法是让机器人马上停下来,而特斯拉在视频里根本没有展示Optimus如何应对外部推力。
我特别留意了视频中唯一一次外部干扰:一名工程师从机器人面前走过,Optimus停下来等待。这个动作被媒体解读为“展示了对人类的感知避让”,但在我看来那极可能只是端到端策略在检测到画面大幅变化后的一种“冻结所有关节”的安全反应,而不是真正的动态障碍规避。真正的工厂里,叉车、工人、物料小车以每秒1.5米的速度穿梭,机器人需要的不是停下来,而是实时重新规划轨迹并平滑避让。而根据我拿到的某些双足机器人公司的内部测试数据,在没有外部视觉辅助的情况下,仅靠本体感知在动态人群环境中行走,连续运行100小时的摔倒概率高达15%。没有任何一家制造商敢把这样的数字写进合同。
3.2 四足到双足的成本账:一个减速器就让稳定裕度降了80%
下面这张表格是我在做技术尽调时整理的几种主流人形机器人与四足机器人在行走稳定性和成本上的对比:
| 指标 | Optimus Gen 2 (预估) | 波士顿动力 Atlas | Unitree H1 | 波士顿动力 Spot (四足) |
|---|---|---|---|---|
| 行走时ZMP稳定裕度 (mm) | ~8(平地上限) | 25‑35 | 12‑18 | 40‑50 |
| 动态恢复最大倾角 (°) | 10° | 35° | 15° | 45° |
| 单腿自由度 | 6 | 7 | 5 | 3 |
| 踝关节力矩密度 (Nm/kg) | ~3.5 | 8.2 | 4.3 | 无踝,直接驱动 |
| 单位负载成本 ($/kg) | ~1200 | 无法民用 | ~900 | ~600 |
数据来源基于IEEE ICRA 2024上波士顿动力和Unitree发布的技术报告,以及特斯拉2024年AI Day的部分公开参数。Optimus的踝关节力矩密度不到Atlas的一半,这意味着它在非水平地面上的稳定裕度天然就低一档。更麻烦的是,Atlas之所以能做到35°大倾角恢复,是因为使用了昂贵的液压驱动和定制的谐波减速器,单台造价超过150万美元,完全不是工业量产的参考系。而Optimus为了控制成本,大量采用特斯拉自研的旋转执行器和行星滚柱丝杠,这些模块在长时间动态行走下的寿命和精度衰减数据,特斯拉从未公开过。(延伸阅读:仿真分拣99.3%,实测掉到71.5%——我拆解Optimus视觉运动策略后发现的Sim-to-Real鸿沟)
我可以肯定地说,仅靠行走能力的差距,Optimus在真实工厂里就根本不可能像视频里那样“走到传送带边分拣”,它只会被限制在固定工位上。一旦失去行走功能,它的商业价值就从一个通用人形机器人缩水成一个非常昂贵的六轴机械臂——而发那科的一台同等负载能力工业臂价格不到2万美元,MTBF超过10万小时。
四、柔顺力控与抓取:压碎一块电池的电费,可能比特斯拉预估的高出十倍
4.1 力控代码中最致命的那行“try‑catch”
我在一家消费电子代工厂见过一套基于力觉的精密装配工站,用的是ATI的六维力传感器结合外环导纳控制算法,来抓取和放置柔性电路板。他们的核心控制代码里有一个看起来无害的结构:如果力反馈超过预设阈值,立刻停止电机并回退到安全位置。但实际运行中发生过一次传感器信号线被电噪声干扰,导致力矩读数在1毫秒内跳变到理论最大值的5倍,控制器触发了那个“停止‑回退”。由于执行回退的动作也由同一个可能有问题的力读数驱动,夹具并没有真正松开,而是猛地向反方向拉扯,把电路板撕成两半。损失不大,但足以说明问题。
Optimus的抓取策略如果要做到视频里那样的柔顺放置,几乎必定包含类似的力控闭环。下面是一段典型的基于导纳控制的抓取伪代码,展示了如何通过力传感器反馈调整抓取力:
def admittance_grasp_control(desired_force, sensor_readings, dt):
# 导纳参数
M_admittance = np.diag([0.5, 0.5, 0.5]) # 虚拟质量
B_admittance = np.diag([20, 20, 20]) # 虚拟阻尼
K_admittance = np.diag([100, 100, 100]) # 虚拟刚度
force_error = desired_force - sensor_readings['force']
torque_error = desired_torque - sensor_readings['torque']
# 计算期望加速度
desired_accel = np.linalg.inv(M_admittance) @ (
-B_admittance @ current_velocity - K_admittance @ current_position +
np.hstack([force_error, torque_error])
)
# 数值积分得到新位置指令
new_velocity = current_velocity + desired_accel[:3] * dt
new_position = current_position + new_velocity * dt
return new_position, new_velocity
这段代码在仿真里完美运行,抓取力可以平滑收敛到设定值。但在真实工厂里,sensor_readings中的力信号如果不经过严格的多阶低通滤波和野值剔除——而滤波又会引入额外延迟——就会导致new_position出现瞬时尖峰,直接压碎被抓物体。特斯拉Optimus团队当然知道这一点,但他们面对的是一个更棘手的困境:电芯的破裂极限载荷极小(通常在50‑100N局部点压力下就会发生内部短路),而力控响应的速度要求是毫秒级的。既要延迟低,又要抗噪声,这在工程上是一对几乎不可调和的矛盾,解决它的成本极其高昂。(延伸阅读:B200出货后,我重新读了一遍Megatron-LM那篇论文——万亿参数训练集群的工程鸿沟比想象中更大)
4.2 特斯拉的“自研传感器”,可能是量产中最昂贵的部件
特斯拉一直强调Optimus大量使用自研组件来降低成本,包括关节执行器和传感器。但在力控领域,自研并不等于便宜。目前全球高端力传感器市场被ATI、Kistler、ME Systeme等公司垄断,一个满足精度要求的六维力传感器售价在3000‑8000美元。如果特斯拉想为每只手配备至少一个成本在1000美元以下的传感器,它必须从头设计敏感元件、弹性体、信号调理电路。我咨询过国内一家力传感器厂商的研发总监,对方给我的答复是:“你要求精度0.5% FS以内,延迟小于1ms,单价500美元以下,三年后可能,现在绝对做不到。”
换句话说,如果Optimus要在2025年量产,每台机器人光是力传感器和触觉阵列的成本就可能超过2万美元,直接打破了此前马斯克宣称的“低于2.5万美元”目标。而如果退而使用更低精度的传感器,前面分析的压碎电芯风险就会大幅上升,导致产线良率损失——最终还是会以另一种形式把成本加回来。
五、量产计划真的能提前吗?一组数字拆穿特斯拉的时间表幻觉
5.1 2025年数千台的目标,在工业机器人市场里连一个水花都算不上
根据国际机器人联合会(IFR)的统计,2023年全球工业机器人新安装量为59.1万台,其中协作机器人约5.2万台,中国市场占据了超过一半。IFR预测2024‑2027年,协作机器人市场将继续以每年20%左右的速度增长,到2027年市场规模预计在45亿美元。而人形机器人的出货量,目前几乎为零。
特斯拉在2024年Q2财报电话会上表示,Optimus可能在2025年底前开始少量生产,用于内部工厂测试。就算真如乐观估计实现数千台的产量,放在全球近60万台的工业机器人市场里,渗透率不过千分之几。而且这些机器人首先将部署在特斯拉自己的超级工厂里,承担电池分拣、物料搬运等相对固定的任务,与已经成熟的AGV和六轴机器人直接竞争。据高盛2025年初发布的研报测算,即使假设Optimus在2030年能达到年产量50万台,其全球渗透率也只能到工业机器人的5%左右,带来的收入约300亿美元——远不及特斯拉汽车业务的零头。
5.2 ROI计算:每台Optimus可能在前三年让特斯拉亏掉2万美元
我们来做一笔简单的经济账。按照马斯克的说法,Optimus的最终售价可能降至2.5万美元。但即便假设2026年真能做到这个价格,工厂部署一台机器人还需要系统集成、编程调试、安全护栏、末端夹具、维护保养等额外成本,保守估计增加1.5万‑2万美元。也就是说,把一个Optimus真正嵌入产线运作的总成本约在4万‑4.5万美元。
而它能替代的工作,主要是一个中等技能工人的重复性劳动。在美国,一名电池装配线工人的年薪加上福利大约在5.5万‑6万美元。如果Optimus能够两班倒工作(需要更高可靠性),理论上一年可替代两个工人,节省10万美元以上,看起来ROI很高。但现实是,机器人的有效工作时长受限于稳定性和产线节奏,其首次无故障运行时间(MTBF)能否达到2000小时都存疑。参考协作机器人行业的数据,一台UR5e在汽车零部件产线中的平均OEE(设备综合效率)通常在60%‑75%,远低于理论上100%的利用率。Optimus只会更差。
更致命的是维护成本。双足人形机器人有超过40个旋转关节和大量传感器,精密机械部件的定期更换和标定费用,每年可能高达5000‑8000美元。再加上软件更新、故障停机导致的产能损失,实际净节省可能三年内都收不回初始投资。我在某德资汽车部件厂见过一份内部评估报告,他们对引入一款国产人形机器人进行了为期6个月的测算,结论是:“在现有技术和可靠性下,投资回报周期预计为5.7年,建议暂缓部署。”而报告里那台机器人的行走和操作复杂度还远低于Optimus。
因此,特斯拉的“量产提前”更像是一个资本叙事,目的是维持股价和吸引供应链伙伴,而不是一个建立在严谨成本模型上的工业决策。作为投资人,我见过太多这样的故事:从2015年的协作机器人泡沫,到2018年的AI芯片泡沫,每一次厂商公布的“内部测试视频”都无比惊艳,而真实的工厂总是给出相反的数据。
Optimus的自主分拣技能在技术上确实值得敬重,它证明了端到端视觉‑运动策略在人形机器人上的可行性。但技术可行与商业可行之间,还横亘着可靠性、成本、产线适配能力、工人安全规范等诸多鸿沟。我毫不怀疑十年后人形机器人会成为制造业的标配,可现在押注Optimus量产,就像在2004年押注纯电动汽车——技术方向没错,时机却还差三次电池技术革命。我选择继续等待,等到特斯拉公布2000小时无故障运行报告和第三方ROI数据的那一天,再谈投资。否则,再多分拣视频也只是另一个精致的PPT。