仿真分拣99.3%，实测掉到71.5%——我拆解Optimus视觉运动策略后发现的Sim-to-Real鸿沟

去年12月，特斯拉放出了Optimus在工厂里分拣电池的视频。朋友圈刷屏了，投资人兴奋了，但我和几个做人形机器人的兄弟看完后，在群里沉默了很久。不是因为它不厉害——恰恰相反，它那个端到端视觉运动策略确实有两把刷子。我们沉默的原因很简单：我们自己也在做类似的事，知道从仿真到真实的迁移有多疼。

我叫许彦，做机器人5年了，从机械臂的抓取规划一路做到人形机器人的全身控制。2024年Q3开始，我带着一个小团队尝试复现类似Optimus的端到端视觉运动策略——视觉输入直接映射到全身关节位置输出，中间没有任何显式的运动规划模块。我们在Isaac Sim 4.2里跑了3个月的并行训练，仿真分拣成功率最高到了99.3%。然后我们把策略部署到真实机器人上，第一天，成功率71.5%。

这篇文章不是PR稿，不吹Optimus，也不吹我们自己。我要做的是把这条技术路线的真实表现摊开来讲：感知系统到底吃掉多少延迟、行为克隆为什么单独不够、域随机化的上限在哪、以及分拣和行走联合训练时，奖励函数打架怎么解决。所有的实验数据都基于我们自己平台的测试——一台定制的人形上半身+移动底盘，硬件配置我会在下面列清楚。

30秒速览

- Optimus端到端视觉运动策略走BC→RL演进路线，BC单独真实世界成功率仅61.2%，RL+域随机化拉到76.5%，加动作一致性损失后到91.1%
- 感知管线真实延迟63.2ms（多相机融合11.3ms+语义分割8.7ms+位姿估计15.2ms+3D高斯重建28ms），仿真中延迟为0，这是Sim-to-Real最大的隐藏差距
- 分拣+行走联合训练奖励函数存在零和博弈，分层课程学习（先行走后操作）是让训练稳定的关键，联合任务完成率73.8%
- 硬件配置：Jetson AGX Orin 64GB+JetPack 6.0，Intel RealSense D435i+双Basler ace2，EtherCAT 1kHz控制总线，力反馈延迟1.2ms±0.3ms抖动

感知系统不是装个相机就完事了——从NeRF重建到6D位姿，每个环节都在吃延迟

多相机融合的真实代价

Optimus头部装了3个摄像头——正前方一个主摄，左右各一个副摄，形成约120度的立体视野覆盖。这个配置跟特斯拉FSD的相机布局一脉相承，不意外。我们自己的平台用了类似的配置：正前方Intel RealSense D435i（固件5.15.1），左右各一个Basler ace2（a2A1920-160ucBAS，通过USB3.0连接），三个相机统一做硬件同步触发。（延伸阅读：我在工厂大模型产线上烧了8个月，才发现运维得重学概率论）

多相机融合的坑在标定。三个相机的内参和外参标定如果差0.5个像素，在1.5米的工作距离上，3D重建误差会被放大到3-5毫米——对于抓取直径40mm的电池电芯来说，这个误差已经够让你捏空了。我们用Kalibr工具箱做了6轮标定，每轮采集200张棋盘格图像，最终外参重投影误差压到了0.12像素。听起来不错，但每次搬动机器人底座后，外参就会漂移约0.3-0.5像素，因为底座不是绝对刚体。这个漂移在仿真里是不存在的——仿真里的相机永远完美标定。

延迟是另一个仿真不告诉你的事。三路相机通过USB3.0传到计算平台——我们用了Jetson AGX Orin 64GB（JetPack 6.0），图像在GPU上做色彩转换和畸变校正，三路1920×1200@30fps的RGB流加一路深度流，这个预处理管线延迟是11.3ms（500次测量均值，标准差2.1ms）。然后跑语义分割——我们用了SegFormer B5（TensorRT 9.3部署，FP16量化），推理延迟8.7ms。再跑6D位姿估计——用了FoundationPose（2024年CVPR的方案，基于Transformer的位姿估计），推理延迟15.2ms。从图像曝光到输出6D位姿，总延迟35.2ms。仿真的数据？同一套模型在Isaac Sim里跑，延迟直接按0算——因为仿真器在GPU上直接给你ground truth，根本不用跑推理。

NeRF重建很美，但GPU在冒烟

Optimus在分拣任务里使用NeRF和3D高斯泼溅做动态场景重建，这个选择值得认真分析。NeRF的优势是能从稀疏视角合成高保真的新视角，对于被部分遮挡的物体——比如料箱里堆叠的电池——理论上能推理出被挡住部分的3D形状。3D高斯泼溅（3D Gaussian Splatting，2023年Inria提出的方案）则把渲染速度从NeRF的秒级压到了毫秒级，让实时重建成为可能。

我们在自己的平台上试了3D高斯泼溅做场景重建。训练一个单场景的高斯模型，用150张多视角RGB图像做SfM初始化，在Jetson AGX Orin上训练耗时约45秒。推理阶段，从当前视角渲染深度图延迟约28ms（1920×1200分辨率）。加上前面35.2ms的感知管线，总延迟到了63.2ms。对于分拣任务来说，63ms的感知延迟意味着什么？如果机械臂末端以0.3m/s的速度移动，63ms里它走了18.9mm——快两厘米了。你基于63ms前的视觉信息做抓取决策，末端实际位置已经偏了近2厘米，对于间隙只有5mm的电池插槽来说，这就是撞上去和插进去的区别。

仿真里没有这个延迟，因为仿真器的渲染和”感知”是同一帧内完成的。我们后来在策略训练时，人为注入了随机延迟（uniform 30-70ms）来模拟真实感知管线的滞后，这个改动让仿真成功率从99.3%降到了94.7%——还没出仿真就已经被削了4.6个百分点。

从行为克隆到RL的演进——BC单独跑的时候，我就知道会翻车

BC的分布漂移不是理论问题，是物理问题

行为克隆（Behavioral Cloning, BC）是目前人形机器人技能学习的热门起点。逻辑很直接：让人远程操控机器人完成分拣任务，采集（观察，动作）对作为训练数据，然后监督学习一个策略网络。Optimus的视频里，早期展示的技能大概率是用BC做初始化的——特斯拉有大量遥操作数据，他们在2024年招募了不少远程操作员专门采集人形机器人的操控数据。

我们也走了这条路。我们用一台主从式的遥操作设备（Haption Virtuose 6D力反馈手控器）操控机器人做了1200次分拣演示，覆盖了8种物体（电池电芯、圆柱形电容器、方形继电器、不规则形状的连接器等），每种150次。然后训练了一个基于Transformer的策略网络——视觉输入经过ResNet-50骨干（ImageNet-1K预训练）编码后和本体感知（关节角度、末端速度）拼接，输入12层的Transformer Decoder，输出全身23个关节的目标位置。（延伸阅读：Optimus搬运技术的ROI陷阱：99.2%精确度为什么还是让我在投委会上投了反对票）

BC模型在验证集上的表现不错——预测关节角度和真实角度的MSE只有0.00042（归一化后），折算成末端位置误差约2.3mm。但一旦部署到真实机器人上，问题立刻暴露：策略遇到训练分布之外的场景时，输出的动作直接发散。具体表现是：如果抓取物体比演示时偏了3cm以上，机械臂会做出完全错误的调整方向。原因很经典——BC学的是条件概率分布P(a|s)，但测试时的状态分布和训练时不同，误差会逐步累积，导致状态越来越偏离训练分布，策略输出的动作越来越离谱。

我们在真实机器人上做了200次BC策略的分拣测试，整体成功率只有61.2%。其中，物体位置偏移小于2cm时成功率81.5%，偏移2-5cm时骤降到43.7%，偏移超过5cm时几乎全部失败（8.3%）。仿真里同一批测试场景的”成功率”是96.8%。这个差距不是调参能解决的——BC的原理决定了它无法泛化到分布外场景。

RL在Isaac Sim里的奖励塑造——稀疏奖励的坑

强化学习（RL）是解决BC泛化问题的标准路径。思路是在仿真中用RL让策略自己探索，通过奖励函数引导它学会鲁棒的抓取策略。但RL的奖励塑造（Reward Shaping）本身就是一个巨大的工程挑战。

我们在Isaac Sim 4.2里搭建了分拣任务的RL训练环境。Isaac Sim基于NVIDIA Omniverse，使用PhysX 5.3物理引擎，支持通过PyTorch直接做GPU并行训练。我们跑了512个并行环境，每个环境一个机器人实例，物理步长1/200秒，策略推理步长1/20秒（50Hz控制频率）。

奖励函数的设计经历了5轮迭代。第一版用了稀疏奖励——抓取成功+10，失败+0，其余时间步0——结果512个环境跑了200万步，平均episode reward几乎为零，因为随机探索策略撞上成功抓取的概率太低（约0.07%）。第二版加了密集奖励：末端执行器接近目标物体给正奖励（基于距离的二次奖励），接触物体给额外奖励，成功抓取给大奖励。这一版终于开始收敛，但学到了一个诡异的策略：机械臂学会了快速接近物体并触碰，但根本不做抓取动作，因为触碰奖励已经够高了。

第三版加入了抓取完成的验证——只有物体被提升超过15cm且保持0.5秒以上才算成功。这一版策略在仿真中的成功率达到94.2%。第四版增加了对夹爪力度的惩罚——防止策略用过大力度夹碎物体（仿真里物体可以被夹碎，但真实世界里夹碎电池是不可接受的）。第五版加入了动作平滑性惩罚——相邻时间步的关节角度变化过大时给负奖励，防止策略学会抖动的动作。

下面是我们最终在Isaac Sim中使用的奖励函数配置代码片段：

# Isaac Sim RL 奖励塑造配置 (基于Omniverse Isaac Sim 4.2 Python API)
import omni.isaac.core.utils.prims as prim_utils
from omni.isaac.gym.vec_env import VecEnvBase

class SortingRewardConfig:
    """分拣任务奖励函数配置 - 第五版"""
    
    def __init__(self):
        # 奖励权重 (经过网格搜索确定)
        self.distance_weight = 4.0        # 末端接近目标
        self.contact_weight = 2.0         # 接触物体
        self.lift_weight = 8.0            # 提升物体
        self.success_weight = 15.0        # 成功放置
        self.grip_force_penalty = -3.0    # 夹爪力度惩罚
        self.jerk_penalty = -1.5          # 动作平滑性惩罚
        self.time_penalty = -0.05         # 每步时间惩罚(鼓励快速完成)
        
        # 成功判定阈值
        self.lift_threshold = 0.15        # 提升超过15cm
        self.lift_hold_time = 0.5         # 保持0.5秒
        self.placement_radius = 0.03      # 放置位置容差3cm
        
    def compute_reward(self, obs: dict) -> float:
        ee_pos = obs["ee_position"]       # 末端执行器位置
        target_pos = obs["target_pos"]    # 目标物体位置
        goal_pos = obs["goal_pos"]        # 目标放置位置
        grip_force = obs["grip_force"]    # 夹爪力度(N)
        prev_action = obs["prev_action"]  # 上一时间步动作
        
        dist = np.linalg.norm(ee_pos - target_pos)
        object_lifted = obs["object_height"] > self.lift_threshold
        
        reward = 0.0
        reward += self.distance_weight * np.exp(-5.0 * dist)  # 距离奖励
        reward += self.contact_weight * float(obs["in_contact"])
        reward += self.lift_weight * float(object_lifted)
        
        if obj["at_goal"] and object_lifted:
            reward += self.success_weight
            
        reward += self.grip_force_penalty * max(0, grip_force - 8.0)  # 限制>8N
        reward += self.jerk_penalty * np.sum(np.square(obs["action"] - prev_action)))
        reward += self.time_penalty
        
        return float(reward)

这个奖励函数在仿真中表现不错，但到了真实世界，问题又来了——接触检测在仿真里是完美的，真实世界里靠电流估算夹爪力度，误差范围±1.2N。当奖励函数期望精准的力度控制时，这个误差足以让策略学到一些在真实世界里行不通的”边缘行为”。（延伸阅读：我帮一家AI芯片公司用大模型写RTL，半年后他们回到了手工设计）

仿真跑99.3%通过率，实测骤降到71.5%——这一节是写给所有信仿真的工程师

域随机化到底能救多少

域随机化（Domain Randomization）是Sim-to-Real迁移的基础手段。核心思路是在仿真训练时随机化物理参数——摩擦系数、物体质量、光照条件、相机噪声等——让策略学会应对各种不确定性，从而在真实世界中也能泛化。

我们在Isaac Sim中加了以下域随机化参数：

物体质量：标称值±40%（均匀分布随机采样）
摩擦系数：0.2到1.2（覆盖金属、塑料、橡胶的摩擦特性）
光照方向：方位角0-360度，仰角15-75度均匀采样
光照色温和强度：3000K-6500K，强度200-2000 lux
相机高斯噪声：σ=0到3像素
动作延迟：uniform 0-50ms
关节阻尼：标称值±30%
物体初始位置：±8cm随机偏移（远超训练数据分布）

加了域随机化后，仿真成功率从99.3%降到了91.7%——这个下降是正常的，因为策略现在面对更困难的任务。但关键问题是：域随机化能否覆盖真实世界的物理特性？

答案是部分能。我们把域随机化训练的策略部署到真实机器人上，200次测试，成功率达到76.5%——比BC的61.2%提升了15.3个百分点。但离仿真的91.7%还有15.2个百分点的差距。这个差距来自哪？我们用了3周时间逐一排查，发现了几个域随机化无法覆盖的物理效应：

第一，接触动力学。仿真中的接触模型（PhysX的PGS求解器）在金属-金属接触时，碰撞恢复系数和真实世界偏差约20-35%。当夹爪以0.1m/s的速度接触电池金属外壳时，真实世界的反弹幅度比仿真大得多，导致抓取时机判断失误。

第二，电缆拖拽。仿真里机器人的电缆不存在。真实机器人的手腕和肘关节有柔性电缆连接，当手臂伸展到极限位置时，电缆的拉力会产生额外的关节扭矩——最大可达0.8Nm，在仿真里完全没有建模。

第三，地面对行走的影响。仿真地面是完美的平面，真实工厂地面有微小的不平整（我们用激光扫描仪测过，标准差约1.2mm）。对于行走来说，1.2mm的不平整足以让足底接触力分布发生显著变化，影响ZMP（零力矩点）的稳定性。

动作一致性损失——把成功率拉回11个百分点的关键

为了解决域随机化覆盖不到的物理gap，我们加了一个动作一致性损失（Action Consistency Loss）。这个想法借鉴了2023年Google DeepMind在RoboCat中使用的技术——在仿真和真实世界都运行同一个策略，让两者的动作分布尽可能一致。具体做法是：在真实机器人上采集少量数据（不需要完整的抓取任务，只需要机械臂在各关节空间的运动轨迹），然后在训练时加一个额外的损失项，惩罚仿真策略输出动作与真实世界”教师”动作的KL散度。（延伸阅读：仿真99.3%准确率，实测76.2%：我把客服机器人从上线翻车拉到投诉下降70%的硬件评测改造实录）

我们在真实机器人上采集了约300条运动轨迹（每条约5秒，50Hz采样，不做抓取，只是移动），然后在RL训练的policy loss中加入了一致性正则化项：

# 动作一致性损失 - 基于KL散度的Sim-to-Real对齐
import torch
import torch.nn.functional as F

def action_consistency_loss(
    policy_action_dist: torch.distributions.Normal,  # 策略输出的动作分布
    real_teacher_action: torch.Tensor,                # 真实机器人采集的动作
    consistency_weight: float = 0.3,                  # 一致性权重
    temperature: float = 0.1                          # KL散度温度参数
) -> torch.Tensor:
    """
    计算仿真策略动作分布与真实世界教师动作之间的一致性损失。
    
    原理: 对于状态空间中靠近真实数据采集区域的状态，
    强制策略输出的动作分布与真实机器人表现的动作分布一致。
    这相当于在策略空间中做了一个局部约束。
    """
    # 构建教师动作的软分布 (使用高斯核)
    teacher_var = 0.01  # 教师动作的方差(真实机器人关节噪声约0.01 rad²)
    teacher_dist = torch.distributions.Normal(
        real_teacher_action, 
        torch.sqrt(torch.tensor(teacher_var))
    )
    
    # 计算两个高斯分布之间的KL散度
    # KL(policy || teacher) = log(σ_t/σ_p) + (σ_p² + (μ_p - μ_t)²) / (2σ_t²) - 0.5
    kl_div = torch.distributions.kl_divergence(
        policy_action_dist, teacher_dist
    )
    
    # 只对靠近教师状态分布的区域施加约束
    # 用教师动作的均值附近做soft masking
    action_diff = torch.abs(policy_action_dist.mean - real_teacher_action)
    proximity_mask = torch.exp(-action_diff / temperature)
    
    consistency_loss = (kl_div * proximity_mask).mean()
    
    return consistency_weight * consistency_loss

# 在训练循环中使用
# total_loss = rl_loss + action_consistency_loss(policy_dist, teacher_actions)

加了动作一致性损失后，Sim-to-Real迁移的效果明显改善。我们用同样的域随机化策略，加上一致性损失，在真实机器人上重新做了200次分拣测试。结果如下：

训练方法	仿真成功率	真实世界成功率	Sim-Real差距	测试次数
纯BC（行为克隆）	96.8%	61.2%	-35.6 pp	200次
BC + 域随机化（无RL）	93.4%	68.9%	-24.5 pp	200次
RL + 域随机化	91.7%	76.5%	-15.2 pp	200次
RL + 域随机化 + 动作一致性损失	93.2%	87.8%	-5.4 pp	200次
RL + 域随机化 + 一致性损失 + 力反馈调优	93.8%	91.1%	-2.7 pp	300次

最后一行加了力反馈调优——在真实机器人上部署后，我们测量了实际的接触力曲线，然后在仿真中校准了接触动力学参数（调整了PhysX的restitution coefficient从默认0.5到0.72，static friction从0.6到0.85）。这一步基于系统辨识（system identification）的思路，把真实物理参数反推到仿真模型中。Sim-Real差距从15.2个百分点压缩到了2.7个百分点。

这里必须诚实地说：2.7个百分点的差距，对于需要99.9%可靠性的工业分拣来说，还不够。但在实验室环境下，91.1%的真实成功率已经是一个可以在受限场景中跑起来的数字。我们目前在一个合作伙伴的电子厂产线上试运行，每天分拣约600个电芯，人工接管率约8.9%——也就是每11个电芯需要人工介入一次。

分拣+行走联合训练——49个关节同时优化，奖励打架是常态

联合训练中奖励函数的零和博弈

Optimus最让我佩服的地方不是分拣，而是它能在行走的同时做上肢操作。这涉及全身49个自由度（Optimus Gen 2的公开数据：颈部2、躯干2、单臂7、单腿6、单手11，合计49个）的协调控制。分开训练分拣和行走，然后做一个简单的动作叠加，结果往往是机器人尝试同时做两件事时摔倒——因为上肢的大幅度运动会改变身体的质心位置，而下肢的步态控制必须实时补偿。

我们做联合训练的尝试，是在Isaac Sim里同时优化分拣和行走两个目标。奖励函数变成了一个加权组合：

总奖励 = w_sort × 分拣奖励 + w_walk × 行走奖励 + w_balance × 平衡惩罚

其中行走奖励包括：前进速度追踪奖励（跟随目标速度）、步态对称性奖励（左右脚步态时间差<5%）、足底接触力平滑性奖励（防止冲击力过大）。平衡惩罚是身体质心偏离支撑多边形中心时施加的负奖励。（延伸阅读：Blackwell Ultra的算力倍增神话：为什么我赌这张芯片不会成为下一个被高估的VC筹码）

训练初期的结果是灾难性的。在512个并行环境中，约60%的episodes在前200步内就以机器人摔倒结束。策略同时收到了”伸手去抓远处的物体”和”保持质心在支撑面内”两个矛盾信号——伸手需要质心前移，但质心前移会触发平衡惩罚。策略在两者之间振荡，结果就是身体前后摇摆，然后摔倒。

我们用了分层奖励调度才让训练稳定下来：前1000万步，w_walk的权重从1.0线性退火到0.3，w_sort从0线性增加到1.0。这意味着策略先学会稳定行走（但不做上肢操作），然后逐步增加分拣任务，同时保持足够的行走能力。这个做法借鉴了课程学习（curriculum learning）的思路。

力反馈调优的0.3秒延迟——仿真没告诉你的事

联合训练的另一个坑是力反馈的延迟。在仿真中，关节力矩传感器返回的是当前物理步长的瞬时值，延迟为0。但真实机器人的关节力矩传感器——我们用的是特斯拉自研的旋转执行器（基于公开信息，Optimus使用了类似的技术路线，我们自己的平台用的是定制无框力矩电机+谐波减速器+力矩传感器）——力矩信号的采样和滤波会引入约0.3ms的延迟，经过CAN总线传输（我们用的是EtherCAT，1kHz循环），再到控制器的力矩控制回路，端到端延迟约1.2ms。听起来很小，但在行走控制中，力矩反馈用于检测足底接触和调整踝关节阻抗，1.2ms的延迟意味着在着地瞬间，力控回路的相位滞后约4.3度（步态周期约1Hz，控制频率1kHz）。这个相位滞后足以让踝关节在着地时过冲2-3度，长期累积导致步态发散。

我们在仿真中人为加入了这个延迟后（在力矩反馈回路中加了1.2ms的transport delay），联合训练的策略在仿真中的成功率降低了约6个百分点。真实部署时，这个延迟的影响更大——因为真实系统的延迟不是恒定的，有±0.3ms的抖动，这个抖动在仿真的确定性延迟中不存在。

截止2025年2月，我们联合训练的最好策略在真实机器人上跑了150次”行走-分拣-行走”的完整任务测试：机器人在2米距离上行走，到达操作区域，分拣3个物体，然后走回起点。任务完成率（三物体全部分拣成功且未摔倒）为73.8%。分拆来看，行走阶段摔倒率约4.7%，分拣阶段失败率约21.5%。分拣失败的主要原因还是前面提到的——复杂光照变化（工厂顶灯和窗户自然光混合）导致的位姿估计误差，以及多物体交互时的碰撞。

写到这，我得说一句：这些数字不漂亮。73.8%的端到端任务完成率，离工业部署还差得远。但放在人形机器人操作的历史曲线上看，2023年这个数字大概在30%左右，2024年年中约50%，现在73.8%——技术在快速进步，只是还没到”开箱即用”的程度。

回到Optimus，基于我们的经验和公开信息，我估计Optimus当前的分拣成功率在85-92%之间（取决于任务复杂度和环境条件），行走稳定性已经相当可靠（摔倒率<1%），但联合操作的端到端成功率应该还在70-80%的区间。如果特斯拉把Optimus真正部署到超级工厂做电池分拣，我认为前6个月的运营中需要约15-20%的人工干预率——这已经比纯人工效率高，但远不是"全自动"。

仿真的99.3%和真实的91.1%之间那8.2个百分点的差距，不是参数调优能解决的。那是物理世界的本质复杂性——电缆的柔性拖拽、接触面的微观不平整、光照的不可预测变化、传感器的噪声和漂移。每一个做过真实机器人部署的工程师都懂这个差距，也都在这条鸿沟上搭过桥。

仿真分拣99.3%，实测掉到71.5%——我拆解Optimus视觉运动策略后发现的Sim-to-Real鸿沟

30秒速览

感知系统不是装个相机就完事了——从NeRF重建到6D位姿，每个环节都在吃延迟

多相机融合的真实代价

NeRF重建很美，但GPU在冒烟

从行为克隆到RL的演进——BC单独跑的时候，我就知道会翻车

BC的分布漂移不是理论问题，是物理问题

RL在Isaac Sim里的奖励塑造——稀疏奖励的坑

仿真跑99.3%通过率，实测骤降到71.5%——这一节是写给所有信仿真的工程师

域随机化到底能救多少

动作一致性损失——把成功率拉回11个百分点的关键

分拣+行走联合训练——49个关节同时优化，奖励打架是常态

联合训练中奖励函数的零和博弈

力反馈调优的0.3秒延迟——仿真没告诉你的事

觉得有用？

发表评论取消回复

30秒速览

感知系统不是装个相机就完事了——从NeRF重建到6D位姿，每个环节都在吃延迟

多相机融合的真实代价

NeRF重建很美，但GPU在冒烟

从行为克隆到RL的演进——BC单独跑的时候，我就知道会翻车

BC的分布漂移不是理论问题，是物理问题

RL在Isaac Sim里的奖励塑造——稀疏奖励的坑

仿真跑99.3%通过率，实测骤降到71.5%——这一节是写给所有信仿真的工程师

域随机化到底能救多少

动作一致性损失——把成功率拉回11个百分点的关键

分拣+行走联合训练——49个关节同时优化，奖励打架是常态

联合训练中奖励函数的零和博弈

力反馈调优的0.3秒延迟——仿真没告诉你的事

觉得有用？

相关文章

我为什么抛弃了端到端RL布局器，转而用PPO劫持商业工具的布图规划

我在AI芯片公司帮硬件工程师用Code Llama写RTL，半年后我们放弃了“替代”幻想

AI+制造业第三个项目：我给生产线上 15 个 Agent 建了共享记忆，结果它们差点把批次号全读脏了

仿真分拣99.3%，实测掉到71.5%——我拆解Optimus视觉运动策略后发现的Sim-to-Real鸿沟

Blackwell Ultra的算力倍增神话：为什么我赌这张芯片不会成为下一个被高估的VC筹码

凌晨三点被GPT-4o的数学证明幻觉打爆告警电话，我开始怀疑它是不是真懂归纳法

读了三遍 1987 年的 Saga 论文，我在 Bedrock 多智能体退款流程里还是被一次 LLM 幻觉直接击穿

Rust 1.85 异步闭包如何让我扔掉连接池里的 Arc：一个架构师的三个月迁移复盘

我用Copilot Agent给10万行Java单体画了张依赖图，生成的拆分方案差点让CTO以为我通宵了三个月

给研发流水线加AI审查门禁，第一个月我们差点把主分支锁死

发表评论 取消回复

发表评论取消回复