具身智能领域正面临一个关键挑战:如何突破数据规模与真实世界经验积累的瓶颈。尽管近年来VLA等大模型在机器人预训练阶段取得显著进展,但当这些模型进入真实部署环境时,其能力提升仍面临重重困难。传统方法高度依赖人工标注数据和重复训练,导致机器人难以适应复杂多变的物理世界,规模化增长进程受阻。
针对这一难题,上海创智学院与智元具身研究中心联合推出了一项创新成果——LWD(Learning While Deploying)大规模强化学习训练系统。该系统由罗剑岚团队研发,其核心思路是将机器人的部署过程转化为持续学习的机会。通过让机器人在真实场景中长期运行,系统能够收集并回流交互经验数据,使每台机器人既成为任务执行者,又成为数据生产源,从而推动通用策略的不断进化。
LWD系统构建了一个由真实世界强化学习驱动的闭环数据飞轮。与传统模仿学习不同,该系统不再将非完美运行轨迹视为"废数据",而是将机器人集群在真实任务中积累的各类交互经验——包括成功轨迹、试错恢复过程以及人类引导的失败案例——统一输送至云端共享重放缓冲区。强化学习机制将这些数据转化为优化模型的重要依据,使系统能够规避错误、改进价值评估。随着部署规模扩大和运行时间累积,数据飞轮加速运转,云端更新的策略定期下发至机器人,形成自主优化闭环。
为应对真实世界部署中的极端算法挑战,LWD引入了分布隐式价值学习(DIVL)算法。该算法突破了传统方法的局限,使机器人能够理解动作表现的"概率分布"而非单一"平均分"。这种改进让机器人在稀疏奖励环境下也能准确判断动作风险,有效解决了评价不准和过度乐观的问题。同时,系统结合Q-learning with Adjoint Matching(QAM)技术,为VLA模型找到策略更新的"捷径",通过局部调整实现快速迭代,显著提升了大规模部署时的学习效率。
研究团队在智元G1双臂机器人集群上进行了大规模真实世界部署测试,验证了LWD系统的实战能力。测试涵盖八项高难度多模态操作任务,包括商超货架动态补货、泡功夫茶、榨果汁、调酒和装鞋入盒等。这些任务持续5至8分钟,包含数十个接触点且存在长程依赖关系,对机器人能力构成严峻考验。
实验结果显示,LWD训练出的单一通用策略在所有任务上平均成功率达到0.95,显著优于纯行为克隆(0.76)和先进离线强化学习基线方法(RECAP 0.86,Dagger-SOP 0.82)。特别是在长程任务中,LWD在线更新后的成功率实现大幅提升,证明了基于真实物理交互的持续学习是突破复杂操作瓶颈的有效途径。价值曲线分析进一步表明,系统学习到的价值能够准确表征任务完成进度,为机器人提供了有意义的反馈信号。
这项成果标志着具身智能领域的一次重要转向。传统观点将部署视为模型训练的终点,而LWD系统证明,自主改进应成为通用机器人策略的基本属性。通过赋予机器人在真实世界中持续提取"养分"、自我进化的能力,这项技术有望打破人工标注数据的限制,使机器人能够在复杂开放场景中释放更大的商业价值。


