虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

阿里Qwen-VLA入局具身智能:探索新路径,距AGI落地还有多远?

2026-06-04来源:天脉网编辑:瑞雪

人工智能的发展正经历从虚拟世界向物理世界的关键跃迁。从能写代码的文本模型到可生成视频的视觉系统,AI的认知能力持续突破边界。当行业还在探索智能体与数字世界的交互时,阿里通义千问团队已率先推出具身智能模型Qwen-VLA,试图破解机器人领域长期存在的"碎片化"困局。

当前机器人产业面临核心悖论:家用机器人能叠衣服却不会扫地,工业机械臂擅长分拣却无法拧螺丝。这种"专机专用"模式导致研发成本高企,与大模型时代的规模效应背道而驰。Qwen-VLA的突破性在于将机械臂抓取、双臂协作等不同场景统一为数学问题——在特定视觉输入和语言指令下,预测最优动作轨迹。这种"大一统"策略若能成功,将使机器人软件复用率呈指数级增长。

模型架构采用仿生学设计,构建"认知大脑+动作小脑"的双引擎系统。认知层搭载Qwen3.5多模态模型,负责理解"把红色积木放在蓝色盒子旁边"这类复杂指令;动作层则创新使用11.5亿参数的扩散模型解码器,直接生成关节角度等物理参数。这种设计突破了传统VLA模型"预测画面"的局限,转而聚焦动作信号生成,使机械臂动作更符合物理规律。

训练体系包含四个关键阶段:首先通过文本指令建立动作先验,继而进行多模态对齐训练,再通过人类操作录像学习标准动作,最终在虚拟环境中强化学习。这种渐进式训练法解决了具身智能最棘手的数据难题——阿里构建了包含1000小时真机操作数据、800万条合成轨迹的庞大数据库,其中74.2%的数据来自人类遥控操作的真实场景。

实测数据显示,该模型在动态场景中展现出惊人适应力。面对训练中未见过的玩具鸭和墨镜,模型能根据语言指令精准抓取;在光线剧烈变化的实验室环境中,仍可完成毫米级操作;更突破性的是,在DOMINO动态操控测试中,无需特殊调校即可拦截移动物体,性能超越多数专用模型。这些能力源于其独特的"零样本泛化"机制——通过解耦视觉感知与动作生成,使系统具备跨场景迁移能力。

尽管取得突破,具身智能仍面临多重挑战。当前物理动作数据规模仅为文本数据的千分之一,复杂接触式交互的健壮性不足;视觉、语言、动作多任务联合训练导致部分模块性能波动;缺乏触觉反馈的纯视觉方案难以应对精密操作;长程任务规划能力仍是开放难题。这些瓶颈揭示,从数字智能到物理智能的跨越,需要基础研究的持续突破。

Qwen-VLA的实践验证了"统一基座模型"的技术路线可行性。当算法开始感知重力、摩擦力等物理约束,人工智能才真正叩开现实世界的大门。这场静悄悄的革命,或许正在重塑人类与机器的协作方式——未来的机器人可能不再需要针对每个场景重新编程,而是像人类一样,通过观察和学习掌握新技能。

Ducky COMPUTEX 2026亮相:OK-HE磁轴键盘与马年生肖限定款齐登场
IT之家 6 月 3 日消息,键盘品牌 Ducky(吉利鸭)在 COMPUTEX 2026 上带来了一系列新品,包括年初 CES 上展出的OK-M 系列入门级机械键盘的磁轴姊妹产品 OK-HE。 OK-HE…

2026-06-04

黄仁勋力挺Marvell,光通信与AI芯片双驱动,市值单日暴增4221亿
Marvell CEO Murphy 在现场揭示了一个物理现实:当前 200Gbps 下铜缆极限约 2.5 米,一旦升级到400Gbps,铜缆将无法完全连接整个机架,光互联必然爆发。 今年 3 月,英伟达…

2026-06-04

黄仁勋COMPUTEX 2026展发布CPU双线战略:消费级用Arm 数据中心用自研
消费级PC芯片RTX Spark直接采用Arm公版Cortex核心架构,而面向数据中心AI智能体的VeraCPU则搭载英伟达完全自研的Olympus核心。 黄仁勋解释称,消费级设备采用公版核心是出于技术适用…

2026-06-04

百元价位耳夹式耳机新选择:aigo CA05,舒适佩戴与好音质兼得
它还采用开放式挂耳式设计,不封闭耳道,佩戴时能兼顾音乐聆听与环境音感知,长时间使用也比较轻松。 这样来看,aigo CA05做得已经十分不错了,尤其在“好音质”和“好戴”这件事上,超大动圈带来了澎湃的声音,…

2026-06-03