虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

具身智能新纪元:VLA领域的开拓者与他们的导航探索

2025-04-29来源:ITBEAR编辑:瑞雪

在人工智能的浩瀚宇宙中,一个名为VLA(视觉-语言-动作)的新星域在2018年悄然升起,这一变革性的领域由澳大利亚机器人视觉研究中心(ACRV)的博士后研究员吴琦及其团队率先点亮。吴琦,这位在学术界屡获殊荣的科学家,与中国计量大学、英国巴斯大学及澳大利亚阿德莱德大学有着深厚的学术渊源,他的研究足迹遍布图像描述、视觉问答,并最终引领至VLA的广阔天地。

2018年,吴琦与博士生Peter Anderson及Abhishek Das在CVPR 2018上首次将视觉-语言(VL)与机器人导航相结合,发表了VLN(视觉-语言-导航)的开山之作。紧接着,Abhishek Das的“EmbodiedQA(具身问答)”研究更是让“Embodied”概念深入人心。同年,NLP领域的顶级会议ACL在墨尔本召开,吴琦团队借此机会举办了一场题为“将语言和视觉与动作联系起来”的tutorial,正式拉开了VLA研究的序幕。

在这场tutorial中,吴琦团队不仅分享了CNN、RNN等基础方法,还深入探讨了机器人数据、环境仿真器以及强化学习在VLA研究中的应用。吴琦意识到,要使机器真正解决实际问题,除了学习和理解多模态信息外,还需与真实环境进行交互。因此,他在原有的VL基础上加入了“动作(Action)”,提出了“V3A”概念,即视觉(Vision)、提问(Ask)、回答(Answer)和行动(Act)。

吴琦的学术生涯充满了前瞻性和创新性。早在MS COCO数据集发布之初,他便敏锐地捕捉到了图像描述方向的研究潜力,并迅速跟进。随后,他又在视觉问答(VQA)新方向上发表了“Ask Me Anything”工作。七年间,VLA从最初的萌芽状态发展成为具身智能领域内的热门话题,吸引了全球科研人员的广泛关注。英伟达、Figure AI、Physical Intelligence及清华大学等国内外知名机构纷纷推出了各自的VLA模型。

作为VLA领域的开拓者,吴琦并未止步于理论探索,而是选择在VLN方向上继续深耕,并着手进行真机研究。如今,他已在澳大利亚阿德莱德大学担任副教授,领导着“V3A Lab”实验室,并在澳大利亚机器学习研究中心(AIML)担任视觉与语言研究方向的实验室主任。在谈到具身智能与VLA时,吴琦表示,VLA不应局限于上半身的操作任务,导航问题仍有待突破。

回顾VLA的发展历程,吴琦团队的工作无疑起到了关键作用。他们不仅提出了R2R数据集和任务,还推动了VLN研究的兴起。随后,王鑫在CVPR 2019上利用模仿学习和强化学习解决VLN的工作更是让这一领域大放异彩。而GPT系列的出现则进一步加速了VLA的发展,解决了许多VL难以解决的问题,为VLA的研究奠定了坚实基础。

在吴琦看来,VLA的大热是产业和学术发展的双重结果。从产业视角来看,任何落地场景都需要处理多模态输入,并依赖一个高水平的推理模型辅助完成复杂的规划与行为决策。而从学术研究趋势而言,自然语言处理(NLP)与计算机视觉(CV)领域的核心任务已取得显著进展,研究者正积极探索新的前沿方向。VLA领域的研究者需要精准定位应用场景,弄清楚语言(L)的核心价值,即为机器人提供一种更简便的人机交互方式。

对于导航的难点和重要性,吴琦有着深刻的认识。他认为,视觉导航作为任务本身可能并不复杂,但视觉语言导航(VLN)却极具挑战性。VLN能够实现根据指令导航到指定位置并完成特定任务的功能,这在过去是无法想象的。而VLA中的action则更加广泛,VLN只是其中一个子集。吴琦强调,家用场景下的导航问题尤为复杂,需要机器人不断移动并处理动态场景中的挑战。

在VLA领域的研究中,数据问题一直是制约发展的关键因素之一。吴琦认为,虽然数据是最大的难题,但同时也是最容易突破的。他提出了多种技术路径来解决数据问题,包括真人操控采集、Sim2Real模拟生成以及视频数据驱动等。同时,他也强调了模拟器在VLA研究中的重要性,认为模拟器需要大厂来推动发展,并具备场景仿真、物理仿真和高效运行等关键特性。

随着具身智能的不断发展,VLA领域的研究将越来越深入。吴琦表示,他将继续在VLN方向上扎根,并着手进行更多真机研究,以推动VLA技术的实际应用和落地。他的工作不仅为VLA领域的发展奠定了坚实基础,也为人工智能的未来探索提供了无限可能。

荣耀GT2来袭:9000mAh大电池配骁龙8E,两千档新机能否逆袭红米?
作为新系列的首款机型,荣耀GT在曝光之初备受期待,被认为是最有希望挑战红米K80地位的产品。 据悉荣耀GT2将搭载骁龙8E处理器,看齐红米K90,而骁龙8E的性能经过一年时间的考验大家已经很清楚了,依然非常强…

2025-11-15

华为顶级旗舰价格大跳水,16GB+512GB直降2100元,为新机让路
这段时间虽然登场了很多新旗舰,但阿维觉得挺遗憾的,因为绝大多数新旗舰都只是常规升级,单纯为了启用第五代骁龙8至尊版和天玑9500,在这种情况下,甚至就连小米17 Pro系列上并不算多大创新的背屏也成为了大家津…

2025-11-15

Apple Store应用6.6版焕新登场:液态玻璃设计带来视觉与交互新体验
2025-11-14 08:20:29 作者:狼叫兽 今日,iPhone与iPad平台的AppleStore应用迎来6.6版本更新,此次更新引入了全新设计的应用图标,并对界面进行了视觉升级,以适配iOS 2…

2025-11-14

高通跃龙IQ-X系列处理器登场 助力工业PC与边缘智能场景革新发展
高通技术公司汽车、工业及嵌入式物联网事业群总经理Nakul Duggal称,高通跃龙IQ-X系列将Qualcomm Oryon CPU的计算性能引入工业PC领域,有助于提升工厂车间边缘控制器的运行能力与…

2025-11-14

谷歌Pixel 6及更新机型获通话录音功能推送,部分非Pixel机型也能享
IT之家 11 月 14 日消息,据科技媒体 Phone Arena 今天报道,谷歌现已为 Pixel 6系列及更新机型推送通话录音功能,部分非 Pixel 系列手机也能用上。 IT之家在此援引 Phone…

2025-11-14

iPhone 17系列发售不到俩月,中国市场激活量破1000W,双十一销量也亮眼
11月14日,数码博主“数码闲聊站”发文透露iPhone17系列于本周完成中国市场激活1000W+。 iPhone17系列9月19日正式发售,如今距发售不到两个月。 该博主此前曾透露,截至11月2日,iPh…

2025-11-14

手机电池容量怎么选?联想新机与大疆眼镜选购指南来了
续航方面,moto X70 Air的电池容量为4800mAh,虽然在当前动辄5000mAh甚至6000mAh的中端机中并不占优,但结合机身厚度来看,这一数据仍非常可观,而且该机还支持68W有线快充,可在30…

2025-11-14

百度文库网盘GenFlow3.0焕新升级,推出两大智能体,助力用户成“超级个体”且加速出海
基于GenFlow3.0,文库网盘在多产品矩阵中升级AI能力,帮助用户在工作、生活、学习上成为“超级个体”。基于百度文库全新能力,Oreate采用多智能体架构,能够端到端完成全场景、全模态创作,涵盖文档、P…

2025-11-14

京东11.11平板教育品类齐发力 办公游戏平板热销 智能学习设备受青睐
直播渠道同样表现抢眼,联想小新Pro GT、荣誉平板GT2 Pro、小米平板7 Pro获得观众最多青睐。在新兴的闺蜜机品类中,海信、小度添添、小米占据品牌领先地位,海信大白闺蜜机X8 Pro、小度添添闺蜜机…

2025-11-13