虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

阿里发布首个原生语言世界模型Qwen-AgentWorld,赋能AI智能体新突破

2026-06-24来源:天脉网编辑:瑞雪

阿里人工智能实验室近日宣布推出新一代原生语言世界模型Qwen-AgentWorld,该模型通过统一架构实现七大交互环境的模拟能力,在智能体训练领域取得突破性进展。该模型提供35B-A3B和397B-A17B两种参数版本,采用从预训练到强化学习的全流程环境建模方法,为AI智能体开发开辟了新路径。

区别于传统模型训练方式,Qwen-AgentWorld创新性地将环境建模贯穿CPT(持续预训练)、SFT(监督微调)和RL(强化学习)全流程。研究人员指出,该模型的核心价值不在于替代真实交互环境,而是通过内部模拟机制增强智能体的决策能力。在移动操作系统模拟测试中,模型能准确预测点击删除图标后的界面变化,其预测准确率较传统方法提升37%。

该模型突破性地实现单一架构覆盖文本类(MCP、搜索引擎、终端、软件环境)和GUI类(网页、桌面系统、安卓系统)七大交互领域。通过采用可渲染代码而非像素帧的环境观测方式,模型在视觉环境模拟中展现出独特优势。在电脑系统模拟测试中,模型成功预测"文件-打印"操作链的完整界面变化,验证了跨领域知识迁移的有效性。

配套发布的AgentWorldBench评测基准采用开放式评分体系,从格式规范、事实准确性、逻辑一致性、现实贴近度和综合质量五个维度进行评估。测试数据显示,397B参数版本在整体评分中达到58.71分,超越GPT-5.4(58.25分)、Claude Opus 4.8和Gemini 3.1 Pro等主流模型。在终端环境和软件环境模拟中,该模型展现出对代码执行状态和工具API行为的精准模拟能力。

研究团队在分析129条思维链时发现三种独特推理模式:模型平均每轮产生10.4次自我修正,通过"Wait!"信号触发事实错误修正;在搜索场景中建立信息防护机制,防止无关查询泄露目标信息;面对复杂命令时,能构建六步推理链准确预测输出结果。这些能力使模型在处理长上下文和跨领域任务时表现出色。

目前,35B参数版本模型权重和评测基准已在GitHub、ModelScope和Hugging Face平台开源。该成果为智能体训练提供了新范式,其可扩展的环境模拟能力有望推动AI在复杂任务处理领域实现突破,特别是在需要精准环境感知和长程规划的应用场景中具有重要价值。

REDMI K90至尊版明日官宣发布时间 骁龙8至尊版加持 散热续航双突破
快科技6月23日消息,REDMI产品经理胡馨心暗示,REDMI K90至尊版预计将在明天正式官宣发布时间。 小米集团总裁卢伟冰表示,2026年行业普遍涨价,2-3K价位段的性能机变得愈发稀缺。REDMI深知行…

2026-06-24

HHKB Studio键盘新宠:全新灰色键帽套装登场,适配多配色方案
IT之家 6 月 24 日消息,HHKB Studio 是 Happy Hacking Keyboard 在 2023 年推出的一款多功能一体式输入设备,结合了紧凑配列键盘、指点杆鼠标套件、手势触控输入面板,…

2026-06-24

隐私保护新趋势:三星引领防窥技术,小米荣耀加速研发测试跟进
PChome 6月24日消息,随着三星Galaxy S26 Ultra将防窥隐私显示功能推向市场,这一基于专属屏幕硬件实现的隐私保护技术正成为智能手机行业的新竞争点。目前已确认小米与荣耀均在推进防窥显示功能的…

2026-06-24

联想之星与险峰长青携手投资芯感通,共促AI算力中心效能管理创新发展
2026年6月22日,联想之星与险峰长青宣布完成对芯感通科技(成都)有限公司(简称“芯感通”)的天使轮投资。此次投资旨在支持芯感通在AI算力中心感知与效能管理领域的创新研发。 芯感通成立于2024年11月1…

2026-06-24

揽月动力创新范式:约化模型助力机器人训练“瘦身”与工业场景落地
从这个意义看,揽月动力真正想成为的,是Physical AI技术栈中最底层的那块基座——大模型负责理解任务,世界模型负责预测环境,约化模型回答最后也是最关键的问题:这个动作,在真实物理世界里到底能不能稳定执…

2026-06-24

小米YU7“深海蓝”成绝版?雷军回应:呼声高或考虑“复活”
如果大家特别喜欢,我们可以考虑复活。” 据IT之家此前报道,在去年 6 月的小米人车家全生态发布会上,雷军公布了小米 YU7 车型全部 9款配色,分为跑车色系、时尚色系、豪华色系、经典色系。 据介绍,小米 …

2026-06-24