虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

通义千问团队推出Qwen-AgentWorld:原生语言世界模型引领智能体交互新突破

2026-06-24来源:天脉网编辑:瑞雪

阿里通义千问团队近日宣布推出全球首个原生语言世界模型Qwen-AgentWorld,该模型通过模拟七大领域智能体交互环境,在AgentWorldBench评测中展现出超越GPT-5.4、Claude Opus 4.8等主流模型的性能。这一突破标志着语言模型从单一文本生成向复杂环境交互的范式转变,为智能体训练提供了全新路径。

该模型覆盖文本类(MCP、搜索、终端、软件工程)与GUI类(网页、操作系统、安卓应用)七大交互场景,通过可渲染代码替代传统像素帧实现环境观测。这种设计使纯文本建模即可解析视觉信息,显著降低计算资源消耗的同时,支持跨领域知识迁移。例如,在终端和软件工程领域,模型展现出比GPT-5.4更强的状态预测能力,3970亿参数版本在评测中取得58.71分的综合成绩。

训练架构创新是该模型的核心优势。团队构建了CPT→SFT→RL三阶段训练体系:在继续预训练阶段注入环境知识,通过信息论损失掩码精准识别关键对话轮次;监督微调阶段激活思维链推理模式,强化下一状态预测能力;强化学习阶段采用混合奖励信号优化输出质量。这种端到端设计使环境建模成为原生训练目标,而非对通用大模型的后期适配。实验数据显示,350亿参数版本经三阶段训练后,综合得分提升8.66分,性能超越Claude Sonnet 4.6。

同步开源的AgentWorldBench评测基准包含七大领域真实环境执行数据,每条测试样本均配备ground-truth观测值。该基准不仅验证了模型在复杂交互场景中的优势,还揭示了世界建模的双重应用价值:作为解耦环境模拟器时,可为强化学习提供可控训练环境,其可控模拟RL方法在行为塑造效率上显著优于纯真实环境训练;作为统一智能体基座模型时,预热训练后的模型可直接迁移至多轮任务,无需额外微调即可保持性能。

目前,Qwen-AgentWorld模型及评测基准已在Hugging Face和ModelScope平台开放下载。这项研究为智能体训练提供了从环境建模到决策优化的完整解决方案,其开源特性将推动学术界和产业界在复杂交互场景中的探索进程。

壹号本2026夏季新品发布会落幕:四款掌上PC新品开启全场景新体验
月 23 日,壹号本 ONEXPLAYER 2026 夏季新品发布会正式举办,本次发布会以 “壹机应变,本领非凡”为核心主题,一次性推出四款差异化定位掌上 PC 新品,全系搭载英特尔专为掌机深度定制的 Ar…

2026-06-24

三星独家供货折叠屏iPhone!M16面板良率超80% 铰链或成量产关键变量
据此前报道,iPhone 18 Pro系列、折叠屏iPhone及谷歌Pixel11系列均将采用M16基材OLED面板,其中折叠屏iPhone规划供应量约1000万片。 编辑点评:折叠屏iPhone的进度条已…

2026-06-24

报告预测:苹果首款折叠屏iPhone若定价2000美元 一年后或贬值近万元
目前业内普遍认为,苹果正在研发品牌首款折叠屏手机,预计命名为 iPhone Ultra,预计将在今年秋季发布,售价将在 2000美元(IT之家注:现汇率约合 13574 元人民币)左右。 不过该平台指出,…

2026-06-24

德国JUPITER超算领跑欧洲 英伟达助力多国科研迈入百亿亿次时代
据LANL透露,在URSA工作负载下,Vera CPU的性能较此前最强的Crossroads x86超算中的CPU提升了7倍。英伟达Vera Rubin正是一款全新的科学工具:一台机架式超级计算机,将模拟、…

2026-06-23