虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

英伟达开源框架Polar助力代码智能体训练,Qwen3.5-4B模型跑分显著提升

2026-05-29来源:快讯编辑:瑞雪

英伟达研究团队近日推出开源框架Polar,为代码智能体训练领域带来突破性进展。该框架通过创新设计,成功将Codex、Claude Code、Qwen Code等主流智能体框架与GRPO(广义相对策略优化)训练方法无缝衔接,在保持原有工具调用模式和上下文管理机制不变的前提下,显著提升模型在复杂代码任务中的表现。

GRPO作为一种先进的强化学习优化技术,通过奖励信号动态调整模型策略,特别适用于需要多步决策的复杂任务。在代码智能体训练场景中,该技术能够引导模型在真实工具调用和代码补丁提交过程中持续优化行为模式。研究团队指出,当前智能体强化学习正从单一操作向长流程任务转型,代码仓库维护、浏览器自动化等复杂场景需要模型具备多轮调用、工具协同和上下文管理能力。

传统方法在整合这些执行框架时面临重大挑战——强制改造现有接口不仅接入成本高昂,更会导致关键训练信号丢失。Polar框架采用颠覆性设计理念,通过在模型API边界部署智能代理,避免对Codex CLI等运行外壳进行结构性修改。这种设计保留了Anthropic、OpenAI等平台请求风格的原生特性,同时实现训练数据的完整采集。

系统架构层面,Polar由rollout服务器和网关节点构成核心组件。前者负责任务调度、状态管理和回调处理,后者则管控整个执行生命周期,包括环境初始化、轨迹构建和资源回收。研究团队特别开发的独立工作池机制,通过READY缓冲区实现运行时预热与评测预热的并行处理,有效减少GPU训练等待时间。

实验数据显示,基于Qwen3.5-4B基础模型,Polar配合GRPO训练在SWE-Bench Verified基准测试中取得显著突破:Codex框架的pass@1指标从3.8%跃升至26.4%,提升幅度达594.74%;其他框架也有6%-18%的不同程度提升。效率优化方面,prefix_merging技术使训练步骤更新次数减少82%,墙钟时间缩短至原来的18%,GPU利用率从20.4%大幅提升至87.7%。

这项研究为智能体强化学习提供了全新范式,其创新性的接口设计理念和系统架构优化,为处理复杂执行框架与训练环境兼容性问题开辟了新路径。开源框架的发布预计将加速代码生成、自动化运维等领域的模型优化进程。

特斯拉得州Optimus机器人工厂正式动工 规划年产能千万台剑指未来核心业务
IT之家 5 月 28 日消息,特斯拉位于得州超级工厂的专属 Optimus 机器人工厂已正式动工,这座工厂规划年产能最高可达 1000万台人形机器人。 该工厂是特斯拉得州超级工厂北区扩建规划的核心项目,此…

2026-05-29

全能充电新选择!朗科T187LP移动电源:20000mAh大容量+45W快充+3C认证
现在很多用户已经进入多设备时代,以前一块移动电源只给手机充,朗科这款支持三口同时输出,多设备同时充电的场景优势就出来了。 而朗科这款T187LP移动电源,拥有小巧体积,给到20000mAh容量,支持45W快…

2026-05-28

家电ETF易方达(159328)午间收跌2.55% 成交额128.28万 重仓股多数飘绿
来源:新浪基金∞工作室 5月28日,截止午间收盘,家电ETF易方达(159328)跌2.55%,报1.070元,成交额128.28万元。家电ETF易方达(159328)重仓股方面,美的集团截止午盘跌1.29%…

2026-05-28

台北国际电脑展将至 纬颖钻石复合材料服务器冷板等新品亮相引期待
IT之家 5 月 27 日消息,纬创 (Wistron) 旗下数据中心基础设施供应商纬颖 (Wiwynn) 昨日宣布,将在 COMPUTEX2026 台北国际电脑展秀出钻石复合材料冷却技术。 纬颖将导热性能…

2026-05-28