虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

英伟达发布开源框架Polar,助力代码智能体训练效率与表现双提升

2026-05-28来源:快讯编辑:瑞雪

英伟达研究团队近日推出开源框架Polar,为代码智能体训练领域带来突破性进展。该框架通过创新设计,使Codex、Claude Code、Qwen Code等主流代码智能体能够无缝接入GRPO(广义相对策略优化)训练体系,同时保持原有工具调用方式和开发流程不变。

GRPO作为一种强化学习优化方法,通过奖励信号动态调整模型策略,特别适用于需要多步决策的复杂任务。在代码智能体训练场景中,该技术可使模型在真实工具调用和代码补丁提交过程中持续优化表现。研究团队指出,当前智能体强化学习正从单一任务向长流程任务转型,涉及代码仓库维护、浏览器自动化操作等复杂场景,这些任务高度依赖现有执行框架,传统改造方式往往导致关键训练信号丢失。

Polar框架的创新之处在于其独特的训练边界设计。不同于传统方法对执行框架的全面改造,该框架在模型API边界处部署智能体,最大限度保留原有开发环境(harness)的完整性。这种设计兼容Anthropic、OpenAI、Google等主流API风格,通过记录请求提示词、采样令牌、对数概率等关键数据,构建完整的训练轨迹。

系统架构方面,Polar采用双组件设计:rollout server负责任务调度、状态管理和回调处理,gateway node则管理会话全生命周期,包括框架初始化、轨迹构建和资源回收。研究团队特别优化了任务处理流程,将初始化、运行和后处理阶段分离到独立工作池,配合READY缓冲区机制,使GPU训练效率提升显著。

实验数据显示,基于Qwen3.5-4B模型的测试中,Polar配合GRPO训练使四种代码执行框架的性能获得显著提升:在SWE-Bench Verified基准测试中,Codex框架的pass@1分数从3.8%跃升至26.4%,增幅达594.74%;其他框架也有6%-18%的不同程度提升。效率优化方面,prefix_merging技术使训练步骤更新次数减少82%,墙钟时间缩短至原来的18%,GPU利用率提升至87.7%。

石头科技吸尘器外观专利获批,研发投入大增,专利布局完善引领市场新趋势
石头科技再获专利 石头科技“吸尘器主机”外观设计专利获授权,专利号CN202530643467.7,授权日2026年5月26日。研发投入大增2025年累计获174项专利,同比增长近三成。市场趋势 创新设计…

2026-05-28

荣耀手机截屏现存储不足误报?荣耀曹工回应:问题已确认,解决方案待推送
IT之家 5 月 27日消息,最近有用户反馈,荣耀手机在截屏时会弹出“无法捕获屏幕截图”的提醒,称是因为存储空间有限而无法截图。但实际上,用户手机的存储容量往往有较多剩余。IT之家注意到,荣耀研发工程师 …

2026-05-28

联想拯救者Y70新机来袭:2K高刷屏搭配旗舰芯,6月9日开售游戏党福音
新机定位在游戏手机市场,性能自然达到旗舰级别,而且多方面配置大升级。 新机亮点,比如2K高刷屏、乾坤散热、第五代骁龙8、AI战场感知系统、星环电池、电竞通信等方面,整体亮点围绕着游戏性能提升。屏幕功耗,已采用…

2026-05-28

苹果新动向:iPhone将推防抢功能 抢夺发生时自动锁定保安全
目前,iPhone已配备查找、激活锁和失窃设备保护等多重防盗机制。此外,该功能还会监测与已配对Apple Watch的距离,以进一步确认手机是否脱离了主人控制。如果这些条件表明手机被带到了陌生环境,除了自动…

2026-05-27