虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

小型开源模型借GRPO算法,在《时空谜题》中超越OpenAI等顶尖推理模型

2025-03-27来源:ITBEAR编辑:瑞雪

近日,海外知名大模型产品平台OpenPipe公布了一项令人瞩目的研究成果,该研究成功地在重度推理游戏《时空谜题》中,利用一种名为GRPO的强化学习算法,使小型开源模型的表现超越了多个业界领先的推理模型,包括DeepSeek R1、OpenAI的o1和o3-mini,以及Anthropic的Claude Sonnet 3.7。

这项研究的作者是来自Ender Research的强化学习专家Brad Hilton和OpenPipe的创始人Kyle Corbitt。他们的研究表明,通过精心设计的训练策略,不仅显著缩小了与Claude Sonnet 3.7在推理能力上的差距,还实现了超过百倍的成本优化。

报告详细阐述了任务设计与超参数调整的过程,并分享了基于torchtune框架构建的完整训练方案,为业界提供了宝贵的参考。

自OpenAI去年发布o系列推理模型以来,大型语言模型(LLMs)在强化学习(RL)训练下迎来了飞速发展。然而,尽管取得了显著进展,逻辑演绎能力仍是顶尖模型的短板。当前LLMs普遍难以稳定追踪细节、保持逻辑严密以及实现多步衔接的可靠性。即便是顶尖模型,在生成长输出时也常出现低级错误。

面对这一挑战,研究团队决定从小型开源模型入手,探索其在全新推理任务上的潜力。他们选择了《时空谜题》作为实验平台,这是一款灵感源自经典桌游Clue的单人逻辑谜题,不仅包含了标准的推理要素,还增加了时间和动机两个维度,使得谜题更加复杂且富有挑战性。

在基准测试中,Claude Sonnet 3.7在设定6.4万个token的情况下表现最佳,而DeepSeek R1与OpenAI的o1和o3-mini表现相近。相比之下,未经调优的小型开源模型Qwen则显得逊色。然而,研究团队相信,只要方法得当,这些小型模型同样能达到前沿水平。

为了训练出具有前沿推理能力的模型,研究团队采用了强化学习方法,并选用了DeepSeek模型的GRPO算法。他们让大语言模型针对每个谜题生成多个回复,并通过正向强化和惩罚机制来引导模型学习正确的推理过程。在训练过程中,他们还使用了vLLM推理引擎、HuggingFace Transformers AutoTokenizer等工具来处理回复和数据打包。

经过上百次的迭代训练,研究团队成功地将Qwen模型提升到了前沿推理水平。在最佳状态下,140亿参数的Qwen模型在1.6万个token的设置下已接近Claude Sonnet 3.7的性能,而320亿参数的模型则几乎达到了Sonnet的结果。研究还发现,在训练过程中,输出长度呈现出有趣的规律,这可能与模型的推理能力提升有关。

为了从定性角度评估逻辑推理能力的提升,研究团队还让Claude Sonnet 3.7对训练后的Qwen 32B模型的推论进行识别。结果显示,Sonnet从基础模型中识别出的推论大多被判定为错误,而从训练后的模型中识别出的推论则大多被判定为逻辑合理。

最后,研究团队还估算了Qwen模型的成本效益。他们发现,在假设按需部署具有足够吞吐量的情况下,训练后的模型在准确性和推理成本之间实现了显著的权衡优化。

这项研究不仅展示了强化学习在训练小型开源模型处理复杂演绎任务方面的巨大潜力,还为业界提供了宝贵的经验和参考。未来,随着技术的不断发展,我们有理由相信,更多的小型模型将能够通过强化学习实现前沿水平的推理能力。

AI迎“效果涌现时刻”,李彦宏:AI产业结构正转变为健康的“倒金字塔”
“当AI能力被内化,成为一种原生的能力,智能就不再是成本,而是生产力。”11月13日举办的2025百度世界大会上,百度创始人李彦宏演讲时表示,更应关心如何让AI跟每一项任务有机结合,“让AI成为企业发展和个人成长的

2025-11-13

网友苦等新机只为一加15 李杰回应:等待终有回报,165帧游戏体验即将登场
快科技10月23日消息,有网友给一加中国区总裁李杰留言:前面那么多新机都没买,就一直等着一加15。李杰回复:“等等党不会输”。 从120帧到165帧,游戏帧率的突破不仅是参数上的跃升,更是手游体验的一次大换代…

2025-10-23

一加新机或携8200mAh大电池、165Hz高刷及骁龙8Gen 5登场,1999元起性价比拉满
在定位方面估计会比ace 6标准版更低一些,所以价格会更便宜,如果延续v机型的定价,那这款手机很有可能定在1999元左右,有骁龙8Gen 5旗舰处理器+8200mAh电池+百瓦快充,定在这个价格那性价比还是…

2025-10-23

OpenAI首款内置ChatGPT浏览器Atlas发布!支持谷歌数据导入,免费下载享7天会员
智东西下载初步体验了Atlas后发现,其基本的操作模式与谷歌等浏览器类似,相当于将ChatGPT直接嵌入浏览器,且从功能来看Atlas与其他AI浏览器并没有较大差距,或许还需要体验一段时间,当其拥有更多浏览…

2025-10-23

华为11月新品发布在即,Mate 80系列、折叠屏X7及nova 15系列将齐登场
【CNMO科技消息】10月21日,CNMO注意到,据业内人士透露,华为计划于11月迎来新一轮产品发布高峰,将推出涵盖智能手机、平板电脑及穿戴设备在内的多款新品。结合以往发布节奏分析,行业媒体推测,华为Mate…

2025-10-22

真我GT8系列即将登场:双旗舰配置亮点大揭秘,影像性能全面升级
除了影像,真我 GT8 Pro 在其他方面的配置也达到了顶级旗舰水准。 最引人注目的是,真我 GT8 标准版搭载了与 Pro 版本同款的理光GR 影像系统,这意味着它拥有同级别产品中唯一的影像联名,在影像…

2025-10-22

双11邂逅秋景,华为Pura 80 Pro降价1200元,影像实力等你来探
说起今年双11,各家影像手机可以说争奇斗艳,但有一款手机可以说是十分低调的,这就是6月份登场的华为Pura80系列,目前市场表现还没发挥出全部实力。 环顾现在新品影像旗舰,主摄1英寸的,可能还是Pura 8…

2025-10-21

华为Mate80系列完成备案预计11月登场,全系或配麒麟9030芯片及鸿蒙6系统
其中 Mate 80 标准版代号代号“Voyager”,拥有黑、白、青绿三种配色。 在此前的华为平板产品上,华为已批量下放麒麟 9020系芯片,Mate 80 系列则有望搭载全系的麒麟 9030 芯片以及鸿…

2025-10-21

7000mAh大电池配2K三星屏,潜望长焦加持,iQOO 15起售价4199元真香?
子系旗舰的综合配置看起来比主系旗舰还更高,这上市的iqoo 15就是个典型例子,电池同样提升到7k以上,并补齐了无线充电,作为旗舰手机这金属中框、超声波指纹、IP68/IP69级别防尘防水都是标配,还补齐了…

2025-10-21

今晚七点!iQOO 15携骁龙8至尊版等重磅升级登场,性能体验再进阶
将在今晚七点正式发布的iQOO 15除了首批更新第五代骁龙8至尊版处理器以外,更迎来了屏幕、独显芯片、续航、散热等重大升级,下面的爆料汇总值得一看。据悉,它还将在散热、视听触等方面全方位优化,通过搭载全新升级…

2025-10-21