虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

微软清华北大联手,推出RRMs模型,让AI推理更智能高效!

2025-05-27来源:ITBEAR编辑:瑞雪

近日,科技界迎来了一项新的突破,微软研究院携手中国顶尖学府清华大学与北京大学,共同推出了一项名为奖励推理模型(RRMs)的创新技术。这项技术旨在通过动态的计算资源分配,优化复杂任务的评估效果,为人工智能领域带来了新的曙光。

强化学习(RL)作为当前大语言模型(LLM)后训练的关键方法,已经引起了广泛的关注。通过人类反馈(RLHF)或可验证奖励(RLVR)提供的监督信号,强化学习在模型训练中发挥着举足轻重的作用。然而,尽管RLVR在数学推理中展现出巨大潜力,但其对可验证答案训练查询的依赖,限制了其在通用领域的大规模应用。

现有的奖励模型主要分为标量型和生成型两大类,但它们在测试时计算资源的扩展上均存在不足。传统的做法是对所有输入一视同仁,统一分配计算资源,这种“一刀切”的方式缺乏对复杂查询的细致分析能力,导致评估结果不尽如人意。为了打破这一瓶颈,微软研究院、清华大学和北京大学的科研团队联手推出了RRMs。

RRMs的核心优势在于其显式推理过程。在给出最终奖励之前,RRMs会执行一系列复杂的推理步骤,根据任务的复杂性自适应地分配额外的计算资源。这一创新机制使得RRMs在面对奖励不明显的复杂查询时,能够投入更多的测试时计算资源,从而得到更准确的评估结果。

RRMs基于Qwen2模型,采用了Transformer-decoder架构,将奖励建模转化为文本补全任务。在生成推理过程后,RRMs会给出最终的判断。为了全面评估RRMs的性能,研究团队利用RewardBench库进行了系统分析,评估指标涵盖了指令遵循性、帮助性、准确性、无害性和细节水平等多个方面。

RRMs还支持多响应评估,通过ELO评分系统和淘汰赛机制,结合多数投票策略,进一步提升了计算资源的利用率。在RewardBench和PandaLM Test基准测试中,RRMs展现出了卓越的性能。特别是在推理类别中,RRM-32B的准确率高达98.6%,与使用相同数据训练的DirectJudge模型相比,RRMs展现出了显著的性能优势。

在奖励引导的最佳N推理(Best-of-N Inference)和后训练反馈中,RRMs同样超越了所有基线模型,并进一步提升了多数投票机制的效率。研究还发现,随着模型规模从7B、14B扩展到32B,更长的推理时间始终能够带来准确性的提升。RRMs通过并行和顺序扩展方法高效地利用了计算资源,为传统的标量奖励模型提供了强有力的替代方案。

这一创新成果不仅为人工智能领域带来了新的突破,也为未来的智能系统发展奠定了坚实的基础。RRMs的推出,标志着我们在复杂任务评估方面迈出了重要的一步,为人工智能的广泛应用开辟了新的道路。

随着技术的不断进步和创新,我们有理由相信,未来的智能系统将更加智能、高效和人性化。RRMs的成功推出,无疑为这一愿景的实现注入了新的活力和动力。

荣耀500系列新机预热来袭:2亿像素人像拍摄,配置越级似iPhone风
官方所预热的内容陆续增加,比如全新外观、影像、性能等方面,对比上一代更有趣。 荣耀500 Pro版本的配置有所曝光,处理器是上一代的骁龙8 Elite,性能同样保持在旗舰级别,无论是影像拍摄、玩手游、大型应用…

2025-11-15

Steam Frame登场 Valve停产Index VR头显 开启VR新征程
用户可通过无线适配器,将 PC 或 Steam Machine 上的平面屏(flatscreen)及 VR 游戏串流至 SteamFrame;与此同时,Steam Frame 本身也是一款独立设备,搭载高通…

2025-11-14

中国“天衍-287”超导量子计算机搭建完成 搭载同款芯片将全球开放应用
感谢IT之家网友 的线索投递! 11 月 14 日消息,据《科创板日报》11 月 13日报道,从中国电信量子研究院获悉,搭载“祖冲之三号”同款芯片的超导量子计算机“天衍-287”已完成搭建。 该量子计算系…

2025-11-14

四名MIT辍学00后,两年打造AI编程神器,估值冲300亿成资本新宠
两年前,在完成种子轮融资后,创始人曾写了这样的期待—— Cursor的诞生,推动了「氛围编程」(vibe coding)在全球兴起。 他还在创纪录的时间内,完成了一份手写编程测试,给早期Facebook投资…

2025-11-14

荣耀500 Pro配置亮点全揭秘:骁龙8至尊版+2亿主摄+8000mAh长续航
【CNMO科技消息】11月14日,有数码博主曝光了荣耀500Pro的核心参数。CNMO注意到,新机将搭载骁龙8至尊版移动平台,电池容量达到8000mAh,主打2亿像素大底主摄。 除了上述核心亮点外,荣耀50…

2025-11-14

疑似小米新款大尺寸横向阔折叠手机曝光 参数配置或迎重大升级
据CNMO了解,此前,有数码博主爆料称,小米新款大折叠手机正在测试2亿像素主摄,或采用1/1.4英寸大底高像素方案,可能支持35mm、50mm裁切光变。目前小米大折叠产品线型号为"MIX Fold",而新款…

2025-11-14

vivo V70现身Geekbench跑分平台 搭载骁龙7系 2026年一季度或发布
根据Geekbench平台信息,vivo V70搭载了与上代机型V60同款的骁龙7 Gen4移动平台。其中ProMini机型在国际市场或将更名为vivo X300 FE,而标准版S50可能基于vivo V…

2025-11-13

OPPO Reno15 Pro 11月17日登场:天玑8450+2亿主摄,屏幕续航全面升级
最新泄露的信息显示,这款新机将在屏幕、影像和续航等多个维度带来显著升级。 爆料数据显示,OPPO Reno15 Pro将搭载一块6.78英寸1.5K分辨率直屏,采用全球最窄的1.15mm四等边设计,配合金属中…

2025-11-13

荣耀500系列亮相:外观工艺焕新,“双超”升级点燃市场期待
结合此前该博主爆料的“影像能力大幅提升”信息,我们可以推测荣耀 500 系列可能在多镜头协同方面实现突破,而横向 Deco设计正是为这些硬件升级提供的结构支撑。 这种定位延续了荣耀数字系列自 300 系列…

2025-11-13