虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

微软rStar-Math技术助力,小语言模型数学推理能力大飞跃!

2025-01-11来源:ITBEAR编辑:瑞雪

微软亚洲研究院的数学与人工智能研究团队近日取得了一项新的技术突破,他们专为解决数学问题设计并开发了名为rStar-Math的技术。这项技术于1月10日通过官方博文正式对外公布。

与微软此前推出的Phi-4技术相比,rStar-Math采用了蒙特卡洛树搜索(Monte Carlo Tree Search)进行推理。这种方法模拟了人类逐步解决问题的思维方式,通过将复杂问题分解成更小的部分,逐步求解,从而提高了解决数学问题的效率。

在开发过程中,研究团队要求模型输出自然语言描述和Python代码形式的“思维链”步骤,并将自然语言作为Python代码的注释。他们仅使用Python代码输出进行训练,这一做法旨在使模型更加清晰地展示其解题过程。

为了进一步提升模型的性能,研究团队还训练了一个“策略模型”来生成数学推理步骤,并使用“过程偏好模型”(PPM)来选择最有希望的解题步骤。这两个模型通过四轮“自我进化”相互改进,不断优化其解题能力。

在训练过程中,研究团队使用了74万道公开的数学应用题及其解答作为初始数据,并利用上述两个模型生成了新的解题步骤。这一做法不仅丰富了训练数据,还有助于模型更好地理解和解决数学问题。

测试结果显示,应用rStar-Math技术后,Qwen2.5-Math-7B模型的准确率从58.8%跃升至90.0%,Phi3-mini-3.8B模型的准确率也从41.4%提升到86.4%。与OpenAI的o1-preview模型相比,rStar-Math技术在两个模型上的表现分别高出4.5%和0.9%。

为了让其他研究者能够使用和改进rStar-Math技术,研究团队已在Hugging Face上宣布,他们计划将rStar-Math的代码和数据在GitHub上公开。这一举措将促进数学与人工智能领域的交流与合作,推动相关技术的进一步发展。

英伟达CES 2026聚焦AI 黄仁勋:传统光栅化时代将落幕 神经渲染引领未来
虽然黄仁勋未直接承认 RTX 5090是传统技术的“绝唱”,但该媒体解读认为,他对神经渲染的极力推崇,暗示了依靠纯光栅化计算来提升画质的时代正走向终结。黄仁勋描绘了一个由 AI驱动角色的未来:游戏中的 …

2026-01-08

马斯克谈AI发展:中国算力潜力巨大,电力芯片难题有望攻克
马斯克认为,中国在这场“AI竞赛”中拥有决定性优势,其中电力扩张能力是关键,他估计,中国今年的发电量可能达到美国的三倍,可以带起更多消耗大量电力的 AI 数据中心。结合IT之家此前报道,马斯克也会在 A…

2026-01-08

联想携手英伟达发布AI云超级工厂,杨元庆黄仁勋共启吉瓦级AI新篇
IT之家 1 月 7 日消息,在今日的联想第十一届 Tech World 大会及主题演讲中,联想与英伟达联合发布了联想 AI云超级工厂(Lenovo AI Cloud Gigafactory)。 在主题演讲…

2026-01-07

华硕CES 2026亮相TUF Gaming TM500:AMD平台MoDT游戏整机新选择
IT之家 1 月 7 日消息,华硕 (ASUS) 在 2025 年曾推出过一款采用英特尔平台 MoDT 处理器的游戏台式整机 TUFGaming T500,如今其兄弟产品 TUF Gaming TM500 …

2026-01-07

雷军官宣:新一代小米SU7 4月上市,全系激光雷达续航有新突破
雷军先是回顾了SU7取得的成绩。2024年3月28日,小米正式发布了SU7,4月份开始交付。SU7,因为好看、好开和智能体验,上市后就成为了汽车行业无可争议的大爆品,一直火爆到今天。甚至,过去一年,小米SU…

2026-01-07

小米2025技术大奖揭晓:玄戒O1芯片领衔,汽车超强钢等成果获殊荣
据IT之家此前报道,在 2025 年 5 月的小米 15 周年战略新品发布会中,小米发布了时隔多年的自研手机 SoC 芯片“玄戒O1”,该芯片采用第二代 3nm 工艺制程、十核四丛集 CPU,性能跻身第一…

2026-01-07

游戏显卡价格攀升引关注,黄仁勋:重启旧GPU生产或引入AI技术存可能
快科技1月7日消息,在CES 2026上,英伟达虽登台展示了其在高端AI计算领域的最新成果,但并未发布新的消费级GPU产品。 并向黄仁勋询问称,英伟达是否会考虑在产能相对充裕的旧制程节点上重启部分老一代GPU…

2026-01-07

英伟达DGX Spark亮相CES 2026:大模型本地化或开启AI新纪元
英伟达在 CES 2026 上展示了全新的 DGX Spark,并且用它完成了多个 AI 相关的任务。开发者和创作者不需要昂贵的数据中心,通过DGX Spark,就可以在本地流畅运行、微调,甚至推理高达 …

2026-01-07