微软rStar-Math技术助力，小语言模型数学推理能力大飞跃！-数码产品-虎科技

微软亚洲研究院的数学与人工智能研究团队近日取得了一项新的技术突破，他们专为解决数学问题设计并开发了名为rStar-Math的技术。这项技术于1月10日通过官方博文正式对外公布。

与微软此前推出的Phi-4技术相比，rStar-Math采用了蒙特卡洛树搜索（Monte Carlo Tree Search）进行推理。这种方法模拟了人类逐步解决问题的思维方式，通过将复杂问题分解成更小的部分，逐步求解，从而提高了解决数学问题的效率。

在开发过程中，研究团队要求模型输出自然语言描述和Python代码形式的“思维链”步骤，并将自然语言作为Python代码的注释。他们仅使用Python代码输出进行训练，这一做法旨在使模型更加清晰地展示其解题过程。

为了进一步提升模型的性能，研究团队还训练了一个“策略模型”来生成数学推理步骤，并使用“过程偏好模型”（PPM）来选择最有希望的解题步骤。这两个模型通过四轮“自我进化”相互改进，不断优化其解题能力。

在训练过程中，研究团队使用了74万道公开的数学应用题及其解答作为初始数据，并利用上述两个模型生成了新的解题步骤。这一做法不仅丰富了训练数据，还有助于模型更好地理解和解决数学问题。

测试结果显示，应用rStar-Math技术后，Qwen2.5-Math-7B模型的准确率从58.8%跃升至90.0%，Phi3-mini-3.8B模型的准确率也从41.4%提升到86.4%。与OpenAI的o1-preview模型相比，rStar-Math技术在两个模型上的表现分别高出4.5%和0.9%。

为了让其他研究者能够使用和改进rStar-Math技术，研究团队已在Hugging Face上宣布，他们计划将rStar-Math的代码和数据在GitHub上公开。这一举措将促进数学与人工智能领域的交流与合作，推动相关技术的进一步发展。