360自研AI大模型gpt2-o1亮相，数学逻辑推理能力能否超越国际水平？-移动互联-虎科技

近日，360智脑官方在其公众号上发布了一则令人瞩目的消息，正式推出了其自主研发的AI大模型——360gpt2-o1。这款新模型在推理能力上实现了显著提升，尤其在数学与逻辑推理任务上的表现尤为突出。

360gpt2-o1之所以能够在这些领域取得如此优异的成绩，主要得益于其三大技术突破：合成数据优化、模型后训练以及“慢思考”范式。这些技术使得该模型在多项权威评测中均表现出色，超越了前代模型360gpt2-pro，甚至在与GPT-4o模型的对比中也毫不逊色。

在数学领域的评测中，360gpt2-o1展现出了强大的实力。无论是基础数学评测，如MATH和高考数学，还是权威的数学竞赛，包括AIME24和AMC23，该模型都取得了令人瞩目的成绩。特别是在数学竞赛评测中，360gpt2-o1还超越了阿里巴巴最新开源的o1系列模型QWQ-32B-preview，进一步证明了其卓越的数学推理能力。

为了提升模型的推理能力，360智脑团队在合成数据优化方面下足了功夫。他们通过指令合成、质量/多样性筛选等方法，有效解决了高质量数学与逻辑推理数据稀缺的问题，为模型提供了丰富的训练数据集。

在模型后训练阶段，360智脑团队采用了两阶段训练策略。他们首先利用小模型生成多样化的推理路径，然后利用大模型进行RFT训练和强化学习训练，从而进一步提升了模型的推理能力和反思纠错能力。

360gpt2-o1还引入了“慢思考”范式，这一创新性的技术使得模型能够像人类一样逐步推理和反思。该范式利用蒙特卡洛树搜索探索多样化的解决方案，并引入LLM进行错误验证和纠错，最终形成包含反思、验证、纠错和回溯的长思维链。

360智脑官方还公布了360gpt2-o1的整体架构图，展示了其复杂而精密的设计。这一架构的公布，不仅让人们更加了解了这款AI大模型的内部构造，也为其在未来的应用和发展提供了更多的可能性。