蚂蚁集团近日宣布开源全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T,标志着AI大模型领域在长文本处理与复杂任务规划能力上取得突破性进展。该模型在生成效率、推理深度和长时程任务执行能力三大核心指标上实现显著提升,尤其在数学竞赛、代码生成和智能体任务执行等场景中展现出开源模型领先水平。
在数学推理能力验证中,Ring-2.5-1T在国际数学奥林匹克竞赛(IMO 2025)自测中取得35分(满分42分),中国数学奥林匹克(CMO 2025)自测中更以105分远超金牌线78分和国家队集训队选拔线87分。对比前代模型Ring-1T,新模型在推理逻辑严谨性、高级数学证明技术应用和答案完整性方面均有显著优化。在编程能力测试中,该模型在LiveCodeBench-v6代码生成基准中超越所有对比模型,展现出强大的工程化落地潜力。
技术架构层面,Ring-2.5-1T基于创新的Ling 2.5混合线性注意力架构,通过将传统GQA(分组查询注意力)升级为MLA(多头线性注意力)与Lightning Linear结构的1:7混合比例,在保持63B激活参数规模的同时,将内存访问开销降低至前代的1/10。实验数据显示,在32K以上长文本生成场景中,模型生成吞吐量提升超3倍,且随着序列长度增加,效率优势持续扩大。在配备8块H200 GPU的测试环境中,当生成长度超过16K tokens时,其解码吞吐量较传统架构模型高出40%以上。
针对复杂任务执行场景,研究人员通过大规模完全异步智能体强化学习训练,使模型具备跨应用工具协作能力。在智能体搜索任务Gaia2-search中,Ring-2.5-1T在规划生成和多步工具调用准确率上达到开源模型最优水平,较Kimi-K2.5-Thinking等竞品提升23%。该模型已实现与Claude Code智能体编程框架和OpenClaw个人AI助手的快速适配,支持多步骤工具调用与动态规划生成。
在开源生态建设方面,蚂蚁集团同步在Hugging Face、ModelScope等平台发布模型权重与推理代码,并计划于近期上线官方Chat体验页和API服务。对比测试显示,在AIME 26数学推理、HMMT 25竞赛数学等高难度基准测试中,Ring-2.5-1T均实现开源模型最佳性能,在SWE-Bench Verified软件工程任务执行基准中更以87.6%的通过率领先第二名14个百分点。这些突破为金融、科研、工业等领域处理超长文档、复杂业务流程提供了新的技术路径。


