虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

阿里QwenLong-L1-32B:长文本推理新突破,强化学习训练显神威

2025-05-27来源:ITBEAR编辑:瑞雪

阿里通义千问Qwen团队近日正式推出了其最新研发成果——QwenLong-L1-32B模型,这一模型在长文本情境推理领域实现了新的突破。据团队介绍,QwenLong-L1-32B是首个通过强化学习训练的长文本情境推理模型(LRM),其性能在多个基准测试中表现优异。

在七个长文本DocQA基准测试中,QwenLong-L1-32B模型的表现超越了o3-mini和Qwen3-235B-A22B等旗舰模型,与Claude-3.7-Sonnet-Thinking模型旗鼓相当。这一成绩不仅展示了QwenLong-L1-32B模型的强大实力,也标志着阿里在长文本推理技术上的又一次飞跃。

QwenLong-L1-32B模型的最大亮点在于其上下文窗口的支持能力,最高可达131072个tokens。这意味着模型在处理长文本时能够捕捉到更多的上下文信息,从而做出更准确的推理。这一特性使得QwenLong-L1-32B模型在长文本推理任务中具有显著的优势。

在模型的开发过程中,阿里通义千问Qwen团队采用了先进的GRPO(Group Relative Policy Optimization)和DAPO(Direct Alignment Policy Optimization)算法,并结合了基于规则和基于模型的混合奖励函数。这些创新技术的应用,显著提升了模型在长上下文推理中的准确性和效率。团队还通过监督微调(SFT)阶段建立了一个稳健的初始策略,并采用课程引导的分阶段强化学习技术来稳定策略演变。

除了模型本身的创新,阿里还发布了一套针对长文本推理问题的完整解决方案。该方案涵盖了高性能的QwenLong-L1-32B模型、专门优化的训练数据集、创新的强化学习训练方法以及全面的性能评估体系。这一解决方案的推出,将为长文本推理领域的研究和应用提供有力的支持。

阿里通义千问Qwen团队的这一成果,不仅展示了其在长文本推理技术上的深厚积累和创新实力,也为人工智能领域的发展注入了新的活力。随着技术的不断进步和应用场景的不断拓展,相信QwenLong-L1-32B模型将在更多领域发挥重要作用。

三星不推迟DDR4停产计划,2026年DDR4及NAND Flash价格或双双走高
全球存储行业巨头三星明确表示,不会推迟DDR4内存产品的停产(EOL)计划,这一决策直接推动DDR4现货价格涨幅显著超过新一代DDR5产品,市场预计2026年DDR4价格或将持续走高。 报告显示,三星的停产决…

2026-01-01

国泰科创人工智能ETF(589110)微跌0.11% 最新规模达2.81亿元
科创人工智能ETF国泰(589110)成立于2025年9月26日,基金全称为国泰上证科创板人工智能交易型开放式指数证券投资基金,基金简称为国泰上证科创板人工智能ETF。 规模方面,截止12月30日,科创人工…

2026-01-01

科创AIETF富国(589380)微涨0.07% 最新规模1.85亿重仓澜起科技等股
科创AIETF富国(589380)成立于2025年6月20日,基金全称为富国上证科创板人工智能交易型开放式指数证券投资基金,基金简称为富国上证科创板人工智能ETF。 规模方面,截止12月30日,科创AIET…

2026-01-01

手机长焦技术大比拼:小米华为OV各显神通,未来之路更精彩
而这也是我们用小米 17 Ultra 拍照时候的最直观体验:这颗变焦头,牺牲一点点 100mm 以上的光圈数,实际上是让 70-100mm中焦的影像能力更均衡了,日用更舒服。 远的不说,就拿「为一块传感器…

2026-01-01

荣耀Power2手机亮相电信终端库,1月5日发布,配置亮点抢先看
IT之家 1 月 1 日消息,荣耀 Power2 手机已定档今年 1 月 5 日晚正式发布,确认搭载联发科天玑 8500 Elite处理器、内置 10080mAh 的第四代青海湖电池等。 IT之家注意到,型…

2026-01-01

科创AIETF鹏华589090午间平收,重仓股表现分化半日成交453.75万
来源:新浪基金∞工作室 12月31日,截止午间收盘,科创AIETF鹏华(589090)涨0.00%,报1.048元,成交额453.75万元。科创AIETF鹏华(589090)重仓股方面,寒武纪截止午盘跌2.6…

2026-01-01