阿里云通义开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini-智能汽车-虎科技

1月27日凌晨，阿里云通义重磅开源支持100万Tokens上下文的Qwen2.5-1M模型，推出7B及14B两个尺寸，均在处理长文本任务中稳定超越GPT-4o-mini;同时开源推理框架，在处理百万级别长文本输入时可实现近7倍的提速。

百万Tokens长文本，可换算成10本长篇小说、150小时演讲稿或3万行代码。两个月前， Qwen2.5-Turbo 升级了百万Tokens的上下文输入能力，广受开发者和企业欢迎。如今，开源社区可基于全新的 Qwen2.5-1M 系列模型，进行长篇小说或多篇学术论文的解析，或是探索仓库级代码的分析和升级。

Qwen2.5-1M拥有优异的长文本处理能力。在上下文长度为100万 Tokens 的大海捞针(Passkey Retrieval)任务中，Qwen2.5-1M 能够准确地从 1M 长度的文档中检索出隐藏信息，仅有7B模型出现了少量错误。在RULER、LV-eval等基准对复杂长上下文理解任务测试中，Qwen2.5-14B-Instruct-1M 模型不仅击败了自家闭源模型 Qwen2.5-Turbo，还稳定超越 GPT-4o-mini，为开发者提供了一个现有长上下文模型的优秀开源替代。

大模型的长文本训练需要消耗大量的计算资源，通义团队通过逐步扩展长度的方法，从预训练到监督微调再到强化学习等多个阶段，高效地将 Qwen2.5-1M 的上下文长度从 4K 扩展到 256K;再通过长度外推的技术，创新引入Dual Chunk Attention机制，在无需额外训练的情况下，将上下文长度高性能地稳定扩展到1M，从而在较低成本下实现了 Qwen2.5-1M 模型。

同时，为了加快推理速度，通义团队在vLLM推理引擎基础上，引入基于Minference的稀疏注意力机制，并在分块预填充、集成长度外推方案和稀疏性优化等多环节创新改进。基于这些改进的推理框架有效地加快了模型推理速度，在不同模型大小和 GPU 设备上，处理 1M 长度输入序列的预填充速度提升了 3.2 倍到 6.7 倍。

据了解，Qwen2.5-1M已经在魔搭社区ModelScope和HuggingFace等平台开源，开发者可前往下载或直接体验模型;相关推理框架也已在GitHub上开源，帮助开发者更高效地部署Qwen2.5-1M模型。开发者和企业也可通过阿里云百炼平台调用 Qwen2.5-Turbo 模型API，或是通过全新的Qwen Chat平台体验模型性能及效果。

附链接：

演示Demo：https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo

Modelscope：https://www.modelscope.cn/organization/Qwen

Huggingface：https://huggingface.co/Qwen

开源框架地址：https://github.com/QwenLM/vllm/tree/dev/dual-chunk-attn

Qwen Chat体验：https://chat.qwenlm.ai/

王腾新公司“今日宜休”收数百简历：优先组研发团队，反内卷倡导随时休息

1月9日，王腾原小米中国区市场部总经理、REDMI品牌总经理王腾在官宣成立新公司“今日宜休”后，今日表示已经收到了几百份简历，目前正在逐个筛选，薪资对标大厂。王腾表示，公司初期重点组建产品研发团队，计划春节…

2026-01-09

歌尔微电子CES2026展风采：多领域传感器齐亮相，创新实力领航未来

水深气压传感器具备30-550kPa大量程优势，小尺寸设计可适配于智能手表；音频类骨声纹传感器以120-125μA低功耗、通用音频接口等优点，成为TWS耳机、AI眼镜的核心感知组件；距离检测传感器（1D To…

2026-01-09