虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

阿里云Qwen2.5-Max登顶AI大模型榜单,数学编程能力超群!

2025-02-05来源:ITBEAR编辑:瑞雪

近日,阿里云在其官方渠道宣布了一项重大突破,其最新研发的通义千问Qwen 2.5-Max超大规模MoE模型在新年之际崭露头角。该模型在多个基准测试中表现出色,据称已超越了包括DeepSeek V3在内的多个竞争对手。

具体而言,阿里云透露,Qwen2.5-Max在备受瞩目的Chatbot Arena大模型盲测中取得了令人瞩目的成绩。在这一由LMSYS Org推出的性能测试平台上,Qwen2.5-Max与DeepSeek-V3、Open AI的o1-mini以及Claude-3.5-Sonnet等模型同台竞技,最终以1332分的总成绩位列全球第七,同时摘得非推理类中国大模型的桂冠。

不仅如此,Qwen2.5-Max在数学和编程等领域的单项能力测试中更是独占鳌头,展现出了强大的专业实力。同时,在硬提示(Hard prompts)方面的测试中,该模型也获得了第二名的优异成绩。

据了解,Chatbot Arena平台以其公正、权威的测试方式而广受业界认可。该平台采用匿名方式将大模型进行两两配对,交由用户进行盲测。用户根据与模型的对话体验,对模型的能力进行投票。因此,Chatbot Arena的LLM排行榜成为了衡量大模型性能的重要标准之一,吸引了全球顶级大模型在此一决高下。

阿里云进一步指出,Qwen2.5-Max在多个主流基准测试中均表现出色。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond以及MMLU-Pro等测试中,该模型与Claude-3.5-Sonnet不相上下,同时几乎全面超越了GPT-4o、DeepSeek-V3以及Llama-3.1-405B等强劲对手。

此次Qwen2.5-Max的出色表现,不仅彰显了阿里云在人工智能领域的深厚积累与创新能力,也为中国大模型在全球舞台上赢得了更多关注与认可。

华为Mate 80系列及Mate X7折叠屏价格预测出炉 多款机型或降价
华为Mate 80系列新增的“Pro Max”型号预测售价为16GB+512GB版8499元、16GB+1TB版9499元,与Mate 70Pro+ 8499元起售价持平。 折叠屏方面,华为Mate X7…

2025-11-26

iPhone闲置操作按钮有救了!这款App让日程管理一键变轻松
等你再打开 Todoo,就会发现西溪天街的行程已经被安排上了,时间锁定在 10 点半。 或者,你刷小红书看到 GTA 6 又延期到了明年 11月 19 日( R 星你最好是 ),对象发微信让你几点顺路去驿…

2025-11-26

荣耀500系列杭州发布:骁龙8系加持 影像续航工艺全突破
在创新玩法上,荣耀500系列带来档位最全实况体验,首发的“破框而出”Live特效通过领先的AI算法,能够自动识别主体并实现“破框而出”的视觉效果,让每一张照片都充满生命力。独特的水晶岛镜头模组设计不仅极具辨识…

2025-11-26

小米公益基金会捐赠5500万助力光华工程科技奖 推动科技人才培养
IT之家 11 月 25 日消息,据小米公益基金会消息,今天下午,小米公益基金会向中国工程界最高奖项 —— 光华工程科技奖,捐赠 5500万元,中国工程院党组书记、院长李晓红和小米集团创始人、董事长兼 CE…

2025-11-26

荣耀500系列登场!2亿像素+长续航,中端市场新实力选手来袭
荣耀500系列含荣耀500、荣耀500 Pro两款新机,雷科技受邀到现场参与报道,与荣耀共同见证数字系列「新王」的到来。 荣耀500 Pro还支持从视频片段中直接生成4K分辨率的Live实况图,适合用户在复杂…

2025-11-26

英特尔Diamond Rapids至强CPU测试信息流出:功耗最高达650W 性能或大幅提升
IT之家 11 月 24 日消息,科技媒体 Wccftech 昨日(11 月 23日)发布博文,报道称英特尔下一代至强(Xeon)处理器“Diamond Rapids”的测试平台信息曝光,参考评估平台代号为…

2025-11-26