虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

Meta开源大模型Llama-4-Maverick排名大跳水,被指刷榜作弊?

2025-04-14来源:ITBEAR编辑:瑞雪

近期,LMArena更新了大型语言模型的排名,引发了一场关于meta最新发布的开源大模型Llama-4-Maverick真实性能的广泛讨论。此前,Llama-4-Maverick在LMArena的Chatbot Arena LLM排行榜上高居第二,仅次于Gemini 2.5 Pro。然而,这一排名近日却发生了戏剧性的变化,Llama-4-Maverick直线下降至第32名。

这一变化源于开发者对meta提供给LMArena的Llama 4版本产生质疑。有开发者指出,meta提交给LMArena的版本与向社区公开的开源版本存在显著差异,怀疑meta为了刷榜而提供了“特供版”。这一质疑迅速在开发者社区中发酵,引发了广泛的关注和讨论。

为了回应这些质疑,Chatbot Arena官方于4月8日发文确认了开发者的猜测。官方表示,meta首次提交给他们的Llama-4-Maverick版本是一个实验性聊天优化版本,即Llama-4-Maverick-03-26-Experimental。该版本在LMArena上取得了不错的排名,但随后曝光的开源版本却表现平平。

随着更多关于开源版Llama-4-Maverick性能的信息曝光,该模型的口碑急剧下滑。开发者发现,开源版Llama-4-Maverick在LMArena的排名远低于Gemini 2.5 Pro、GPT4o等竞争对手,甚至连基于上一代Llama 3.3改造的模型都不如。这一发现进一步加剧了开发者对meta刷榜行为的质疑。

针对这一争议,meta方面给出了回应。一位meta发言人表示,meta确实尝试了“各种类型的定制变体”,其中Llama-4-Maverick-03-26-Experimental是针对聊天优化的版本。该发言人称,这一版本在LMArena上表现不错,但meta随后发布了开源版本,并期待开发者根据自己的使用案例进行定制。

然而,尽管meta给出了回应,但开发者社区的质疑并未因此平息。许多开发者认为,针对基准测试调整模型不仅具有误导性,还使得他们难以准确预测该模型在不同场景下的表现。这一事件再次引发了关于AI模型性能评估和排名的广泛讨论。

在这场争议中,LMArena的排名也受到了质疑。有开发者指出,尽管LMArena是一个重要的基准测试平台,但其排名结果并非衡量AI模型性能的最可靠指标。这一观点得到了许多开发者的认同。

随着讨论的深入,越来越多的开发者开始关注AI模型的实用性和场景适应性。他们认为,真正的AI模型应该能够在各种实际场景中表现出色,而不仅仅是在某个特定的基准测试上取得高分。这一观点逐渐成为了开发者社区的主流声音。

哈趣Q1 Pro投影仪:百元价位搭载哈曼音响,影音体验再升级
哈趣Q1 Pro投影仪背面是大面积的散热隔栅,接口和开关键都集中在最上部,云台底部电源接口使用了标准的8字尾插,内置电源变压器让哈趣Q1 Pro投影仪整体集成度更高,没有大块头的变压器拖累,无论是在家的摆位…

2025-10-23

舒福德S500睡眠智能体亮相,以数字生态革新开启全民睡眠健康新篇
作为麒盛科技旗下智能床品牌,自2005年自主研发智能电动床,开启探索智能睡眠体验:2017年推出全球首张智能床,初步实现睡眠数据的采集与分析;2022年作为北京冬奥会唯一智能床供应商,通过服务全球运动员,验证…

2025-10-22

小米17 Pro推送澎湃OS3.0.24.0内测更新 优化系统影像修复多项使用问题
【CNMO科技消息】CNMO注意到,小米近日已向具备升级权限的小米17Pro用户推送了版本号为3.0.24.0.WBLCNXM的正式版内测更新,此次升级主要聚焦于系统稳定性、硬件性能调校及影像功能优化。 本…

2025-10-22

OpenAI首款浏览器Atlas来袭:AI整合新体验,实测感受抢先看
AI 协助功能:在任何打开的文本输入框中输入内容时,ChatGPT 能提供实时修改建议和智能补全,帮你更高效地码字Agent(代理)模式:能让 ChatGPT 在浏览器中自主完成多步骤任务从今天开始,ma…

2025-10-22

小米YU7 GT纽北赛道再露面,量产在即,设计细节与动力性能引期待
近日,小米YU7 GT再次现身纽北赛道,整体已经接近量产状态,之前SU7Ultra上市后特别受欢迎,比大家预想的还火,这也让小米更确定要推出YU7 GT。 动力方面,参考SU7 Ultra 1548马力的最…

2025-10-22

AMD驱动优化显成效!RX 9070与RTX 5070实测对比,性能差距扩大至13%
Hardware Unboxed(HU)的最新测试结果,再次印证了这一说法:Radeon RX9070在最新的驱动和游戏补丁加持下,性能差距与竞争对手RTX 5070明显扩大。 即使加入各自的超分技术,R…

2025-10-22

华为Mate 70 Air或迎战iPhone Air:66W快充加持,配置亮点抢先看
值得注意的是,目前华为Mate 70 Air已上架电信终端产品库,有12GB+256GB和12GB+512GB两种配置,屏幕尺寸为6.9英寸,延续了华为Mate系列的中轴对称设计,镜头模组采用“奥利奥”设计…

2025-10-22

真我GT8 Pro评测:拒绝趋同,可换Deco与理光影调带来别样趣味
我们雷科技有幸提前上手了这款产品,接下来就跟我一起看看体验如何吧。 是的,你没听错,在整个行业都在鼓捣着千篇一律的非方即圆设计时,真我带来了不止一种、不止两种,而是整整四种不同的Deco设计,从经典圆形、方…

2025-10-22

汉印拍立得Z3:复古外观遇上便捷打印,玩法丰富还能“0废片”拍摄
关于汉印拍立得Z3的内容就说到这里,通过上面的文章内容,不难看出汉印拍立得Z3确实是一款在外观设计以及打印等玩法方面都挺有意思的拍立得产品,同时就算是不连接手机,也能实现“即拍即打”,并且支持调色、滤镜调节…

2025-10-22

国家广电总局首颁“便捷看电视”认证,认准标志选电视享便捷观影体验
IT之家 10 月 20日消息,国家广播电视总局今日宣布,国家广播电视总局广播电视规划院为首款符合认证标准的智能电视机颁发“便捷看电视”认证证书。这款率先通过认证的产品由康佳研发打造,即将正式上市销售。 作…

2025-10-21