虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

OpenAI o3模型实测分数引争议,透明度与测试标准成焦点

2025-04-21来源:ITBEAR编辑:瑞雪

近期,关于OpenAI的o3人工智能模型在基准测试上的表现引发了广泛关注与讨论。争议的核心在于,OpenAI首次发布o3模型时公布的测试结果与外界第三方机构的测试结果存在显著差异。

去年12月,OpenAI自豪地宣布,其o3模型在极具难度的FrontierMath数学问题集上取得了突破性成绩,正确率超过四分之一,远超其他竞争对手。OpenAI首席研究官Mark Chen在直播中强调,这一成绩是在内部激进测试条件下,使用资源更为强大的o3模型版本所得出的。

然而,事情并未如此简单。负责FrontierMath的Epoch研究所随后公布的独立基准测试结果显示,公开发布的o3模型得分仅为约10%,远低于OpenAI宣称的分数。这一发现立即引发了外界对OpenAI透明度和测试实践的质疑。

值得注意的是,OpenAI在12月公布的测试结果中确实包含了一个与Epoch测试结果相符的较低分数。Epoch在报告中指出,测试设置的差异、评估使用的FrontierMath版本更新,以及可能的计算资源和框架不同,都可能是导致结果差异的原因。

ARC Prize基金会也在X平台上发布消息,进一步证实了Epoch的报告。ARC Prize指出,公开发布的o3模型是一个针对聊天和产品使用进行了调整的不同版本,且所有发布的o3计算层级都比预发布版本要小。这意味着,尽管o3模型在内部测试中取得了高分,但公开发布的版本在性能上有所妥协。

尽管如此,OpenAI并未因此止步。该公司后续推出的o3-mini-high和o4-mini模型在FrontierMath上的表现已经超越了最初的o3模型。同时,OpenAI还计划在未来几周内推出更强大的o3版本——o3-pro。

然而,这一系列事件再次凸显了人工智能基准测试结果的复杂性和不确定性。尤其是当这些结果来自有产品需要销售的公司时,外界对其真实性和可靠性的质疑声往往会更加响亮。随着人工智能行业的竞争加剧,各供应商纷纷急于推出新模型以吸引眼球和市场份额,基准测试“争议”正变得越来越普遍。

事实上,类似的争议并非个例。今年1月,Epoch因在OpenAI宣布o3之后才披露其从OpenAI获得的资金支持而受到批评。许多为FrontierMath做出贡献的学者直到公开时才知道OpenAI的参与。而最近,埃隆·马斯克的xAI也被指控为其最新的人工智能模型Grok 3发布了误导性的基准测试图表。就在本月,meta也承认其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

AI迎“效果涌现时刻”,李彦宏:AI产业结构正转变为健康的“倒金字塔”
“当AI能力被内化,成为一种原生的能力,智能就不再是成本,而是生产力。”11月13日举办的2025百度世界大会上,百度创始人李彦宏演讲时表示,更应关心如何让AI跟每一项任务有机结合,“让AI成为企业发展和个人成长的

2025-11-13

网友苦等新机只为一加15 李杰回应:等待终有回报,165帧游戏体验即将登场
快科技10月23日消息,有网友给一加中国区总裁李杰留言:前面那么多新机都没买,就一直等着一加15。李杰回复:“等等党不会输”。 从120帧到165帧,游戏帧率的突破不仅是参数上的跃升,更是手游体验的一次大换代…

2025-10-23

一加新机或携8200mAh大电池、165Hz高刷及骁龙8Gen 5登场,1999元起性价比拉满
在定位方面估计会比ace 6标准版更低一些,所以价格会更便宜,如果延续v机型的定价,那这款手机很有可能定在1999元左右,有骁龙8Gen 5旗舰处理器+8200mAh电池+百瓦快充,定在这个价格那性价比还是…

2025-10-23

OpenAI首款内置ChatGPT浏览器Atlas发布!支持谷歌数据导入,免费下载享7天会员
智东西下载初步体验了Atlas后发现,其基本的操作模式与谷歌等浏览器类似,相当于将ChatGPT直接嵌入浏览器,且从功能来看Atlas与其他AI浏览器并没有较大差距,或许还需要体验一段时间,当其拥有更多浏览…

2025-10-23

华为11月新品发布在即,Mate 80系列、折叠屏X7及nova 15系列将齐登场
【CNMO科技消息】10月21日,CNMO注意到,据业内人士透露,华为计划于11月迎来新一轮产品发布高峰,将推出涵盖智能手机、平板电脑及穿戴设备在内的多款新品。结合以往发布节奏分析,行业媒体推测,华为Mate…

2025-10-22

真我GT8系列即将登场:双旗舰配置亮点大揭秘,影像性能全面升级
除了影像,真我 GT8 Pro 在其他方面的配置也达到了顶级旗舰水准。 最引人注目的是,真我 GT8 标准版搭载了与 Pro 版本同款的理光GR 影像系统,这意味着它拥有同级别产品中唯一的影像联名,在影像…

2025-10-22

双11邂逅秋景,华为Pura 80 Pro降价1200元,影像实力等你来探
说起今年双11,各家影像手机可以说争奇斗艳,但有一款手机可以说是十分低调的,这就是6月份登场的华为Pura80系列,目前市场表现还没发挥出全部实力。 环顾现在新品影像旗舰,主摄1英寸的,可能还是Pura 8…

2025-10-21

华为Mate80系列完成备案预计11月登场,全系或配麒麟9030芯片及鸿蒙6系统
其中 Mate 80 标准版代号代号“Voyager”,拥有黑、白、青绿三种配色。 在此前的华为平板产品上,华为已批量下放麒麟 9020系芯片,Mate 80 系列则有望搭载全系的麒麟 9030 芯片以及鸿…

2025-10-21

7000mAh大电池配2K三星屏,潜望长焦加持,iQOO 15起售价4199元真香?
子系旗舰的综合配置看起来比主系旗舰还更高,这上市的iqoo 15就是个典型例子,电池同样提升到7k以上,并补齐了无线充电,作为旗舰手机这金属中框、超声波指纹、IP68/IP69级别防尘防水都是标配,还补齐了…

2025-10-21

今晚七点!iQOO 15携骁龙8至尊版等重磅升级登场,性能体验再进阶
将在今晚七点正式发布的iQOO 15除了首批更新第五代骁龙8至尊版处理器以外,更迎来了屏幕、独显芯片、续航、散热等重大升级,下面的爆料汇总值得一看。据悉,它还将在散热、视听触等方面全方位优化,通过搭载全新升级…

2025-10-21