虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

AI新考验!ARC-AGI-2测试来袭,AI模型成绩惨淡远不及人类

2025-03-25来源:ITBEAR编辑:瑞雪

近期,由知名人工智能专家弗朗索瓦·肖莱携手创立的非营利组织Arc Prize基金会,在其官方博客上揭晓了一项名为ARC-AGI-2的全新测试。该测试旨在深入评估当前领先的人工智能模型的通用智能水平,其难度系数极高,令众多AI模型望尘莫及。

根据Arc Prize排行榜的数据揭示,那些在推理领域表现突出的AI模型,例如OpenAI的o1-pro和DeepSeek的R1,在ARC-AGI-2测试中的得分仅仅徘徊在1%至1.3%之间。即便是GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等强大的非推理型模型,其得分也仅维持在1%左右的低水平。

ARC-AGI测试由一系列复杂谜题构成,要求AI从一组色彩斑斓的方块中辨识出隐藏的视觉规律,并据此生成正确的“答案网格”。这些问题设计精巧,旨在考验AI面对全新问题的应变能力。为了设定人类基线,Arc Prize基金会邀请了超过400名参与者参与ARC-AGI-2测试。结果显示,这些参与者组成的“团队”平均正确解答了测试中60%的问题,这一成绩远超所有AI模型的表现。

肖莱在X平台上强调,相较于先前的ARC-AGI-1测试,ARC-AGI-2更能精准反映AI模型的实际智能水平。Arc Prize基金会的测试旨在评估AI系统能否在脱离训练数据的情况下高效习得新技能。

肖莱指出,与ARC-AGI-1相比,新的测试版本有效防止了AI模型依赖“蛮力”——即庞大的计算能力——来寻找答案。他承认,这是ARC-AGI-1的一个主要弊端。为了弥补这一不足,ARC-AGI-2引入了“效率”这一新指标,并要求模型实时解读模式,而非依赖记忆。

Arc Prize基金会联合创始人格雷格·卡姆拉德在其博客文章中写道:“智能不仅仅在于解决问题或获取高分的能力,这些能力的获取效率和部署方式同样至关重要。我们提出的核心问题不仅限于‘AI能否习得完成任务所需的技能?’,还包括‘以何种效率和成本?’”

ARC-AGI-1在五年内无人能敌,直到2024年12月,OpenAI发布了其先进的推理模型o3,该模型超越了所有其他AI模型,并在评估中达到了人类水平的表现。然而,当时便指出,o3在ARC-AGI-1上的卓越表现是以高昂的成本为代价的。在ARC-AGI-2测试中,即便使用价值200美元的计算资源,OpenAI的o3模型(低配版)的得分也仅为4%。

ARC-AGI-2的推出恰逢其时,科技行业正迫切呼吁建立新的、尚未饱和的基准来评估AI的进展。Hugging Face联合创始人托马斯·沃尔夫在最近接受采访时指出,AI行业缺乏足够的测试来衡量通用人工智能的关键特质,如创造力。

Arc Prize基金会还宣布了2025年Arc Prize竞赛,向开发者发起挑战,要求在ARC-AGI-2测试中达到85%的准确率,同时每项任务的成本不超过0.42美元(约合3元人民币)。

荣耀GT2来袭:9000mAh大电池配骁龙8E,两千档新机能否逆袭红米?
作为新系列的首款机型,荣耀GT在曝光之初备受期待,被认为是最有希望挑战红米K80地位的产品。 据悉荣耀GT2将搭载骁龙8E处理器,看齐红米K90,而骁龙8E的性能经过一年时间的考验大家已经很清楚了,依然非常强…

2025-11-15

华为顶级旗舰价格大跳水,16GB+512GB直降2100元,为新机让路
这段时间虽然登场了很多新旗舰,但阿维觉得挺遗憾的,因为绝大多数新旗舰都只是常规升级,单纯为了启用第五代骁龙8至尊版和天玑9500,在这种情况下,甚至就连小米17 Pro系列上并不算多大创新的背屏也成为了大家津…

2025-11-15

Apple Store应用6.6版焕新登场:液态玻璃设计带来视觉与交互新体验
2025-11-14 08:20:29 作者:狼叫兽 今日,iPhone与iPad平台的AppleStore应用迎来6.6版本更新,此次更新引入了全新设计的应用图标,并对界面进行了视觉升级,以适配iOS 2…

2025-11-14

高通跃龙IQ-X系列处理器登场 助力工业PC与边缘智能场景革新发展
高通技术公司汽车、工业及嵌入式物联网事业群总经理Nakul Duggal称,高通跃龙IQ-X系列将Qualcomm Oryon CPU的计算性能引入工业PC领域,有助于提升工厂车间边缘控制器的运行能力与…

2025-11-14

谷歌Pixel 6及更新机型获通话录音功能推送,部分非Pixel机型也能享
IT之家 11 月 14 日消息,据科技媒体 Phone Arena 今天报道,谷歌现已为 Pixel 6系列及更新机型推送通话录音功能,部分非 Pixel 系列手机也能用上。 IT之家在此援引 Phone…

2025-11-14

iPhone 17系列发售不到俩月,中国市场激活量破1000W,双十一销量也亮眼
11月14日,数码博主“数码闲聊站”发文透露iPhone17系列于本周完成中国市场激活1000W+。 iPhone17系列9月19日正式发售,如今距发售不到两个月。 该博主此前曾透露,截至11月2日,iPh…

2025-11-14

手机电池容量怎么选?联想新机与大疆眼镜选购指南来了
续航方面,moto X70 Air的电池容量为4800mAh,虽然在当前动辄5000mAh甚至6000mAh的中端机中并不占优,但结合机身厚度来看,这一数据仍非常可观,而且该机还支持68W有线快充,可在30…

2025-11-14

百度文库网盘GenFlow3.0焕新升级,推出两大智能体,助力用户成“超级个体”且加速出海
基于GenFlow3.0,文库网盘在多产品矩阵中升级AI能力,帮助用户在工作、生活、学习上成为“超级个体”。基于百度文库全新能力,Oreate采用多智能体架构,能够端到端完成全场景、全模态创作,涵盖文档、P…

2025-11-14

京东11.11平板教育品类齐发力 办公游戏平板热销 智能学习设备受青睐
直播渠道同样表现抢眼,联想小新Pro GT、荣誉平板GT2 Pro、小米平板7 Pro获得观众最多青睐。在新兴的闺蜜机品类中,海信、小度添添、小米占据品牌领先地位,海信大白闺蜜机X8 Pro、小度添添闺蜜机…

2025-11-13