虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们

OpenAI再夺7金,o1-preview成首个AI Kaggle特级大师!

2024-10-12来源:ITBEAR编辑:瑞雪

科技媒体The Decoder于昨日发布了一篇引人注目的报道,披露了OpenAI公司最新推出的MLE-bench基准。这一基准旨在评估AI智能体在开发机器学习解决方案方面的实力,覆盖了75个Kaggle竞赛,涵盖了自然语言处理、计算机视觉和信号处理等多个领域。

MLE-bench专注于两个核心领域:选择具有挑战性的任务,这些任务代表着当前机器学习的发展前沿;比较AI与人类的表现,以此评估AI在特定任务中的能力。

OpenAI在MLE-bench上测试了多个AI模型和智能体框架,其中使用AIDE框架的o1-preview模型表现尤为出色,在16.9%的比赛中至少获得了一枚铜牌,这一成绩甚至超越了Anthropic的Claude 3.5 Sonnet。

值得注意的是,MLE-bench上的任务具有现实世界的应用价值,如预测COVID-19 mRNA疫苗的降解或解码古代卷轴等。而获得5枚金牌即可评为“Grandmaster”特级大师,o1-preview模型在测试中更是获得了7枚金牌。

然而,OpenAI也承认MLE-bench存在局限性,它并未涵盖AI研究与开发的所有方面,而是主要集中在那些具有明确问题和简单评估指标的任务上。

尽管如此,MLE-bench基准的推出无疑为AI在机器学习领域的发展提供了新的推动力。该基准现已在GitHub上发布,OpenAI希望通过这一工具,进一步推动AI在机器学习领域的创新与应用。

阿斯顿马丁召回近百辆进口车,DBX707、DB12系列在列!
自即日起,召回2022年10月20日至2024年2月29日期间生产的DBX707汽车,共计43辆;召回2024年2月2日至2024年6月5日期间生产的DB12Coupe汽车,共计49辆;召回2024年1月22…

2024-10-12

215万迈巴赫新车漏水?经销商这样回应!
但客户一直拒绝授权,我们至今无法进一步了解车辆问题所在,亦无法给出解决方案。”“奔驰苏州元星”在声明中还提到,在后续3个月的沟通中,公司通过多次电话、微信联络,出具《车辆检查邀请函》并同时主动提供代步车等措施…

2024-10-12

紫金山-阿特拉斯彗星今晚最接近!肉眼观测窗口期仅10-20分钟
日落后约一小时,它将变得肉眼可见,并可能显示出一条长而美丽的尾巴,但肉眼观测时间很短,只有 10 到 20分钟的窗口期。在近日点,彗星的估计亮度约为 2 星等,因此 C / 2023 A3 只需增加 1 …

2024-10-12

理想汽车携手中国石化,充电业务战略合作开启新篇章!
理想汽车与中国石化签署充电战略合作协议,共建充电站、平台互联互通。首座联名站投入运营,预计全国百站规模。实现京津冀、长三角、大湾区、成渝四大经济带核心城市充电服务。中国石化加能站网络优势转化为适应新能源汽车用户需求的解决方案。

2024-10-12

9月车市风云:比亚迪宋销量夺冠,一骑绝尘?
快科技10月12日消息,根据乘联会数据,9月全国乘用车厂商批发250.4万辆,同比增长2.1%,环比增长16.1%,创出新高。主流合资车企批发54万辆,同比下降29%,环比增长17%。9月乘用车批发销量超两万…

2024-10-12