虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

OpenAI推出SimpleQA新基准:治理大模型“信口开河”有招了?

2024-10-31来源:ITBEAR编辑:瑞雪

OpenAI于近日推出了一项名为SimpleQA的新基准,旨在评估语言模型在回答简短事实寻求问题时的准确性。这一举措是AI领域追求更高事实正确性的重要一步。

据悉,SimpleQA通过一系列严格的标准来确保评估的公正性和有效性。其中包括高正确性,即参考答案需经两名独立AI训练师验证;多样性,涵盖从科学技术到娱乐等多个主题;以及前沿挑战性,相比早期的基准,SimpleQA更能测试出前沿模型的实力。

SimpleQA还注重高效用户体验,问题与答案设计得简洁明了,便于快速操作和评分。通过OpenAI API等工具,用户可以轻松地进行模型评估。

OpenAI表示,尽管SimpleQA在短查询的受限设置中测量事实准确性,但其希望这一基准的开源能够推动AI研究在更广泛领域的应用和发展。同时,SimpleQA也揭示了当前语言模型在生成事实正确回答方面仍面临的挑战,即如何减少错误输出和未经证实的答案,这一问题也被称为“幻觉”。

通过SimpleQA的推出,OpenAI期望能够进一步促进语言模型的优化和完善,使其在更多场景中发挥出更大的价值。

从独立到回归:realme此时“归巢”OPPO背后的战略棋局与市场考量
当然,从过去一年看,OPPO在全球市场的销量表现,也呈现出了一定的波动性。 援引界面新闻报道,行业人士提到,realme和一加的品牌合并是OPPO要走的必经之路,当下的手机市场早已不适合多子品牌策略,其他手…

2026-01-08

英伟达CES 2026聚焦AI 黄仁勋:传统光栅化时代将落幕 神经渲染引领未来
虽然黄仁勋未直接承认 RTX 5090是传统技术的“绝唱”,但该媒体解读认为,他对神经渲染的极力推崇,暗示了依靠纯光栅化计算来提升画质的时代正走向终结。黄仁勋描绘了一个由 AI驱动角色的未来:游戏中的 …

2026-01-08

马斯克谈AI发展:中国算力潜力巨大,电力芯片难题有望攻克
马斯克认为,中国在这场“AI竞赛”中拥有决定性优势,其中电力扩张能力是关键,他估计,中国今年的发电量可能达到美国的三倍,可以带起更多消耗大量电力的 AI 数据中心。结合IT之家此前报道,马斯克也会在 A…

2026-01-08

联想携手英伟达发布AI云超级工厂,杨元庆黄仁勋共启吉瓦级AI新篇
IT之家 1 月 7 日消息,在今日的联想第十一届 Tech World 大会及主题演讲中,联想与英伟达联合发布了联想 AI云超级工厂(Lenovo AI Cloud Gigafactory)。 在主题演讲…

2026-01-07

华硕CES 2026亮相TUF Gaming TM500:AMD平台MoDT游戏整机新选择
IT之家 1 月 7 日消息,华硕 (ASUS) 在 2025 年曾推出过一款采用英特尔平台 MoDT 处理器的游戏台式整机 TUFGaming T500,如今其兄弟产品 TUF Gaming TM500 …

2026-01-07

雷军官宣:新一代小米SU7 4月上市,全系激光雷达续航有新突破
雷军先是回顾了SU7取得的成绩。2024年3月28日,小米正式发布了SU7,4月份开始交付。SU7,因为好看、好开和智能体验,上市后就成为了汽车行业无可争议的大爆品,一直火爆到今天。甚至,过去一年,小米SU…

2026-01-07

小米2025技术大奖揭晓:玄戒O1芯片领衔,汽车超强钢等成果获殊荣
据IT之家此前报道,在 2025 年 5 月的小米 15 周年战略新品发布会中,小米发布了时隔多年的自研手机 SoC 芯片“玄戒O1”,该芯片采用第二代 3nm 工艺制程、十核四丛集 CPU,性能跻身第一…

2026-01-07

游戏显卡价格攀升引关注,黄仁勋:重启旧GPU生产或引入AI技术存可能
快科技1月7日消息,在CES 2026上,英伟达虽登台展示了其在高端AI计算领域的最新成果,但并未发布新的消费级GPU产品。 并向黄仁勋询问称,英伟达是否会考虑在产能相对充裕的旧制程节点上重启部分老一代GPU…

2026-01-07