虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们

苹果研究员质疑AI:简单数学题一改就出错?

2024-10-12来源:ITBEAR编辑:瑞雪

近年来,人工智能(AI)在各个领域取得了显著进展,尤其是大型语言模型(LLM),它们能够生成人类水平的文本,甚至在某些任务上超越人类。然而,一项新研究对LLM的推理能力提出了质疑。苹果公司的一组研究人员发现,这些模型在解决简单数学问题时,只要问题稍有变动,就容易出错,暗示它们可能并不具备真正的逻辑推理能力。

研究人员在一篇名为《理解大型语言模型中数学推理的局限性》的论文中揭示了LLM在解决数学问题时易受干扰的现象。他们通过对数学问题进行微小改动,例如添加无关信息,来测试LLM的推理能力。结果发现,面对这样的变化,模型的表现急剧下降。

例如,当给出一个简单的数学问题:“奥利弗星期五摘了44个奇异果,星期六摘了58个。星期日,他摘的是星期五的两倍。他一共摘了多少个?”LLM能正确回答。但若添加无关细节:“星期日摘的是星期五的两倍,其中5个比平均小。”LLM的回答则出错。GPT-o1-mini的回答是:“...星期日,其中5个奇异果比平均小。我们需要从总数中减去它们:88 - 5 = 83个。”

这只是一个例子,研究人员修改了数百个问题,几乎所有改动都导致模型回答成功率大幅下降。他们认为,这表明LLM并未真正理解数学问题,而只是根据训练数据中的模式进行预测。一旦需要真正的“推理”,如是否计算小的奇异果,它们就会产生不合常理的结果。

这一发现对AI的发展具有启示意义。尽管LLM在许多领域表现出色,但其推理能力仍有局限。未来,研究人员需进一步探索如何提高LLM的推理能力,使其更好地理解和解决复杂问题。

OpenAI获4.05亿美元投资,Khosla Ventures出手了?
无论如何,OpenAI 对 Khosla Ventures 来说都是好事,该公司在 2019 年向该公司投资了 5000 万美元,据 TheInformation 报道,这在OpenAI的持股比例为 5%…

2024-10-12

CyberCab发布会效应:Uber飙升10%,特斯拉却暴跌8%?
周四晚上,特斯拉发布了CyberCab,一款专为共享出行而设计的自动驾驶汽车,以及一辆20座的RoboVan。分析师对此次活动感到失望,指出此次活动的细节比许多Uber和Lyft投资者担心的要少。周五下午,U…

2024-10-12

《盟军敢死队:起源》试玩来袭,经典潜入游戏再现江湖!
2024-10-11 16:20:38 作者:姚立伟 《盟军敢死队:起源》迎来试玩,玩家可在Windows PC(Steam,MicrosoftStore)和Xbox Series X|S(Xbox St…

2024-10-12