虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

大语言模型学会“精打细算”,麻省理工团队引领AI推理新风尚

2025-06-21来源:ITBEAR编辑:瑞雪

在人工智能领域,一项创新技术正悄然改变着深度思考大语言模型的运作方式。这项名为“预算引导”的研究,由麻省理工学院MIT-IBM Watson AI实验室的张杨、马萨诸塞大学阿默斯特分校的李俊延和甘闯,以及浙江大学的赵文硕联手完成,并于2025年6月16日正式发表,论文题目为《以预算引导调控大型语言模型的思考过程》。感兴趣的读者可以通过访问arXiv:2506.13752v1获取全文,同时,源代码已在GitHub平台公开,网址为:https://github.com/U-Mass-Embodied-AGI/BudgetGuidance。

深度思考大语言模型,如OpenAI的O1和DeepSeek R1等,虽然展现出强大的推理能力,但其冗长的思考过程却成为了一个亟待解决的问题。这些模型在解答问题时,往往会提供详尽的推理步骤,包括各种可能的解题路径和自我验证等,导致计算资源和时间成本的大幅增加。例如,当询问一个简单的数学题时,这些模型可能会用几千个词汇来展示完整的解题过程,这在实际应用中显然不够高效。

为了解决这一问题,研究团队深入探索了现有的“思考预算”控制方法,但发现它们存在明显缺陷。一种方法是重新训练模型,以适应不同预算下的推理长度,但这不仅计算资源消耗巨大,还可能改变模型的其他行为特征。另一种方法则是在推理过程中强行中断,这往往会导致思路中断和答案错误。因此,研究团队开发了一种名为“预算引导”的创新方法,旨在实现更高效、更自然的思考过程控制。

预算引导方法的核心思想在于,它像一位经验丰富的项目经理,能够在不改变团队成员工作方式的前提下,巧妙地引导整个项目按照预定的时间表和资源预算进行。具体到AI模型中,这意味着在不牺牲答案质量的前提下,通过引导模型调整推理风格,以适应不同的时间预算。这种方法避免了粗暴中断思考过程,而是像一位智慧的导师,在适当的时候给予提醒和指导。

为了实现预算引导,研究团队设计了一个轻量级的“预测器”。这个预测器就像一位精准的时间估算专家,能够在AI模型推理过程中快速评估还需要多少步才能得出答案。然后,它将这个预测信息巧妙地融入到模型的生成过程中,温和地引导模型朝着预算目标前进。这种方法使得AI模型能够根据时间预算自然地调整推理风格,在紧急情况下采用简洁高效的思路,而在时间充裕时则展开更详细的分析。

为了训练这个预测器,研究团队收集了大量AI模型的推理过程样本,并让预测器学习识别不同类型问题的“思考长度模式”。令人惊讶的是,这个预测器不仅能够估算思考长度,还能识别问题的难度和复杂程度。它甚至能够根据提示语的要求,如“详细推理”或“快速回答”,调整其预测结果。这种智能化的适应性使得预算引导方法在不同领域和难度层次的问题上都表现出色。

在实际测试中,预算引导方法展现出了卓越的性能。以MATH-500数学推理基准测试为例,当设定较紧的思考预算时,预算引导方法比传统的强制截断方法准确率高出26%。同时,它还能在保持竞争力准确率的情况下,将思考词汇数量减少到原来的63%,实现了显著的效率提升。这个在数学问题上训练的预测器还表现出了出色的跨领域适应能力,在科学推理、逻辑推理、表格数据分析以及代码编程等领域都取得了良好表现。

从技术实现角度来看,预算引导方法的另一个优势是其轻量级特性。整个预测器基于BERT-base架构构建,参数量相对较小,在推理过程中只增加了约0.6%的计算开销。这使得预算引导方法在实际应用中更加高效和实用。更重要的是,这种方法具有出色的可控性和灵活性。用户可以根据具体需求设定不同的思考预算,就像调节空调温度一样简单。这种自适应的推理行为模式与人类专家的工作方式非常相似,使得AI模型具备了更加灵活和高效的“思考节奏”调节能力。

在实验设计上,研究团队采用了多个权威的测试基准,包括MATH-500、AIME-2024和AMC数学竞赛题目等,涵盖了从基础算术到高等数学的各个难度层次。他们还测试了三种不同规模的模型,以确保结果的稳健性和普适性。结果显示,预算引导方法在所有测试模型和数据集上都实现了一致的性能提升。

从实际应用角度来看,预算引导技术为AI系统的部署提供了新的可能性。企业可以根据具体的业务场景和成本考虑,灵活调整AI助手的“思考深度”。对于需要实时响应的客户服务场景,可以设定较短的思考预算以保证响应速度;而对于需要深度分析的研究任务,则可以允许更长的推理时间以确保结果质量。这种技术还为AI模型的个性化定制开辟了新路径,使得同一个AI模型能够适应不同用户的时间偏好和准确性要求。

研究团队还进行了详细的消融研究,分析了预算引导方法各个组件的贡献。他们发现,Gamma分布的使用对于准确建模思考长度分布至关重要,而跳跃式调制策略则在保持性能的同时有效降低了计算开销。这些发现为进一步优化预算引导方法提供了有力支持。

预算引导方法的成功不仅解决了当前深度思考模型的效率问题,还为未来AI系统的设计提供了重要启示。它表明,适当的约束和引导可能比完全的自由更能激发出色的表现。这种“约束中的创造力”原则可能在AI发展的更多领域发挥重要作用,推动人工智能技术的不断进步和创新。

Q&A

Q1:什么是预算引导?它能解决什么问题?

A1:预算引导是一种让AI模型按照指定时间预算进行推理的技术。它解决了深度思考大语言模型思考过程冗长、计算资源和时间成本过高的问题。

Q2:预算引导会影响AI回答的准确性吗?

A2:不会。研究显示,在紧张预算下,预算引导比强制截断方法准确率高出26%。它能够让AI自然调整推理策略,而不是被粗暴中断。

Q3:普通用户能使用这项技术吗?

A3:目前这还是一项研究技术,但源代码已在GitHub公开。未来这种技术很可能会被集成到各种AI产品中,让用户能够根据需要调节AI的“思考速度”。

网友苦等新机只为一加15 李杰回应:等待终有回报,165帧游戏体验即将登场
快科技10月23日消息,有网友给一加中国区总裁李杰留言:前面那么多新机都没买,就一直等着一加15。李杰回复:“等等党不会输”。 从120帧到165帧,游戏帧率的突破不仅是参数上的跃升,更是手游体验的一次大换代…

2025-10-23

一加新机或携8200mAh大电池、165Hz高刷及骁龙8Gen 5登场,1999元起性价比拉满
在定位方面估计会比ace 6标准版更低一些,所以价格会更便宜,如果延续v机型的定价,那这款手机很有可能定在1999元左右,有骁龙8Gen 5旗舰处理器+8200mAh电池+百瓦快充,定在这个价格那性价比还是…

2025-10-23

OpenAI首款内置ChatGPT浏览器Atlas发布!支持谷歌数据导入,免费下载享7天会员
智东西下载初步体验了Atlas后发现,其基本的操作模式与谷歌等浏览器类似,相当于将ChatGPT直接嵌入浏览器,且从功能来看Atlas与其他AI浏览器并没有较大差距,或许还需要体验一段时间,当其拥有更多浏览…

2025-10-23

华为11月新品发布在即,Mate 80系列、折叠屏X7及nova 15系列将齐登场
【CNMO科技消息】10月21日,CNMO注意到,据业内人士透露,华为计划于11月迎来新一轮产品发布高峰,将推出涵盖智能手机、平板电脑及穿戴设备在内的多款新品。结合以往发布节奏分析,行业媒体推测,华为Mate…

2025-10-22

真我GT8系列即将登场:双旗舰配置亮点大揭秘,影像性能全面升级
除了影像,真我 GT8 Pro 在其他方面的配置也达到了顶级旗舰水准。 最引人注目的是,真我 GT8 标准版搭载了与 Pro 版本同款的理光GR 影像系统,这意味着它拥有同级别产品中唯一的影像联名,在影像…

2025-10-22

双11邂逅秋景,华为Pura 80 Pro降价1200元,影像实力等你来探
说起今年双11,各家影像手机可以说争奇斗艳,但有一款手机可以说是十分低调的,这就是6月份登场的华为Pura80系列,目前市场表现还没发挥出全部实力。 环顾现在新品影像旗舰,主摄1英寸的,可能还是Pura 8…

2025-10-21

华为Mate80系列完成备案预计11月登场,全系或配麒麟9030芯片及鸿蒙6系统
其中 Mate 80 标准版代号代号“Voyager”,拥有黑、白、青绿三种配色。 在此前的华为平板产品上,华为已批量下放麒麟 9020系芯片,Mate 80 系列则有望搭载全系的麒麟 9030 芯片以及鸿…

2025-10-21

7000mAh大电池配2K三星屏,潜望长焦加持,iQOO 15起售价4199元真香?
子系旗舰的综合配置看起来比主系旗舰还更高,这上市的iqoo 15就是个典型例子,电池同样提升到7k以上,并补齐了无线充电,作为旗舰手机这金属中框、超声波指纹、IP68/IP69级别防尘防水都是标配,还补齐了…

2025-10-21

今晚七点!iQOO 15携骁龙8至尊版等重磅升级登场,性能体验再进阶
将在今晚七点正式发布的iQOO 15除了首批更新第五代骁龙8至尊版处理器以外,更迎来了屏幕、独显芯片、续航、散热等重大升级,下面的爆料汇总值得一看。据悉,它还将在散热、视听触等方面全方位优化,通过搭载全新升级…

2025-10-21

Backblaze十余年追踪:现代机械硬盘更耐用,生命周期末期故障风险才凸显
他们指出:“与前两次分析相比,我们在硬盘故障发生的年龄分布和故障率峰值上都观察到了相当显著的偏离。” IT之家注意到,Doyle 和Patterson 在文中写道:“这不仅是硬盘寿命上的重大提升,更是我们首…

2025-10-21