虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

OpenAI Codex负责人:智能体发展需去繁就简,垂直整合与技能塑造是关键

2026-02-24来源:快讯编辑:瑞雪

在近期一期备受关注的Dev Interrupted播客中,OpenAI Codex工程负责人Thibault Sottiaux深入剖析了Codex团队构建自主编程智能体的独特方法论。他抛出一个引人深思的观点:复杂的脚手架并非能力的扩展,而更像是对问题的掩盖。这一观点为当前智能体开发领域提供了全新的思考视角。

值得关注的是,播客发布不到三周,OpenClaw创始人Peter Steinberger便宣布加入OpenAI,负责下一代个人智能体项目。Steinberger此前公开表示自己是“Codex最大的免费广告”,他借助Codex构建了整个OpenClaw,使生产力大幅提升。尽管他承认Claude Opus是“最好的通用智能体”,但最终还是选择了OpenAI。这一选择背后,与Sottiaux在播客中阐述的理念高度契合,即真正的竞争力在于模型能力和垂直整合,而非外部堆砌的工程手段。

Sottiaux在播客中强调,Codex首先是一个通用智能体,产品界面是后续才考虑的要素。先专注于提升智能体的能力,再探索其应用场景,这种思路带来了意想不到的效果。社区中每周都有公司基于Codex的开源版本构建业务,且应用领域广泛,不仅限于编程,还涉及电子表格编辑、浏览器自动化等非编程领域。这充分证明了智能体的通用性,其产品形态具有极大的可变性。

对于软件工程师而言,真正的瓶颈并非代码生成,而是日常工作中的规划、沟通、代码审查以及理解系统状态等环节。当代码生成速度大幅提升后,这些环节的问题便凸显出来,成为制约整体效率的关键因素。

Codex团队处于一个独特的位置,基础模型、智能体框架和面向用户的产品都在同一组织内部。这种垂直整合带来了诸多优势。一方面,研究和工程形成双向飞轮,工程实践中的问题会影响研究方向,研究突破又会重塑工程路线图,两者相互促进。另一方面,团队可以选择在合适的层级解决问题。有些问题无需在框架中打补丁,直接在下一版模型训练中解决效果更佳。Codex团队还能在小、中、前沿模型上测试同一套系统的表现,验证整个系统是否符合预期的扩展曲线,将扩展定律从模型层面延伸到完整系统层面。

Sottiaux引用No Free Lunch定理指出,试图在所有分布上都表现智能,必然不如为特定分布专门优化。Codex的harness和model耦合训练和部署,正是针对特定分布进行优化,从而获得了单独优化任何一方都无法达到的能力提升。对于没有垂直整合条件的团队,Sottiaux认为,若想保持对所有基础模型的完全无关性,就只能基于这些模型的公共子集构建,性能必然会受到影响。他预计主流玩家最终只会为少数几个模型做深度适配。

在播客中,Sottiaux着重强调了脚手架的问题。他指出,脚手架本应是临时支撑,随着模型能力增强应逐步拆除,模型应能独立站立。然而,许多团队却将脚手架当作喷气背包,不断往里添加工具、逻辑和规则,导致系统越来越复杂。这带来了能力悬崖的风险,即框架中引入过多偏见和约束,当模型能力提升时,反而无法充分发挥新能力。而垂直整合的优势在于,Codex团队只需关注自身模型系列,每次改进都能移除部分脚手架,不用担心破坏外部因素。

Codex开源并非简单的社区建设,背后有着深层次的考量。一是破除智能体的神秘感,展示通过做好几个原语就能从模型中榨取惊人性能。二是理解开源世界将如何被改变,Codex团队认为AI解决代码生成问题后,开源的运作方式会发生根本性变化,他们想通过参与开源提前了解这种变化。三是借助社区创造力发现新用法,目前仓库有超过一千个fork,团队与fork作者合作,将好的改动移植回主仓库。

在从Type迁移到Rust的过程中,Codex团队面临了社区关系中的艰难时刻。由于迁移意味着重写代码库,此前接受了大量PR的团队面临着巨大挑战。但团队坚信未来会有大量智能体并发运行,需要高效语言,最终完成了迁移。迁移后,社区关系重新建立,一批优秀的Rust贡献者加入了核心开发。

回顾过去,Codex团队在2025年面临的最大痛点是上下文压缩。当智能体工作超出模型上下文窗口后,需要摘要已完成工作、重置上下文继续,这会导致模型丢失大量工作上下文。用提示词和框架层的启发式方法解决效果不佳,最终团队决定在模型训练层面端到端解决,现在智能体可以跨越20个上下文窗口持续工作,相关投诉几乎为零。

展望2026年,Codex团队有三个主要方向。一是多智能体网络,单智能体可靠后,今年将实现多智能体协作,产出量有望提升一到两个数量级,但同时也会面临token消耗和代码审查增加的问题。二是速度,预计模型今年将显著加速,达到智能水平与响应速度的平衡点,提升产品体验。三是协作型人格,Codex目前的交互风格被用户评价为“固执的直男工程师”,团队希望模型在协作中能给予情感确认,根据不同场景调整交互风格。

随着智能体的发展,开发者角色也在发生重塑。代码审查成为关键瓶颈,Codex团队构建的代码审查模型在OpenAI内部得到广泛应用,捕获了大量bug。智能体加速了人与人之间的协作,团队面对面交流时间增加,创意讨论和规划更多。同时,记录意图变得至关重要,团队开始构建工具追踪组织层面的变更。大型spec存在局限性,有时plan只需列出几件要做的事来验证方向。工程师的职业路径向TLM(Tech Lead Manager)演进,核心技能更像技术负责人加产品经理的混合体。新人在团队中也展现出独特优势,他们没有传统编程习惯的束缚,对新工具和新方式接受度高,能快速提高团队生产力。

Sottiaux最后给出了关于Skills的建议。这是一个开放标准,用户可以教模型用自己认为最有效的方式执行特定任务。他自己有一个QA skill,让Codex在终端里测试新功能。他比喻给智能体添加Skills就像训练宝可梦,每次交互它都在升级,逐渐建立信任关系。关键在于不要只自动化代码生成,要思考日常工作中不想做但必须做的环节,将这些交给智能体,保留编程中令人愉悦的部分,让智能体成为专属于自己工作流的搭档。

华为中端新机或配8000mAh大电池,Pura X2及阔屏直板机也有新消息
这款配备大电池的机型将配备一块 6.84± 英寸 1.5K 分辨率 LTPS 大直屏,搭载麒麟 8000 系列芯片,预计定价为 2K 档。此前有爆料提到过一款折叠屏手机,该机代号为 Hope,提供白色、黑…

2026-02-23

红米Turbo4 Pro“退场”也疯狂,16GB+1TB+大电池,千元价位性价比之选
前段时间,小米还带来了红米Turbo5、红米Turbo5Max两款机型,它们处于两千元价位,拥有非常出色的配置体验,性价比也是非常高,在发布之后就很受欢迎,叠加国补后入手更划算。 虽然作为一款中端机,但是红…

2026-02-23

国产手机硬件级防窥屏内测中:护眼隐私两不误 屏幕体验再升级
防窥膜主要采用百叶窗原理,通过在屏幕层中加入防窥层来收窄可视范围。为了从根本上解决护眼与隐私的矛盾,国内手机厂商正在测试硬件级防窥屏,预计将在今年9月至10月发布的迭代旗舰机上率先应用。 与传统的防窥膜完…

2026-02-23

X平台悄然测试AI生成内容标签 创作者未标记或面临账号限制
IT之家 2 月 23 日消息,独立应用程序研究员 Nima Owji 今天发文称,X 平台正在悄悄测试“AI 生成”(Made withAI)内容标签。 据介绍,这项功能将位于“内容披露”(IT之家注:c…

2026-02-23

苹果或推酒红色iPhone 18 Pro,Pro系列配色革新,星宇橙也可能保留
苹果在四年以前曾经推出过酒红色的iPhone手机,当时的手机还是iPhone 14,不过苹果并没有在更加高端的iPhone Pro系列上使用过该配色,或许苹果认为在入门款型号中采用酒红色配色能够更加吸引消费者…

2026-02-23

国产手机或迎新突破!三星S26 Ultra防窥屏技术,国产新旗舰有望搭载
三星Galaxy S26Ultra近期即将发布,这款手机最大的卖点之一,便是搭载了硬件级防窥屏,能够一定程度上防止身旁人看到手机屏幕内容,从而实现隐私保护。据爆料,三星S26 Ultra拥有两种防窥模式,…

2026-02-23

国内厂商“硬件级原生防窥屏”测试中 预计9月前后迭代新旗舰将搭载
IT之家 2 月 23 日消息,博主 @数码闲聊站 今日“超前瞻”爆料:「防窥屏」国内厂商也在测试中,预计是今年 9月前后的迭代新旗舰安排。博主强调,这是“硬件级原生防窥屏”。 有网友认为该功能或对手机屏幕…

2026-02-23

英国28TB硬盘价格高昂,玩家远赴美国采购,巧妙规划省下两千美元
IT之家 2 月 23 日消息,一位 Reddit 用户昨日在 r/DataHoarder子版块分享了他们飞往美国购买硬盘的经历,相比直接在英国购买节省了至少 2000 美元(IT之家注:现汇率约合 138…

2026-02-23