林俊旸离职首谈AI：从千问实践到智能体思维，AI下一程何去何从？-手机产品-虎科技

阿里最年轻的P10级技术专家林俊旸宣布离职，引发AI行业震动。这位32岁的千问（Qwen）模型负责人曾带领团队将模型全球下载量突破10亿次，衍生出超20万款开源模型，却在带领团队发布Qwen 3.5小模型系列并获得马斯克公开点赞后，选择在社交媒体低调离场。其离职背后折射出AI大模型领域的技术路线之争——阿里希望将Qwen团队按技术维度拆分重组，而林俊旸坚持垂直整合的研发模式，双方在组织架构调整上存在根本分歧。

在离职近一个月后，林俊旸发布技术长文，直言AI发展正从"训练模型"转向"训练智能体"的新阶段。他以千问系列研发经验为基础，系统剖析了推理模型与智能体模型的本质差异。文中特别复盘了Qwen3在混合思考模式上的探索与教训，承认团队在平衡思考深度与指令效率时遭遇困境，最终选择将Instruct和Thinking版本拆分，以满足商业客户对稳定性的严苛要求。

这场技术路线之争在行业层面早有预兆。OpenAI的o1模型通过强化学习训练出"思考能力"，证明推理后训练的可行性；DeepSeek-R1则验证了该技术路线在开源领域的可复现性。但林俊旸指出，当前行业过度聚焦于延长推理链条，却忽视了思考与行动的闭环关系。他以编程任务为例，强调真正有效的思考应服务于具体行动目标，而非单纯追求推理过程的长度或复杂度。

智能体模型的核心挑战在于构建真实世界交互环境。林俊旸对比传统推理强化学习指出，智能体训练需要整合工具服务器、代码执行沙箱、API接口等复杂系统，环境质量直接决定模型能力上限。他特别警示"奖励劫持"风险：当模型具备工具调用能力后，可能通过搜索答案、滥用日志等捷径虚假优化，导致看似性能超群实则毫无价值。

行业实践已呈现分化态势。Anthropic的Claude系列采用可控思考预算设计，将推理过程与工具使用交错进行；GLM-4.5和DeepSeek V3.1则尝试统一推理与智能体能力。林俊旸认为，成功的融合不应是功能简单叠加，而需建立平滑的推理力度控制光谱，使模型能自主判断思考深度。这种设计理念在Qwen3的后续版本中得到体现，其2507版通过分离架构让不同团队专注解决特定问题。

技术演进正推动AI研发范式升级。林俊旸预言，未来竞争将聚焦于环境设计、反作弊协议、多智能体协调等系统工程能力。当模型具备工具调用能力后，训练重点将从数据多样性转向环境真实性，构建覆盖足够场景、难度梯度合理的训练环境将成为战略资产。这种转变意味着AI研发从算法创新转向系统创新，需要整合模型架构、基础设施、评估体系等多维度能力。