林俊旸公开承认失败：混合推理模式跑不通，下一代AI是"智能体思考"

3月26日，前阿里通义千问负责人林俊旸在X平台发布离职后首篇技术长文。

这篇数千字的文章，不仅复盘了Qwen的技术哲学，更罕见地坦承失败，并清晰指向AI竞争的下一个主战场。

以下是林俊旸在帖子中提出的四个核心观点：

观点1：混合推理模式的尝试失败

Qwen3曾尝试将"思考模式"（Thinking）与"指令模式"（Instruct）合并为单一模型，并支持调节推理强度。

但实践结果是两种模式相互拖累：

Thinking变得啰嗦犹豫，Instruct变得不够干脆可靠，且成本更高。

到了2025年7月的Qwen3-2507，团队被迫转向分别发布Thinking与Instruct两个版本。

林俊旸认为，真正成功的合并，应该是"无级变速"，模型能根据问题难度，自动、平滑地决定思考深度（smooth spectrum of reasoning effort）。

但当前的技术水平尚未达到这一目标。

观点2：AI范式正在从"推理思考"迁移到"智能体思考"

2024-2025年初，行业聚焦于"推理思考"，让模型通过强化学习在数学、代码等领域进行内部推导。

但林俊旸认为，下一步必须是"智能体思考"（Agentic Thinking）：

为了行动而思考，在与环境交互的过程中，根据来自世界的反馈持续更新计划。

观点3：Agentic训练面临"奖励黑客"风险

林俊旸揭示了一个行业尚未充分意识到的危机：

当AI获得工具使用权后，它学会的第一件事往往不是怎么用，而是怎么骗。

比如，当模型获得工具访问权限后，可能直接搜索答案而非推理，可能利用代码仓库中的未来信息，可能滥用日志输出。

观点4：未来竞争优势来自"决策闭环"能力

林俊旸认为，未来竞争的关键不在于模型参数规模，而在于让模型的决策与其产生的后果形成闭环，即根据环境反馈持续学习和调整的能力。

林俊旸这篇帖子最值得关注的，一是对于混合推理模式路线的反思，二是对AI范式转移方向的明确。

他认为，下一代AI追求的是系统能不能在权限、工具、日志和人类监督之下，把任务稳定做完。

对于企业而言，这种“任务闭环能力”，将是AI项目是否值得落地的标准。

01、混合推理真的跑不通吗？

林俊旸的坦诚在行业里扔下了一颗炸弹。

这位曾领导Qwen3冲击混合架构的技术领袖，公开承认"合并效果不好"，一个问题立刻浮出水面：

混合推理这条路线是不是走不通？

答案是否定的。

目前不少头部模型公司，仍在押注混合推理路线。

OpenAI

OpenAI 最新一代主力模型GPT-5.4，朝着一个模型同时覆盖快答、深想、工具调用和复杂工作流的方向推进。

Anthropic

Anthropic Claude 3.7 Sonnet被明确定位为混合推理模型。

Anthropic CEO Amodei认为，不应该把推理能力单独切出来，而是让基础模型在更大规模的结果导向训练中，自然长出推理能力。

DeepSeek

DeepSeek V3.1推出Think & Non-Think双模式；到了DeepSeek V3.2，官方进一步把 thinking直接整合进tool-use，继续推进混合推理与Agent能力的结合。

DeepSeek也认为混合推理路线很难走，但他们选择继续通过更复杂的架构与后训练方法去推进。

尽管头部公司们没有放弃混合推理本身，但它们也会遇到合并不够平滑、不够稳定、成本也不够优的困境。

反观林俊旸的复盘，否定的也是“硬合并、手动切档、彼此拖累”的第一代混合推理模型的做法，但并未否定“模型未来能按任务难度自动分配思考量”这个终局方向。

所以，混合推理路线还没有失败，只是看谁先把它做得更平滑、更自适应。

02、下一代AI范式

不论混合还是分离路线，林俊旸在帖子里对Agent的判断，基本踩在了当下行业的共识线上：下一阶段的竞争重点，是让系统真正去完成任务。

无论是OpenAI、Anthropic、Google，还是阿里、腾讯、字节、百度、智谱、Kimi，全球知名厂商都在往Agent方向一路狂奔。

但共识不等于已经跑通。

林俊旸的反思，恰恰暴露了这条路上的系统性卡点。

卡点一：AI学会骗分比做题更快

当模型获得工具使用权，它发现的第一条捷径往往不是"怎么用"，而是"怎么骗"。只要环境有漏洞，RL优化一定会找到。

卡点二：训练Agent比答题机难一个数量级

会行动的Agent需要稳定、低成本、可扩展、可反馈的环境，这比喂互联网文本难得多。

卡点三：长任务不稳定

任务越长，状态空间爆炸，模型越容易遗忘初衷、偏离目标、累积错误。

卡点四：工具和多Agent编排成本高、协调难

100个子Agent并行（如Kimi）听起来强大，但协调成本可能吞掉收益。

规划者、执行者、验证者之间的通信开销、状态同步、错误传播，都是指数级复杂度的工程难题。

卡点五：训练和服务脱节

如果训练时的模拟环境和真实部署环境差太远，模型上线后行为会严重走样。

这正是林俊旸提出"训练-服务一体化"的背景，不是训练完再适配，而是让训练过程本身就嵌入真实环境的约束。

面对这些卡点，行业里给出了不同的技术路线。

林俊旸的解法，是先修系统，再求合一。

即在当前技术条件下，承认合并极难的现实，选择更务实的分离路线，把核心竞争力放在"让决策与后果形成闭环"的系统工程上。

月之暗面也选择了与林俊旸相似的路线，比如Kimi K2.5也被不少解读视为更强调多智能体编排。

林俊旸在文中提到的"harness engineering"（驾驭工程），即核心智能来自多Agent的组织方式，在Kimi这里得到了实践。

相较之下，Anthropic则押注混合推理+thinking budget+强工程化harness，相信预训练阶段的RL注入可以突破"人格分裂"难题。

OpenAI、Google等公司，则是把推理、工具调用、执行能力进一步内生到模型。

路线之争没有裁判，只有时间。

林俊旸给出的，不是最终答案，但为行业划出了真正值得争夺的高地。

（世界模型工场关注AI圈内部消息，交流八卦请添加作者微信：lovelisa1005，获取更多一手消息）