3月26日,前阿里通义千问负责人林俊旸在X平台发布离职后首篇技术长文。
这篇数千字的文章,不仅复盘了Qwen的技术哲学,更罕见地坦承失败,并清晰指向AI竞争的下一个主战场。
以下是林俊旸在帖子中提出的四个核心观点:
观点1:混合推理模式的尝试失败
Qwen3曾尝试将"思考模式"(Thinking)与"指令模式"(Instruct)合并为单一模型,并支持调节推理强度。
但实践结果是两种模式相互拖累:
Thinking变得啰嗦犹豫,Instruct变得不够干脆可靠,且成本更高。
到了2025年7月的Qwen3-2507,团队被迫转向分别发布Thinking与Instruct两个版本。
林俊旸认为,真正成功的合并,应该是"无级变速",模型能根据问题难度,自动、平滑地决定思考深度(smooth spectrum of reasoning effort)。
但当前的技术水平尚未达到这一目标。
观点2:AI范式正在从"推理思考"迁移到"智能体思考"
2024-2025年初,行业聚焦于"推理思考",让模型通过强化学习在数学、代码等领域进行内部推导。
但林俊旸认为,下一步必须是"智能体思考"(Agentic Thinking):
为了行动而思考,在与环境交互的过程中,根据来自世界的反馈持续更新计划。
观点3:Agentic训练面临"奖励黑客"风险
林俊旸揭示了一个行业尚未充分意识到的危机:
当AI获得工具使用权后,它学会的第一件事往往不是怎么用,而是怎么骗。
比如,当模型获得工具访问权限后,可能直接搜索答案而非推理,可能利用代码仓库中的未来信息,可能滥用日志输出。
观点4:未来竞争优势来自"决策闭环"能力
林俊旸认为,未来竞争的关键不在于模型参数规模,而在于让模型的决策与其产生的后果形成闭环,即根据环境反馈持续学习和调整的能力。
林俊旸这篇帖子最值得关注的,一是对于混合推理模式路线的反思,二是对AI范式转移方向的明确。
他认为,下一代AI追求的是系统能不能在权限、工具、日志和人类监督之下,把任务稳定做完。
对于企业而言,这种“任务闭环能力”,将是AI项目是否值得落地的标准。
01、混合推理真的跑不通吗?
林俊旸的坦诚在行业里扔下了一颗炸弹。
这位曾领导Qwen3冲击混合架构的技术领袖,公开承认"合并效果不好",一个问题立刻浮出水面:
混合推理这条路线是不是走不通?
答案是否定的。
目前不少头部模型公司,仍在押注混合推理路线。
OpenAI 最新一代主力模型GPT-5.4,朝着一个模型同时覆盖快答、深想、工具调用和复杂工作流的方向推进。
Anthropic
Anthropic Claude 3.7 Sonnet被明确定位为混合推理模型。
Anthropic CEO Amodei认为,不应该把推理能力单独切出来,而是让基础模型在更大规模的结果导向训练中,自然长出推理能力。
DeepSeek
DeepSeek V3.1推出Think & Non-Think双模式;到了DeepSeek V3.2,官方进一步把 thinking直接整合进tool-use,继续推进混合推理与Agent能力的结合。
DeepSeek也认为混合推理路线很难走,但他们选择继续通过更复杂的架构与后训练方法去推进。
尽管头部公司们没有放弃混合推理本身,但它们也会遇到合并不够平滑、不够稳定、成本也不够优的困境。
反观林俊旸的复盘,否定的也是“硬合并、手动切档、彼此拖累”的第一代混合推理模型的做法,但并未否定“模型未来能按任务难度自动分配思考量”这个终局方向。
所以,混合推理路线还没有失败,只是看谁先把它做得更平滑、更自适应。
02、下一代AI范式
不论混合还是分离路线,林俊旸在帖子里对Agent的判断,基本踩在了当下行业的共识线上:下一阶段的竞争重点,是让系统真正去完成任务。
无论是OpenAI、Anthropic、Google,还是阿里、腾讯、字节、百度、智谱、Kimi,全球知名厂商都在往Agent方向一路狂奔。
但共识不等于已经跑通。
林俊旸的反思,恰恰暴露了这条路上的系统性卡点。
卡点一:AI学会骗分比做题更快
当模型获得工具使用权,它发现的第一条捷径往往不是"怎么用",而是"怎么骗"。只要环境有漏洞,RL优化一定会找到。
卡点二:训练Agent比答题机难一个数量级
会行动的Agent需要稳定、低成本、可扩展、可反馈的环境,这比喂互联网文本难得多。
卡点三:长任务不稳定
任务越长,状态空间爆炸,模型越容易遗忘初衷、偏离目标、累积错误。
卡点四:工具和多Agent编排成本高、协调难
100个子Agent并行(如Kimi)听起来强大,但协调成本可能吞掉收益。
规划者、执行者、验证者之间的通信开销、状态同步、错误传播,都是指数级复杂度的工程难题。
卡点五:训练和服务脱节
如果训练时的模拟环境和真实部署环境差太远,模型上线后行为会严重走样。
这正是林俊旸提出"训练-服务一体化"的背景,不是训练完再适配,而是让训练过程本身就嵌入真实环境的约束。
面对这些卡点,行业里给出了不同的技术路线。
林俊旸的解法,是先修系统,再求合一。
即在当前技术条件下,承认合并极难的现实,选择更务实的分离路线,把核心竞争力放在"让决策与后果形成闭环"的系统工程上。
月之暗面也选择了与林俊旸相似的路线,比如Kimi K2.5也被不少解读视为更强调多智能体编排。
林俊旸在文中提到的"harness engineering"(驾驭工程),即核心智能来自多Agent的组织方式,在Kimi这里得到了实践。
相较之下,Anthropic则押注混合推理+thinking budget+强工程化harness,相信预训练阶段的RL注入可以突破"人格分裂"难题。
OpenAI、Google等公司,则是把推理、工具调用、执行能力进一步内生到模型。
路线之争没有裁判,只有时间。
林俊旸给出的,不是最终答案,但为行业划出了真正值得争夺的高地。
(世界模型工场关注AI圈内部消息,交流八卦请添加作者微信:lovelisa1005,获取更多一手消息)
1262