OpenAI前CTO王者归来，宣布AI不再需要对话框

“边听边说边看，这跟一个真人还有啥区别？ ” 作者丨陈嘉欣编辑丨林觉民马晓宁

0.4秒能做什么？

眨一次眼大约需要0.3秒，而Thinking Machines Labs最新发布的Interaction Model，把AI响应延迟压到了0.4秒，比OpenAI的GPT-realtime-2.0快了将近三倍。

但这篇报道真正想说的，不是0.4秒这个数字。

如果你以为Interaction Model只是一个"速度更快"的语音助手，那就完全搞错了。

真正的突破藏在交互方式里：之前的AI模型，包括GPT-4o在内，都是"轮流对话"。用户说话时AI听不到别的，AI说话时也不接收新信息。一来一回，像发微信。

Thinking Machines做的，是把这种模式彻底翻了过来。它的模型可以边听边说边看，你讲话时它能"嗯嗯"回应，你代码写错了它能直接插话，你视频里做了个动作它能实时分析。

这不是GPT-4o的升级，这是对GPT-4o所在范式的降维打击。

而做这件事的人，正是当年在OpenAI主导GPT-4o路线的首席技术官Mira Murati。

01 Interaction Model 的震撼

5月11日，前OpenAI CTO Mira Murati创办的Thinking Machines Labs放出了一段demo和一个技术博客，立刻点燃了整个AI社区。

swyx的评价格外直白："彻底碾压了GDM和OpenAI。"Nathan Lambert称之为"真正与众不同的demo"。

什么让他们这么激动？

技术架构上，Thinking Machines放弃了标准的"轮流对话"模式，采用全双工架构——同时处理输入和输出，模型可以一边听一边说一边看。具体来说，系统每200毫秒处理一次输入输出片段，所有感知和生成都在同一个Transformer内部完成，不需要专门的语音编码器（如Whisper）做预处理。

双模型系统也很有意思：一个"前台"Interaction Model（276B参数MoE，12B活跃参数）专门处理实时对话、上下文管理和即时回应；一个"后台"Background Model异步处理持续推理、联网搜索和复杂工具调用，结果再流式传回前台。

基准测试提供了更硬核的证明——TML-Interaction-Small在交互质量（FD-bench）上达到77.8，几乎是GPT-realtime-2.0（46.8）的两倍。延迟0.40秒对1.18秒，快了近三倍。而且在视觉互动测试中，竞争对手面对视频提问"沉默了"或"回答错误"，Thinking Machines的模型却能准确回应。

这不是增量改进，是代际差距。

02 对话框终结者

要理解这个模型为什么重要，得先理解对话框为什么有问题。

从ChatGPT到GPT-4o，人机交互的核心模式一直没有变：用户输入→AI等待→AI回复。用户打字时AI"眼盲耳聋"，AI说话时用户只能等它说完。Thinking Machines在博客里用了一个绝妙的类比："就像试图通过电子邮件而不是当面解决关键分歧。"

对话本来应该是流畅的、双向的、实时的。对话框把人类强行塞进了一个"发消息等回复"的框架里。

Interaction Model要打破的，就是这个框架。

它带来的几个新能力，每一个都在重新定义"什么叫和AI对话"：

同时听说。你讲话时AI能发出"嗯""我看看"等回应——这在人类对话中叫backchanneling，是"我在听"的信号。之前的AI做不到，因为它要等你讲完才开始处理。

主动打断。AI看到你代码里有Bug，可以直接插话提醒。这在"轮流对话"模式里是不可能的——AI在生成回复时根本不接受外界输入。

原生时间感知。普通LLM没有"时钟"概念——它们只能通过文本提示词知道时间。Interaction Model天然知道时间流逝，"每4分钟提醒我检查温度"这种需求不需要额外编程。

视觉实时互动。AI可以边看用户动作边回应——你做深蹲它帮你数数，你写代码它帮你盯着错误。

这些能力组合在一起，指向一个结论：对话框是AI的第一代UI。Interaction Model是第二代。它们的差别，就像命令行和图形界面，像键盘机和触屏机。

03 Mira的"出埃及记"

2024年9月，Mira Murati宣布离开OpenAI，随后创立了Thinking Machines Labs。与其他AI创业公司不同，Thinking Machines Labs更像一次"OpenAI分裂"。

公司创始团队约30人，约2/3来自OpenAI，涵盖了从ChatGPT创始团队到GPT-4o核心开发者的完整班底。

均为OpenAI内部"交互派"的核心力量

当时外界对Mira Murati离职的猜测很多，但真正的原因其实藏在OpenAI的路线之争中。

在OpenAI担任CTO期间，Murati一直推动的方向是"全模态实时交互"——这也是GPT-4o发布时的核心理念：一个能看、能听、能说、能实时回应的AI。

但OpenAI内部还有另一条路线在崛起，以后来主导o1系列的团队为代表——"思维链、大规模推理、慢思考"。不是追求实时，而是追求"想得更久、想得更深"。

两条路线的冲突在2024年达到顶点。

上半年为了狙击谷歌的Google I/O大会，Mira Murati带领团队以极快速度推出了GPT-4o。到了下半年，面对Claude 3.5 Sonnet在代码和逻辑上的压制，Sam Altman和管理层又对o1团队施加了极大的压力，要求尽快将“Strawberry”项目产品化。

虽然Murati主导了GPT-4o的“看听讲”全能，但9月份发布的o1-preview和o1-mini却完全是“退化”的形态，它们不支持语音，不支持多模态，甚至不支持网络搜索。

这种明显的割裂说明，OpenAI内部无法在短期内将“全模态实时交互”与“慢思考思维链”融合到一个统一架构中，两条路线最终只能各自为战、分道扬镳。

因此，在o1模型刚刚发布不到两周后，Murati毫无征兆地宣布辞任CTO。有海外媒体统计，2024年国外科技公司离职CTO的平均任期为3.9年，但Mira在OpenAI工作了6.3年。

出走的不只她一个人。她带走了一批原OpenAI的核心研究人员。公司很快拿到了a16z领投的约20亿美元融资，估值120亿美元。

但创业远比想象中艰难。核心员工大量流失——7人以上跳槽Meta，也有人回流OpenAI。唯一的好消息是2025年下半年，PyTorch创始人Soumith Chintala加入担任CTO，给团队注入了顶级的技术底盘。

如今Thinking Machines只有约130人。Interaction Model的发布，是Murati出走一年多来拿出的最有力回击——她证明了自己在OpenAI时坚持的方向，确实能走通，而且能走得更远。

04 重新定义人机交互

Thinking Machines在技术博客里写了一句意味深长的话："通过使交互成为模型的原生能力，模型的规模增长将同时带来更智能和更有效的协作。"

翻译成人话就是：以前的AI，越大越聪明，但交互方式还是那个对话框；Thinking Machines要让AI越大越聪明的同时，也越"好聊"。

这是对整个AI行业趋势的判断——未来竞争的焦点不在模型规模本身，而在"交互深度"。

如果这个判断是对的，那么最快在未来三年里，以下几个行业将被重新定义：

实时监控。AI能7x24小时盯着视频流，看到安全违规时立刻插话提醒，而不是等巡检人员发现异常再上报。

语音客服。0.4秒延迟意味着客户几乎感受不到对面是AI——声音延迟降到人耳感知阈值以下。

工业维护。AI能在工程师拆设备时实时指导、实时警告、实时查阅手册。

医药研发。原生时间感知让AI能跟踪实验进程、提醒关键时间节点、在异常发生时立即介入。

2千亿参数、12亿活跃、0.4秒延迟——这些数字固然令人印象深刻。但Thinking Machines真正在赌的是：当对话框被拆掉的那一天，人机交互会被重新定义。而她选择的路径，最终会被证明是正确的那一条。

OpenAI前CTO王者归来，宣布AI不再需要对话框

01 Interaction Model 的震撼

02 对话框终结者

03 Mira的"出埃及记"

04 重新定义人机交互

相关推荐