智源研究院院长王仲远：具身智能仍需“世界模型”突破，泛化能力是最大挑战

从数字世界走向物理世界，人工智能正站在一个新的范式变革的关口。在近日举办的2026北京智源大会期间，智源研究院院长王仲远接受《中国电子报》等媒体采访，就具身智能、世界模型及AI安全等前沿话题分享了深度见解。王仲远指出，当前具身智能在硬件层面取得了显著进步，但通用化与泛化能力仍是制约其大规模落地的核心瓶颈，而世界模型正是打开这一困局的关键钥匙。

具身智能硬件突破显著，泛化能力严重不足

王仲远坦言，过去一年多来，具身智能领域在硬件本体层面进步显著。“机器人可以进行非常复杂的表演，能够跑马拉松，而且已经超过了人类的马拉松冠军。”在技术落地层面，越来越多的机器人开始进入工厂、物流等实际场景，解决具体问题并形成数据闭环。

然而，距离真正的通用具身智能仍有相当距离。“当前具身智能的泛化能力依然严重不足。”王仲远直言，“一旦将一个任务迁移到另外一个任务，它的失败概率依然很高。”相比之下，人类具备极强的通用性和泛化能力，这正是当下具身智能必须突破和解决的核心问题。

在王仲远看来，具身智能的突破需要依赖世界模型这一关键基座。“世界模型与具身智能的关系，本质上是‘大脑’与‘身体’的关系。”他指出，大模型在经历了大语言、视觉模型、多模态的探索之后，需要从虚拟走向真实世界的下一阶段。

世界模型的核心本质，是实现对物理世界下一状态的预测。“面向物理世界的世界模型以真实场景的时空规律、物理常识与因果逻辑为建模核心，能够感知、推演环境变化，支撑AI完成与实体世界的主动交互。”但王仲远也坦承，当前模型在因果推理、复杂动态系统预判这些核心能力上存在瓶颈，对物理场景的推演结果尚达不到实用标准。

在技术路线上，智源研究院对现有世界模型进行了系统性梳理，将其分为四大类：第一类是以语言为中心的世界模型，包括VLM（视觉语言大模型）、VLA（视觉-语言-动作模型）等；第二类是以像素为中心的视频生成模型；第三类是以三维结构为中心的空间模型；第四类是以视觉表征为中心的模型。王仲远强调，未来不排除模型会走向大一统的方向。

VLA不必推倒重来，但终将被新一代模型替代

针对当前基于VLA的具身智能技术路线是否需要“推倒重来”的疑问，王仲远的回答十分明确：“不用推倒重来，但它一定会在将来的某个时间点被新的模型给替代。”

王仲远指出，现有的VLA类模型已经能够在某些具体场景中发挥作用，在某些具体特定的场景中已经能够达到类人的水平。他以2012年深度学习的兴起作比——当时大模型尚未出现，但深度学习已经能够针对特定问题、特定场景训练特定模型，并在该场景中工作得比人类更好，这就足以推动产业发展。同样，阿尔法Go能战胜围棋世界冠军却无法解决其他领域问题，但并不妨碍其产生广泛的应用价值。

因此，关于具身智能，他也持类似观点：现在的技术虽然其泛化性面向真实的物理世界依然不够，但是不阻碍现在具身智能技术和产业的发展。

对于下一代世界模型应具备的特征，王仲远提出了明确方向：必须是全模态的，必须以下一个物理状态预测为核心，必须能够理解真实的物理规律和物理常识，同时又需要具备主动交互的能力。

“我们相信，如果真的诞生这样的一个下一代世界基座模型，它才能够真正去推动具身智能，解决我们现在实际落地中遇到的各种困难，尤其是泛化性和面向真实场景的推理能力。”

谈及人工智能，王仲远观察到，AI在数字世界和物理世界的发展速度正在分化。

在数字世界里面，不管是更强的基座模型，还是AI Coding，都已经展现出了极强的能力，甚至很多人认为呈指数级的能力跃升。整个数字世界都有可能被新一代人工智能重构。

而在物理世界，智能体的发展则相对缓慢。王仲远指出，这是因为我们还缺乏一个世界基座模型，缺乏一个对于时间空间、物理规律，对于多模态乃至全模态有很好的理解推理、规划决策的基座模型。

王仲远预计，在未来一年到两三年内，将看到越来越多数字世界中智能体的落地，帮助人类解决很多问题。例如，智源研究院已研发了心脏辅助诊断智能体、自主科研智能体等多款产品，用于提升医疗诊断水平下沉和科研效率。

在AI安全方面，王仲远指出行业关注点正在发生变化。“行业在前两年更多担忧超级人工智能的远期风险。如今，随着AI智能体、大模型自进化能力发展，已出现大量现实可能复现的安全威胁。”

王仲远呼吁，应对AI安全风险，不仅仅是技术，实际上需要技术、产业、政策以及各领域的专家，大家来共同携手，共同努力来应对。

作者丨杨鹏岳编辑丨邱江勇美编丨马利亚监制丨连晓东

智源研究院院长王仲远：具身智能仍需“世界模型”突破，泛化能力是最大挑战

具身智能硬件突破显著，泛化能力严重不足

VLA不必推倒重来，但终将被新一代模型替代

相关推荐