• 正文
  • 相关推荐
申请入驻 产业图谱

智源研究院院长王仲远:具身智能仍需“世界模型”突破,泛化能力是最大挑战

06/17 08:55
423
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

从数字世界走向物理世界,人工智能正站在一个新的范式变革的关口。在近日举办的2026北京智源大会期间,智源研究院院长王仲远接受《中国电子报》等媒体采访,就具身智能、世界模型及AI安全等前沿话题分享了深度见解。王仲远指出,当前具身智能在硬件层面取得了显著进步,但通用化与泛化能力仍是制约其大规模落地的核心瓶颈,而世界模型正是打开这一困局的关键钥匙。

具身智能硬件突破显著,泛化能力严重不足

王仲远坦言,过去一年多来,具身智能领域在硬件本体层面进步显著。“机器人可以进行非常复杂的表演,能够跑马拉松,而且已经超过了人类的马拉松冠军。”在技术落地层面,越来越多的机器人开始进入工厂、物流等实际场景,解决具体问题并形成数据闭环。

然而,距离真正的通用具身智能仍有相当距离。“当前具身智能的泛化能力依然严重不足。”王仲远直言,“一旦将一个任务迁移到另外一个任务,它的失败概率依然很高。”相比之下,人类具备极强的通用性和泛化能力,这正是当下具身智能必须突破和解决的核心问题。

在王仲远看来,具身智能的突破需要依赖世界模型这一关键基座。“世界模型与具身智能的关系,本质上是‘大脑’与‘身体’的关系。”他指出,大模型在经历了大语言、视觉模型、多模态的探索之后,需要从虚拟走向真实世界的下一阶段。

世界模型的核心本质,是实现对物理世界下一状态的预测。“面向物理世界的世界模型以真实场景的时空规律、物理常识与因果逻辑为建模核心,能够感知、推演环境变化,支撑AI完成与实体世界的主动交互。”但王仲远也坦承,当前模型在因果推理、复杂动态系统预判这些核心能力上存在瓶颈,对物理场景的推演结果尚达不到实用标准。

在技术路线上,智源研究院对现有世界模型进行了系统性梳理,将其分为四大类:第一类是以语言为中心的世界模型,包括VLM(视觉语言大模型)、VLA(视觉-语言-动作模型)等;第二类是以像素为中心的视频生成模型;第三类是以三维结构为中心的空间模型;第四类是以视觉表征为中心的模型。王仲远强调,未来不排除模型会走向大一统的方向。

VLA必推倒重来,但终将被新一代模型替代

针对当前基于VLA的具身智能技术路线是否需要“推倒重来”的疑问,王仲远的回答十分明确:“不用推倒重来,但它一定会在将来的某个时间点被新的模型给替代。”

王仲远指出,现有的VLA类模型已经能够在某些具体场景中发挥作用,在某些具体特定的场景中已经能够达到类人的水平。他以2012年深度学习的兴起作比——当时大模型尚未出现,但深度学习已经能够针对特定问题、特定场景训练特定模型,并在该场景中工作得比人类更好,这就足以推动产业发展。同样,阿尔法Go能战胜围棋世界冠军却无法解决其他领域问题,但并不妨碍其产生广泛的应用价值。

因此,关于具身智能,他也持类似观点:现在的技术虽然其泛化性面向真实的物理世界依然不够,但是不阻碍现在具身智能技术和产业的发展。

对于下一代世界模型应具备的特征,王仲远提出了明确方向:必须是全模态的,必须以下一个物理状态预测为核心,必须能够理解真实的物理规律和物理常识,同时又需要具备主动交互的能力。

“我们相信,如果真的诞生这样的一个下一代世界基座模型,它才能够真正去推动具身智能,解决我们现在实际落地中遇到的各种困难,尤其是泛化性和面向真实场景的推理能力。”

谈及人工智能,王仲远观察到,AI在数字世界和物理世界的发展速度正在分化。

在数字世界里面,不管是更强的基座模型,还是AI Coding,都已经展现出了极强的能力,甚至很多人认为呈指数级的能力跃升。整个数字世界都有可能被新一代人工智能重构。

而在物理世界,智能体的发展则相对缓慢。王仲远指出,这是因为我们还缺乏一个世界基座模型,缺乏一个对于时间空间、物理规律,对于多模态乃至全模态有很好的理解推理、规划决策的基座模型。

王仲远预计,在未来一年到两三年内,将看到越来越多数字世界中智能体的落地,帮助人类解决很多问题。例如,智源研究院已研发了心脏辅助诊断智能体、自主科研智能体等多款产品,用于提升医疗诊断水平下沉和科研效率。

在AI安全方面,王仲远指出行业关注点正在发生变化。“行业在前两年更多担忧超级人工智能的远期风险。如今,随着AI智能体、大模型自进化能力发展,已出现大量现实可能复现的安全威胁。”

王仲远呼吁,应对AI安全风险,不仅仅是技术,实际上需要技术、产业、政策以及各领域的专家,大家来共同携手,共同努力来应对。


作者丨杨鹏岳编辑丨邱江勇美编丨马利亚监制丨连晓东

相关推荐