GPT类型的LLM大语言模型,生成图片类型的Diffusion Models目前是人工智能领域最爆火的应用基础。
这两类技术基础,可以在互联网应用上生成文字、图片、视频,然后人工智能技术把这些应用组合就成了所谓的 Agentic AI;然后物理世界的Physical AI 例如当前的自动驾驶,机器人也基于这些技术的基础来实现。
我们之前分享的VLM(具体点击一文深度看懂视觉语言模型 (VLM))和VLA(具体可以点击一文看懂视觉语言动作模型(VLA)及其应用),他们本质都是基于LLM的一维规则去编码视觉感知,然用用LLM的算法基础去推理,形成结论然后解码成输出。
可是,以发明图片AI算法 ImageNet 而闻名的斯坦福大学教授李飞飞和 Meta首席人工智能科学家 Yann LeCun等计算机科学家正在构建他们所谓的“世界模型”。
与大语言模型不同,大语言模型根据训练数据中的单词和短语之间的统计关系来确定输出,而世界模型则根据人类对周围世界的心理构造来预测事件。“语言在自然界中并不存在,”李飞飞在最近一期安德森·霍洛维茨的a16z播客节目中说道。“人类,不仅生存、生活和工作,我们还在语言之外构建文明。”
计算机科学家、麻省理工学院教授杰伊·赖特·福雷斯特 (Jay Wright Forrester) 在其 1971 年的论文《社会系统的反直觉行为》中解释了为什么心理模型对人类行为至关重要:
我们每个人都在不断地使用模型。每个人在私人生活和商业活动中都会本能地使用模型进行决策。一个人头脑中关于周围环境的心理图像就是模型。他的头脑中并不包含真实的家庭、企业、城市、政府或国家。他使用选定的概念和关系来代表真实的系统。心理图像就是模型。所有决策都基于模型做出。所有法律都基于模型制定。所有行政措施都基于模型。问题不在于使用还是忽略模型。问题仅在于在备选模型中进行选择。
如果人工智能要达到或超越人类智能,那么其背后的研究人员相信它也应该能够建立心智模型。李飞飞一直通过世界实验室 (World Labs) 致力于这项工作。她于 2024 年与他人共同创立了世界实验室,最初获得了 Andreessen Horowitz、New Enterprise Associates 和 Radical Ventures 等风险投资公司的 2.3 亿美元投资。世界实验室在其网站上表示:“我们的目标是将人工智能模型从二维像素平面提升到完整的三维世界——既包括虚拟世界,也包括现实世界——赋予它们与我们一样丰富的空间智能。”
李飞飞在 No Priors 播客中表示,空间智能是“理解、推理、交互和生成 3D 世界的能力”,因为世界从根本上来说是三维的。李飞飞表示,她看到了世界模型在创意领域、机器人技术以及任何需要无限宇宙的领域中的应用。就像Meta、Anduril和其他硅谷重量级公司一样,这可能意味着军事应用的进步,帮助战场上的士兵更好地感知周围环境,并预测敌人的下一步行动。构建世界模型的挑战在于缺乏足够的数据。
与人类历经数个世纪不断完善和记录的语言相比,空间智能的发展程度较低。“如果我让你现在闭上眼睛,画出或构建一个你周围环境的3D模型,那可不是那么容易,”她在No Priors播客中说道。“在经过训练之前,我们还没有能力生成极其复杂的模型。”为了收集这些模型所需的数据,“我们需要越来越复杂的数据工程、数据采集、数据处理和数据合成,”她说。这使得建立一个可信的世界的挑战变得更加艰巨。
在 Meta,首席人工智能科学家 Yann LeCun有一个专门从事类似项目的小团队。该团队使用视频数据训练模型,并运行在不同层面抽象视频的模拟。他在今年早些时候于巴黎举行的人工智能行动峰会上表示:“其基本思想是,你不会在像素级别进行预测。你训练一个系统来运行视频的抽象表示,这样你就可以在这种抽象表示中进行预测,并希望这种表示能够消除所有无法预测的细节。”
这创建了一组更简单的构建模块,用于绘制世界在特定时间将如何变化的轨迹。被中国骂得最多的百度李彦宏一样,相信这些模型是创造真正智能的 AI 的唯一途径。李彦宏最近在新加坡国立大学表示:“我们需要能够快速学习新任务的人工智能系统。它们需要理解物理世界——不仅仅是文本和语言,而是现实世界——拥有一定程度的常识、推理和规划能力,以及持久记忆——所有这些都是我们对智能实体的期望。
看完了以上大佬们的总结。世界模型是一种生成式人工智能系统,它从各种输入数据中学习现实世界环境的内部表征,包括其物理特性、空间动态特性和因果关系(至少是基本的因果关系)。它们利用这些学习到的表征来预测未来状态,在内部模拟一系列动作,并支持复杂的规划和决策,而无需持续进行现实世界的实验。
其实当前大家提的世界模型,是采用一维大语言Transformer为基础或者二维图片Diffusion算法为基础来实现。那是不是未来世界模型的核心3D空间智能会找到另外一种三维算法呢?
*未经准许严禁转载和摘录-获取本文参考资料方式:
加入我们的知识星球可以下载公众号海量参考资料包含以上参考资料。
546