世界模型可以用于人形机器人训练么？

今天继续聊聊用仿真数据训练人形机器人的话题。

早上师妹发了篇文章，关于李飞飞世界模型Marble的，这篇文章里有部分内容，描述的是Marble世界模型的可编辑性。

“Marble内置了AI原生世界编辑工具。编辑可以细微而局部：移除物体、修饰区域；也可以更加彻底：替换物体、改变视觉风格，或重构世界的大部分结构。这为世界创建过程带来了全新层次的精细控制。”

看过我之前文章的朋友，可能会有印象，我一直强调仿真数据是具身智能VLA模型训练的必选项，但用于仿真的数据资产，一定要“可控、可编辑”。

如果世界模型Marble能够做到可编辑，是否生成的3D内容可以用于具身智能模型的训练？

但一位朋友经过实测Marble后，给出的答案明显是否定的。

大家可以看看图片效果，这是一个通用的不能再通用的客厅场景。

首先，关于可控性的问题。

文生内容的模式，幻觉是不可避免的。桌子椅子都出虚像了……本来我还以为是截图的时候的拖影，其实真实图像就是这样。

上周徒步的时候，和做CAE仿真的孙博士也讨论过这个问题，文生视频能否用于训练。其中很大的问题也是可控性，生成内容质量不保证，需要“抽卡”，重复多次才能找到可用的。

而且模型训练动辄百万级的数据量，需要基于大量基础场景做微调，很显然，文生内容的模式，针对cornercase尚且还可以，但普适性会差很多。

另外，关于可编辑性的问题。

大家可以看看生成的3D视频经过Mesh转化后的白模文件，简直是无序的乱啊。哪个设计师愿意上手编辑？

就跟程序员不愿意修改别人代码一样，而且还不带注释。

所以朋友点评的好，所谓的可编辑，只是理论上的可编辑，实际编辑的时间成本超过人工手动重新建模。

所以我建议啊，李飞飞老师可以来找我们，我们的平台可以批量生成海量的3D场景和资产数据，可以把Marble世界模型训的更好。

最后，关于数据可用性问题。

世界模型文生3D视频的模式，确实可以解决一部分VLA模型中的V（Vision）的数据问题，比如生成机器人视角的场景数据，有助于帮助机器人认知周围世界。

但仅此而已，VLA模型中的A（Action）所需要的数据，才是最重要也是最难获得的数据，是机器人和物理世界交互的数据，目前主要依靠遥操作机器人采集真机数据，这个单靠世界模型是解决不了的。

如果想通过仿真模式获得交互性数据，得通过仿真引擎，叠加有物理属性的资产，在虚拟环境中交互获得。

最后硬广一下，如果有投资人和产业需求方，对自动生成海量的“可控、可编辑、带物理属性”的数据资产感兴趣，欢迎联系我。

核心项目推荐：具身智能；深海科技；算力光互联；商业航天；工业AI；低空经济；新材料……欢迎深入交流：

相关推荐