扫码加入

  • 正文
  • 相关推荐
申请入驻 产业图谱

世界模型可以用于人形机器人训练么?

2025/11/18
910
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

今天继续聊聊用仿真数据训练人形机器人的话题。

早上师妹发了篇文章,关于李飞飞世界模型Marble的,这篇文章里有部分内容,描述的是Marble世界模型的可编辑性。

“Marble内置了AI原生世界编辑工具。编辑可以细微而局部:移除物体、修饰区域;也可以更加彻底:替换物体、改变视觉风格,或重构世界的大部分结构。这为世界创建过程带来了全新层次的精细控制。”

看过我之前文章的朋友,可能会有印象,我一直强调仿真数据是具身智能VLA模型训练的必选项,但用于仿真的数据资产,一定要“可控、可编辑”。

如果世界模型Marble能够做到可编辑,是否生成的3D内容可以用于具身智能模型的训练?

但一位朋友经过实测Marble后,给出的答案明显是否定的。

大家可以看看图片效果,这是一个通用的不能再通用的客厅场景。

首先,关于可控性的问题。

文生内容的模式,幻觉是不可避免的。桌子椅子都出虚像了……本来我还以为是截图的时候的拖影,其实真实图像就是这样。

上周徒步的时候,和做CAE仿真的孙博士也讨论过这个问题,文生视频能否用于训练。其中很大的问题也是可控性,生成内容质量不保证,需要“抽卡”,重复多次才能找到可用的。

而且模型训练动辄百万级的数据量,需要基于大量基础场景做微调,很显然,文生内容的模式,针对cornercase尚且还可以,但普适性会差很多。

另外,关于可编辑性的问题。

大家可以看看生成的3D视频经过Mesh转化后的白模文件,简直是无序的乱啊。哪个设计师愿意上手编辑?

就跟程序员不愿意修改别人代码一样,而且还不带注释。

所以朋友点评的好,所谓的可编辑,只是理论上的可编辑,实际编辑的时间成本超过人工手动重新建模。

所以我建议啊,李飞飞老师可以来找我们,我们的平台可以批量生成海量的3D场景和资产数据,可以把Marble世界模型训的更好。

最后,关于数据可用性问题。

世界模型文生3D视频的模式,确实可以解决一部分VLA模型中的V(Vision)的数据问题,比如生成机器人视角的场景数据,有助于帮助机器人认知周围世界。

但仅此而已,VLA模型中的A(Action)所需要的数据,才是最重要也是最难获得的数据,是机器人和物理世界交互的数据,目前主要依靠遥操作机器人采集真机数据,这个单靠世界模型是解决不了的。

如果想通过仿真模式获得交互性数据,得通过仿真引擎,叠加有物理属性的资产,在虚拟环境中交互获得。

 

最后硬广一下,如果有投资人和产业需求方,对自动生成海量的“可控、可编辑、带物理属性”的数据资产感兴趣,欢迎联系我。

核心项目推荐:具身智能;深海科技;算力光互联;商业航天;工业AI;低空经济;新材料……欢迎深入交流:

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录

公众号科创之道主笔,标准的EE、CS专业理工男。从事研发、咨询、投资工作15年,主要关注领域为半导体、人工智能、物联网、云计算等,目前专注于风险投资和企业服务领域,平时喜欢把一些工作上的感悟随手记下来,希望通过自己的文字,融合IT产业和投融资行业知识,为跨行业沟通搭建一座桥梁。