今天继续聊聊用仿真数据训练人形机器人的话题。
早上师妹发了篇文章,关于李飞飞世界模型Marble的,这篇文章里有部分内容,描述的是Marble世界模型的可编辑性。
“Marble内置了AI原生世界编辑工具。编辑可以细微而局部:移除物体、修饰区域;也可以更加彻底:替换物体、改变视觉风格,或重构世界的大部分结构。这为世界创建过程带来了全新层次的精细控制。”
看过我之前文章的朋友,可能会有印象,我一直强调仿真数据是具身智能VLA模型训练的必选项,但用于仿真的数据资产,一定要“可控、可编辑”。
如果世界模型Marble能够做到可编辑,是否生成的3D内容可以用于具身智能模型的训练?
但一位朋友经过实测Marble后,给出的答案明显是否定的。
大家可以看看图片效果,这是一个通用的不能再通用的客厅场景。
首先,关于可控性的问题。
文生内容的模式,幻觉是不可避免的。桌子椅子都出虚像了……本来我还以为是截图的时候的拖影,其实真实图像就是这样。
上周徒步的时候,和做CAE仿真的孙博士也讨论过这个问题,文生视频能否用于训练。其中很大的问题也是可控性,生成内容质量不保证,需要“抽卡”,重复多次才能找到可用的。
而且模型训练动辄百万级的数据量,需要基于大量基础场景做微调,很显然,文生内容的模式,针对cornercase尚且还可以,但普适性会差很多。
另外,关于可编辑性的问题。
大家可以看看生成的3D视频经过Mesh转化后的白模文件,简直是无序的乱啊。哪个设计师愿意上手编辑?
就跟程序员不愿意修改别人代码一样,而且还不带注释。
所以朋友点评的好,所谓的可编辑,只是理论上的可编辑,实际编辑的时间成本超过人工手动重新建模。
所以我建议啊,李飞飞老师可以来找我们,我们的平台可以批量生成海量的3D场景和资产数据,可以把Marble世界模型训的更好。
最后,关于数据可用性问题。
世界模型文生3D视频的模式,确实可以解决一部分VLA模型中的V(Vision)的数据问题,比如生成机器人视角的场景数据,有助于帮助机器人认知周围世界。
但仅此而已,VLA模型中的A(Action)所需要的数据,才是最重要也是最难获得的数据,是机器人和物理世界交互的数据,目前主要依靠遥操作机器人采集真机数据,这个单靠世界模型是解决不了的。
如果想通过仿真模式获得交互性数据,得通过仿真引擎,叠加有物理属性的资产,在虚拟环境中交互获得。
最后硬广一下,如果有投资人和产业需求方,对自动生成海量的“可控、可编辑、带物理属性”的数据资产感兴趣,欢迎联系我。
核心项目推荐:具身智能;深海科技;算力光互联;商业航天;工业AI;低空经济;新材料……欢迎深入交流:
910