本期“硬科技新势力访谈”嘉宾是虚时科技(Intime AI)创始人王德駪,我们一起聊了聊空间智能和人形机器人数据仿真相关话题。
如果您也关注仿真数据,也认为仿真数据是未来解决人形机器人数据瓶颈的关键,欢迎随时和我们交流:
1. 虚时科技(Intime AI)主要业务是什么?
虚时科技聚焦3D间智能,通过AI手段实现3D资产和场景生成,并给生成的资产和场景赋予物理属性,呈现出和物理世界相一致的属性,因而帮助我们进行仿真,下游应用除了具身智能模型的仿真,也会涉及到游戏、影视等领域的应用。专业一点的说法,打造资产生成、空间生成、物理仿真有机结合的“3D空间智能引擎”,为物理AI构建可感知、理解、交互的真实世界数字底座。
2. 空间智能核心体现是人工智能么?
空间智能以人工智能为基础,但并非仅局限于人工智能,还需与具体场景和专业领域深度结合。例如,公司联创凯奇具备专业的空间设计背景,在城市空间规划、建筑设计、室内空间设计等方面经验丰富。我可以举一个例子:我们通过AI生成的demo产品在普通人看来已十分逼真,但经凯奇这样的专业人士审视,会发现其在楼间距、城市密度、容积率等专业维度存在不合理之处。
因此,空间智能是AI领域专家与特定场景领域专家协同合作的成果,是需要AI算法和专业领域知识相结合的,所以我们的团队更像是像AI expert和domain expert的一个结合。
3. 您的背景从语音AI(ASR&NLP)转向空间智能,是否存在技术鸿沟?
表面上看,空间智能涉及空间与视觉相关技术,看似与语音AI所属的NLP领域存在差距,但实际并非如此。我个人的背景涵盖深度学习、机器学习,既做过支票防伪识别等CV相关工作,也在亚马逊深耕过NLP领域,涉及ASR、NLU、TTS等算法工作,大模型出现后还带领团队用大模型技术重构NLP系统,属于偏技术且具备多模态背景的从业者。
而且虚时科技的空间智能技术路径并未采用主流的视觉角度方案(如Diffusion Transformer-DIT架构、高斯泼溅技术等),而是从底层代码出发,通过代码映射编译3D资产,再借助大模型生成代码,技术底层大量借鉴NLP技术,以文本驱动空间智能发展。此外,空间智能后续还会融入物理属性与仿真功能,属于多模态融合过程。
因此,语音、语言领域的知识与CV相关工作经验相互融合,才使得我们的产品效果大大超出预期。
4. 用代码底层实现空间智能和其他路径有什么差异么?
基于代码文本底层驱动的空间智能实现方式,在可编辑性、可控性和精准度上均优于视觉方案。视觉方案仅能实现视觉层面的还原,看似逼真,但对于工业生产等对精度要求较高的场景,远远无法满足需求,而代码驱动的方式能更好地适配这类高精度场景的应用需求。
5. 回国创业之后,感受到了卷了么?有没有水土不服?
回国创业后,确实感受到了国内与国外工作氛围的显著差异。国外工作很注重工作与生活的平衡(work life balance),而国内创业节奏紧张,常呈现996或997的工作模式,生活重心几乎完全围绕工作。
但这种高强度的竞争环境,正是自己回国创业所追求的。
当前,美国在科技领域虽有先发优势,但其优势源于数十年的积累。而在新能源、人工智能、具身智能等新兴领域,国内外基本处于同一起跑线,国内的发展速度和成果并不逊色于国外。
特别在具身智能行业,由于合成数据缺乏明确的行业标准,没有可用于“刷榜”的竞技场,行业尚处于初期阶段。虚时科技需要与下游企业协同,共同建立市场、制定榜单,这就要求快速迭代优化数据。国内的合作模式效率极高,与下游机器人企业通过线上即时沟通,能快速响应需求、优化数据;相反,如果放在国外,在推进工作时受限于工作习惯,难免会流程繁琐,响应迟缓。
此外,国内高质量学术论文数量日益增多,这种激烈竞争和快速迭代的环境,对科技与市场的发展起到了积极的推动作用。我听硅谷朋友也说,如今,AI核心圈层中中国人占比极高,中文成为重要的交流语言,不掌握中文难以融入该核心圈层。
6. 空间智能的定义是什么?
空间智能是一个较新的概念,目前在学术界、国内外不同行业及不同研究方法中,尚未形成统一的定义,仍处于未收敛阶段。
从虚时科技的业务角度,空间智能是指无中生有地创造出美观、符合自然规律且具备使用功能的空间(包括室内、城市、室外自然空间等);从机器人角度,空间智能是指机器人像人类一样,具备认知3D空间、识别空间深度、在空间中交互工作的能力(如图像分割、视觉感知等)。
整体而言,空间智能的核心是让机器智能能够像人类一样理解、创造、交互和使用虚拟环境中的空间。
7. 对世界模型的定义和看法?
世界模型的定义同样模糊,不同主体有不同解读。主流定义主要分为两类:
一类是基于图像或高斯技术的空间生成,例如李飞飞团队基于高斯泼溅的Marbel空间生成,通过一张图片或者视频生成3D立体空间与场景,将现实世界虚拟化,属于3D类型的世界模型,能呈现货真价实的3D场景,用户可在其中进行各类操作。
另一类是视频类生成,如Sora2以及Google的Veo3等,通过预测场景中物体的运动及下一秒的状态并以视频形式呈现,本质是一帧帧图像的连贯播放,最终以2D形式呈现,虽能模拟世界中的因果关系,但并非真正的3D场景。
两者的核心区别在于底层技术原理与最终呈现形态,3D类型基于Mesh或高斯等真实3D表达,视频类则基于图像预测与连贯播放。
8. 元宇宙你怎么看?和空间智能是否有相同的底层逻辑?
元宇宙的概念本身并无问题,此前落地不及预期,并非概念不合理,而是当时的技术能力不足以支撑,提出时机过于超前。随着AI技术的发展,元宇宙与当前的空间智能业务存在诸多关联,技术路径也有不少相通之处。
元宇宙的核心是创造虚拟空间,让人类能进入其中真实感受、跨地域同步交互,这与空间智能的理念高度契合。过去,元宇宙相关的3D场景主要依赖人工制作,成本高、效率低,泛化能力弱;如今,在AI技术的支持下,能够以更低成本、更快速度打造虚拟空间,且泛化能力大幅提升,元宇宙的实现变得越来越近。
9. 世界模型是否也会存在幻觉?
世界模型必然存在“幻觉”问题,就如同文本大模型无法完全避免幻觉一样,视频生成类的世界模型也会出现此类情况。
在一些特定场景中,幻觉的影响较小,例如影视绿幕背景的3D重建,仅需关注图片本身的3D感,其他补充部分无需过高要求;但对于长流程任务(如让机器人下楼买咖啡),需要机器人依次完成开门、坐电梯、去咖啡厅、购买、返回等一系列操作,此时仅通过一张图像输入构建物理环境,对准确度的要求极高,若仅依赖单张图像进行3D重建,必然会出现大量需要预测和弥补的信息,进而导致幻觉问题。
要缓解这一问题,需要在每个环节提供照片或视频输入辅助场景扩建,同时随着应用落地,技术也需持续优化迭代。
10. 合成数据和仿真数据是一回事么?
合成数据:核心是虚拟场景与资产的构建,无论是人工3D建模打造的场景与资产,还是通过AI生成资产并组合成的场景,都属于合成数据。例如具身智能训练所需的3D桌面环境、室内外场景等,仅需满足视觉层面的合理性,即可作为合成数据使用。
数据仿真:在合成数据的基础上,增加了物理属性的赋予。对于具身智能训练而言,仅具备视觉合理的场景远远不够,还需明确场景中各资产的物理属性(如重量、材质、摩擦力、碰撞体积等),才能让机器人在该环境中进行仿真训练,这类带有物理属性的场景数据即为仿真数据。
两者的关键区别在于是否具备物理属性、能否实现物理的交互,具身智能领域需使用仿真数据,而游戏、影视等泛娱乐领域,合成数据往往就能满足需求。
11. Sim2Real Gap如何解决?
Sim2Real Gap的核心在于仿真环境与真实环境在视觉准确性、几何准确性、物理仿真准确性等方面存在差异,若能消除这些差异,理论上可彻底解决该差距。具体需从以下三方面发力:
视觉层面:确保仿真环境中的资产与真实环境在视觉上高度一致,让机器人在仿真中看到的物体与现实中无明显区别;
几何层面:保证仿真环境的几何结构准确,避免因几何误差导致机器人在虚拟环境中学习的操作(如抓取物体)无法在现实中复现;
物理仿真层面:提升物理仿真的精准度,尤其是流体、软性物体的仿真难度较大,目前主要基于有限元计算等纯数值解析方式,未来可结合生成式能力与传统计算方法,让仿真更逼真,适配更复杂的环境。
李飞飞老师曾提到,解决Sim2Real Gap需依赖仿真侧的改进,让仿真环境尽可能贴近现实,才能彻底消除两者间的差距。
12. 世界模型能解决空间智能和具身智能所有问题么?
目前来看,世界模型无法解决空间智能和具身智能的所有问题,主要原因如下:
信息缺失与幻觉问题:仅通过单张图像重建场景时,图像之外的信息(如物体背面、下方)需要预测和弥补,必然会产生幻觉;即使输入视频,也可能存在信息不完整的情况。
场景分割与信息补全难题:以高斯技术生成的场景为例,生成的资产(如电脑与桌子)是粘连的整体,难以准确分割,分割后还需补全缺失信息,目前该技术的实现效果仍有待提升。
技术转换难题:高斯技术是一种新型渲染方法,并非真实3D表达,而物理仿真需基于Mesh等真实3D表达进行应力计算,将高斯转换为Mesh的过程中,难以获得几何准确、合理的Mesh模型,仍需技术突破。
世界模型的技术路径仅发展了一两年,尚处于早期阶段,存在诸多需要优化的问题。若未来能逐一解决这些问题,其应用潜力巨大,但目前来看,无法覆盖空间智能和具身智能的所有需求,各技术路径仍在向“好用、能用”的方向探索。
13. 世界模型能否用于训练机器人感知世界的能力?
可以。以李飞飞团队的Marbel生成的场景为例,其还原的视觉效果非常真实,在3D生成与重建领域处于领先水平,甚至优于人工基于Mesh构建的3D场景的渲染真实感。
虽然世界模型在机器人复杂交互任务的训练中仍存在不足,但在纯视觉相关的基础能力训练中,已具备应用价值。例如,利用其高度真实的场景,可训练机器人对周围环境的认知能力、基于视觉的基础判断能力等。
14. 行业里当前主流的具身智能数据的技术路径都有哪一些?
目前,具身智能数据的技术路径主要分为三大类:
第一类:真机实采数据(非合成数据),通过人工操作机器人在真实环境中采集数据;
第二类:世界模型生成的视频类数据,通过生成摇操类、第一视角类机器人相关视频,用于模型训练;
第三类:3D空间仿真数据,通过生成真实的3D场景,让机器人在其中直接进行仿真并收集数据,该类路径又可细分为:基于高斯技术的方案(如李飞飞团队);基于Mesh的方案(如虚时科技,通过代码生成Mesh,再组合资产与场景);基于DiT(降噪方法)生成3D资产,再组合成场景的方案。
在这些路径中,虚时科技基于代码生成Mesh结构的技术路径,具备较强的落地优势:一是能快速生成大量合理的不同环境;二是资产的视觉真实性与几何准确性高;三是可控性与可编辑性强,文本模态的代码易于修改,且可通过参数化输入与大语言模型的自然语言理解能力,满足不同用户(包括小白用户)的编辑需求,适配泛工业与具身领域的数据需求。
15. 合成数据的可控性指的是什么,为什么这么重要?
(1)可控性的定义
合成数据的可控性包含两层含义:
生成结果符合预期,即输入特定需求后,产出的资产与场景能精准匹配要求,无明显差错;
生成结果具备可编辑性,即在得到AI生成的资产或场景后,用户能够根据需求进行修改调整。
(2)重要性
降低使用门槛:目前AI生成的内容难以达到100%可用,可编辑性允许用户弥补剩余的20%-10%的不足,且不同用户(专业3D建模师、代码从业者、小白用户)均可通过相应方式(编辑代码、三维环境修改、自然语言指令)进行编辑,降低了使用难度;
适配泛工业需求:具身智能等领域对数据的需求量极大(百万、千万级),人工制作成本高、效率低,AI生成能降本增效,但需保证AI生成的数据可精准匹配需求,且能灵活调整,才能满足工业级应用的多样化、个性化需求;
推动AI落地:AI的核心价值是降本增效,可控性是AI技术从“炫酷”走向“落地”的关键,只有让生成的内容“听话”,才能真正适配实际应用场景,提升可用性,这也是当前图像生成等领域的重要发展方向。
16. 具身智能模型训练数据的体量和复杂性要求都很高,如何解决?
具身智能模型训练受光照、噪音、物体位置、遮挡等多种因素影响,即使是简单的桌面操作,也需要对少量资产进行上百种组合训练,复杂任务对数据的需求更是呈指数级增长。
虚时科技的解决方案是基于代码控制场景生成:将场景的语义信息、空间位置信息等转换为结构化代码,通过在代码中加入随机扰动,可快速生成符合预期的多样化场景。例如,对于已构建好的桌子模型,仅需调整代码中的随机数,即可快速生成上千种不同的物品摆放方式,极大提升了数据生成效率,能高效满足具身智能模型训练对数据体量和复杂性的需求。
用魔法打败魔法。
17. 除了具身智能,空间智能下游的应用场景还有哪一些?
空间智能的应用场景广泛,涵盖所有人类与空间产生交互的领域,不同场景的需求各有侧重:
城市与建筑规划:如几百亩地的社区规划、商圈设计,传统依赖设计师分析建模,费时费力成本居高不下。空间智能可通过强大的空间生成能力提供方案,核心关注动线、光照、密度等规划的合理性;
室内设计:室内空间的布局与摆放设计,需兼顾美观与实用性;
泛娱乐领域:游戏(如《三角洲》《王者荣耀》等3D游戏的大地图、实景场景还原)、影视(如漫威等作品的大场景3D制作),核心需求是艺术化、美观、还原原画设计理念,对空间规划的合理性要求较低;
这些场景的底层模型与核心能力相通,但在具体需求上存在差异。
18. 为什么很多游戏厂商也开始进军物理仿真引擎了?
早期游戏的物理反馈较为简单,仅为视觉层面的呈现(如CS中子弹打在墙上的弹痕),对真实性、深度等要求不高。但随着游戏行业的发展,玩家对游戏的逼真度要求越来越高,需要更真实的物理反馈(如射击类游戏中子弹击中墙体产生的弹坑、《塞尔达》中风力对物体的影响等),以提升游戏的打击感与沉浸感。
物理仿真引擎能为游戏提供更精准、真实的物理属性模拟(如碰撞、力学、流体等),满足玩家对高逼真度游戏的需求,因此越来越多的游戏厂商开始布局物理仿真引擎,或将现有游戏引擎与物理仿真技术相结合。
19. 在自动驾驶领域,合成数据有应用需求么?
自动驾驶领域对合成仿真数据的需求远低于具身智能领域,核心原因是自动驾驶的商业闭环已形成:车辆可在道路上正常行驶,行驶过程中能采集到海量的真机数据,目前行业的主要问题是真机数据尚未充分利用,因此对仿真数据的依赖度较低。
但合成数据在自动驾驶领域仍有特定应用场景:主要用于生成“corner case”(极端场景)数据,这类场景难以通过真机采集或出现概率极低,但一旦遇到可能引发严重后果,需要通过仿真数据弥补真机数据的不足,辅助模型训练以应对此类极端情况。
20. 具身智能可以模仿自动驾驶的逻辑去采集数据么?
似乎不太可以,两者的逻辑存在本质区别,人形机器人模仿自动驾驶的数据采集逻辑,比如让不成熟的机器人进入家庭,通过远程遥操作服务并采集数据,我认为会存在诸多问题:
隐私问题:机器人进入家庭后,其视觉感知会涉及家庭隐私,即使无人遥操作,隐私泄露风险也难以避免;
安全隐患:遥操作的机器人可能出现操作错误,且机器人本身具有一定重量,若发生碰撞、摔倒,或在做家务时(如倒热咖啡)出现失误,可能对人体或家庭财产造成伤害;
效率低下:当前机器人的操作速度较慢,难以满足日常家庭的使用需求(如拿一双袜子需几分钟);
过渡难度大:自动驾驶可从L0到L5逐步过渡,用户有适应过程,且即使无自动驾驶功能,车辆仍可正常使用并采集数据;而家庭场景中,用户对机器人的接受度低,若机器人功能不成熟(危险、缓慢),难以进入家庭,更无法实现数据采集。
21. 银河通用机器人的王鹤曾有一个观点,未来智能智能的训练所需要的数据,可能99%都得是合成数据,对这个观点你怎么看?
我觉得是这样,真机采集数据不太可行,让机器人进入家庭采集数据存在隐私、安全等问题,国外曾有过案例,如Physical Intelligence在湾区租赁Airbnb的公寓,让工程师遥操作机器人采集数据,虽能获得真实、多样化的环境数据,但成本高、效率低,无法满足具身智能训练所需的百万、千万级数据量,且难以覆盖所有多样化场景。
如果效仿自动驾驶数据采集模式,具身智能尚未形成成熟的商业闭环,无法像车厂那样通过卖车收益补充研发与数据采集成本,依赖真机采集数据的商业模式难以持续。
因此,合成数据是唯一出路,具身智能训练需要海量数据,仅靠合成仿真数据能实现低成本、高效率、高多样性的生成,可解决真机采集的痛点。未来,真机数据可能仅作为“塔尖”的1%,用于精调具体的精细任务,而99%的训练数据将由合成数据提供。
22. 具体一点如果我想训练一个机器人的具身智能模型,具体操作分几步?
以训练一个“机器人在桌子上拿茶壶倒水”的模型为例,具体操作流程如下:
构建3D基础资产:制作不同样式的茶壶、杯子、矿泉水瓶、饮料瓶、电脑等基础资产,这些资产是构成训练场景的最小技术单元;
搭建场景:将基础资产组合成训练场景(如桌子及桌面上的各类物品),可通过随机摆放生成100种、1000种等合理的场景布局(如杯子可摆放在桌面不同位置,只要符合逻辑即可);
赋予物理属性:为场景中的各资产添加对应的物理属性,如塑料瓶的材质与摩擦力、陶瓷紫砂壶的重量与易碎性等;
导入机器人本体:将机器人的3D模型(含机械臂、人形等结构参数)导入仿真环境;
规划机器人行为:通过代码驱动机器人完成“抓取茶壶-倒水-避免水洒到电脑上”等一系列动作;
采集与训练:在不同场景下重复上述行为,采集相关数据,用于训练具身智能模型。
23. 虚时科技的业务会涉及到sim仿真这个环节吗?
虚时科技当前的核心业务不涉及仿真数据这个环节,我们主要聚焦于数据资产生成、场景生成、物理属性三大块,完成这三项工作后,会将相关成果交付给下游集成公司。下游公司会将自身的机器人本体导入该仿真环境,进行实际训练任务的操作与数据采集,进而训练自身的具身智能模型。
此外,也存在在仿真环境下进行遥操作的合作模式:由操作员在仿真环境中遥操作虚拟机器人,采集数据用于模型训练,这种方式无需购买真机、搭建实体场景,可进一步降低成本。
24. 真机采集数据的成本很高么?
真机采集数据的成本极高:
硬件成本:一台机器人的价格通常在几十万元甚至上百万元,若需要大量机器人进行数据采集(如一万台),硬件投入将是天文数字;
人力与采集成本:需要专业工程师操作机器人,人力成本高,且采集过程效率低,难以规模化推进;
替代方案:将数据采集转移到虚拟环境中,通过代码生成场景与数据,可大幅降低硬件、人力成本,提升采集效率,是实现数据规模化采集的必备前提。
25. 遥操作采集的数据,会不会也存在泛化性问题,也受操作员动作习惯制约?
遥操作采集的数据存在泛化性问题,且会受操作员动作习惯的制约。
操作习惯同质化:操作员的操作存在固定模式(pattern),例如拿杯子的方式可能相对单一,会导致采集的数据同质化严重,无法覆盖机器人所需的多样化操作场景;
并非最优操作:人类的操作习惯不一定是机器人的最优操作方式,且人类的关节构造与机器人差异较大,模仿人类操作习惯可能无法充分发挥机器人的性能;
通过仿真生成机器人的行为动态,可突破人类操作习惯的限制,从各种角度、以各种方式模拟操作,提升数据的泛化性,这也是当前学术界的相关研究方向。
总体而言,现实中的数据采集在资产、场景、行为动态等方面均存在局限性,难以满足具身智能训练的需求,而虚拟环境中的仿真生成是解决这些问题的有效途径。
26. 按照目前的大模型transformer架构一直走下去,未来这个AGI能实现吗?
仅依靠当前的transformer架构,难以实现预期中的AGI,仍有较大的优化空间:
参数效率问题:人类大脑的神经元节点数量远低于当前大模型的参数规模,当前架构在参数利用效率上存在较大提升空间;
架构局限性:硅谷诸多行业大神对transformer架构能否最终通向AGI存在争议,当前架构在通用智能的实现上存在固有局限;
未来发展趋势,新架构的探索是必然趋势,已有前沿团队开始发布相关研究论文。不过,当前基于transformer架构积累的技术趋势、理解与知识,可迁移到新架构中,整体发展方向是正确的,新架构的出现将为AGI的实现提供更强大的底层支撑。
91