贾浩楠 发自 副驾寺,智能车参考 | 公众号 AI4Auto
具身智能创业公司常有,但大晓机器人这样的团队构成,堪称稀有——
全球TOP5华人计算机科学家(Reasearch.com排名),拥有2位:王晓刚、陶大程:
“计算机视觉黄埔军校”港中文大学MMLab实验室,也多位大牛现身,涵盖环境智能、世界模型、具身基础模型等等垂直领域,成为大晓官宣亮相团队的核心:
论初创团队的学术背景和科研光环,具身智能赛道,无出其右者。
而大晓机器人首秀的第一个产品方案,有点出人意料。
大晓机器人首秀:具身智能“一体机”
大晓机器人首秀,拿出手的不是通用的多模态大模型,不是具体到任务的工业或家庭产品方案,甚至,都不是一个机器人本体:
官方命名为A1,具身智能超级大脑模组。
本身包含摄像头、激光雷达、计算芯片,内置视觉感知、规划控制等等模块。
“用法”十分简单,直接和其他型号的机器人本体相连:
比如四足机器人+A1,相当于直接给机器人注入了“大脑”和“灵魂”,一方面具备物理世界的感知+规划+决策能力,另一方面系统能理解任务内容,独立完成类似巡检、消防、娱乐互动等等任务:
任何品牌品类的机器人本体,只要开放控制接口,A1都能适配——
形式上是不是很熟悉?与L2落地常见的一体机一样。
简单科普一下,一体机是相对中央域控而言,把计算芯片、摄像头、算法等等集成在一个设备中,通常安装在前挡玻璃后。但由于体积、功耗限制,往往只支持简单的车道保持定速巡航功能,但优点是超便宜,成本不过200块,常见于尾大不掉的传统燃油车企所谓“转型”产品。
一般来说,一体机难度低体验也不行,在自动驾驶行业主流、前沿话题关注中,很难上桌。
所以也难怪有评论说,华人顶尖计算机科学家TOP5,还一次凑齐了俩,就做了个这?
但如果再往深挖掘,其实大晓机器人A1,尽管是“外挂”大脑,但能力远超“L2”。
本质是商汤、绝影长期积累的大模型、自动驾驶经验成果。
比如,A1本地端部署和商汤绝影量产系统同源的端到端模型,完全不依赖地图信息,无论是有明显先特征的道路,还是公园、仓库等等场景,A1都能自主识别规划线路。
毕竟,无论人形还是四足或是轮式机器人,在设定ODD内“go anywhere”的能力是一切复杂任务的前提。
单体智能之外,针对不同任务场景,A1还有“外挂”助手,比如接入了商汤城市与产业智能化视觉引擎方舟,协同轻量小模型与通用大模型,实现长尾视觉任务的渐进式推理。
以及大晓还给A1设计了一套创新的“具身智能5G云代驾”:
云端基于VLA模型架构设计了一整套交互方案,一方面用户在后方可以直接通过语言给前方现场的机器人下达任务指令;另一方面,机器人如果真的遇到系统一时难以处理的case,后方可以直接接管操作。
所以,硬说A1就是具身智能“一体机”,的确也挑不出毛病,毕竟设计思路、产品形态、落地使用方式如出一辙。
但从A1本身软硬件实力来说,远远超过传统L2一体机的需求和定义。
问题是,大晓在做的事,是“杀鸡用牛刀”吗?
顶流AI科学家王晓刚揭秘:大晓A1要解决什么问题?
王晓刚博士认为,之前的具身智能开发模式,从根上是不work的:
大量创业公司推出了各种不同形态的机器人,并且通过后端人工操作(Teleoperation)控制本体去采集数据,然后把数据聚合在一起,试图训练一个通用的机器人大脑,但练出来的所谓“大脑”很难用到不同的本体上,数据不能共享。
大晓把这种旧的研究范式叫做 Machine-centric(以机器为中心)。它的核心逻辑是 VLA(Vision-Language-Action),通过视觉和语言指令,直接让机器去完成特定任务,不需要理解物理世界到底是什么样。
包括特斯拉、Figure AI等等在内,现在已经抛弃了这种方式,转向一种大晓命名为“ACE”,以人为中心的开发范式。
核心技术之一是环境式数据采集技术,通过跨视角多模态设备,融合视觉、触觉、语音、力学规律等多维度数据,物理级建模与全场景覆盖的创新设计,为具身智能模型训练提供 “人—物—场”全要素精准数据支撑。
整合第一视角与第三视角视频、力触觉信息、运动轨迹、语音等多模态数据,覆盖具身模型训练所需的各类交互信息。
其实A1本身,就是环境式数据采集技术的终端执行设备。
除了A1之外,王晓刚还提到了对人体自然行为、物品交互轨迹的精准捕捉技术,包括肢体 3D 姿态、手部的 3D 手势、接触物品的种类和姿态、物品的 3D 形状等等,甚至还会提取人与环境交互的信息,比如坐在椅子上、趴在桌子上、爬梯子,这些 3D 交互关系。
除了数据质量,效率也是数量级提升,王晓刚给出的预估是从十万小时级到千万小时级的飞跃。
ACE核心技术之二紧跟数据采集之后——开悟世界模型3.0,形成跨本体的统一世界理解框架,融合物理规律、人类行为和真机动作,使机器不仅能“理解”物理世界因果规律,还能“生成”长时动静态交互场景,进而“预测”万千可能。
除了长时动态交互场景视频,开悟3.0还能在场景内实现各元素精准可控,以及形成“知其然,知其所以然”的思维链。
最重要的,是跨不同形态机器人本体数据的一键生成、多本体泛化、预测万千演化路径。
到了这一步大晓机器人的第一步落子就清晰了:
非本体非模型,大晓机器人首次亮相的产品,其实和理想的Livis思路一致,都是率先打造一个数据入口,把机器人本体作为边缘算力,利用不同厂商、不同场景、不同形态的机器人收集高质量数据,与开悟世界模型配合形成算法模型的不断迭代。
这同样也是符合目前具身智能赛道现状的选择。举个例子,宇树代表的其实是具身智能强本体硬件玩家,而银河通用这类玩家则是更偏重模型软件。
软件这个赛道,又能细分出主攻认知“大脑”和运动“小脑”两类玩家。
至于软硬双管齐下的创业公司,目前大多都在起步阶段。
这也就造成了眼下具身智能产品无论是演示还是落地,最常见的模式是先花钱买一个本体,再找另外的AI公司根据场景任务定制算法软件。
大晓机器人Day 1抓的其实是核心矛盾:没有高质量数据闭环,谈何软硬全栈方案呢?
具身智能「全明星」队
大晓机器人首秀,比产品方案更亮眼的是团队。
一位AI大牛就足以给创业公司一个起点超高的kick strat和估值,而大晓机器人开局就有2个。
王晓刚,我们曾详细介绍过,按照Reasearch.com综合排名,计算机科学家中国第2,世界第37,总被引用次数125264次,从2016年之后算,被引用次数也达到了92560次。参考D-index,及学科内H因子作为依据,细化到被调查学科的论文和引用值,王晓刚博士的数据为139。
作为对比,AI教父Geoffrey Hinton的D-index为166。
当然,王晓刚还是商汤科技联合创始人、执行董事,以及商汤绝影事业群总裁,在大晓机器人,王晓刚直接担任董事长。
另一位TOP级大牛,是大晓机器人首席科学家陶大程:
现任新加坡南洋理工大学计算与数据科学学院杰出大学教授,同时是澳大利亚科学院院士和欧洲科学院外籍院士,并同时是IEEE、ACM、AAAS等多个国际权威学会的会士。
研究专注于将统计学和数学应用于人工智能,在表征学习、计算机视觉和深度学习等领域贡献卓著,学术影响力巨大。至2025年,已发表超过1200篇学术论文,被引用逾14万次,H指数超过180。他两度荣获澳大利亚最高科学奖项“尤里卡奖”,并于2021年获得IEEE计算机学会爱德华·麦克拉斯基技术成就奖,以表彰其在表征学习方面的奠基性贡献。
之前,陶大程教授最被产业界熟知的身份是京东探索研究院创始院长。
除了顶级AI大牛之外,大晓机器人初创核心团队同样“星光熠熠”:
比如担任大晓机器人环境式数采科学家的刘子纬,是南洋理工大学副教授,新加坡总统青年科学家奖,MIT 科技评论亚太区 35 岁以下创新者。
另一位环境数采科学家潘新钢,是南洋理工大学南洋助理教授, NRF fellow, DragGAN提出者。
再比如大晓机器人世界模型科学家吕健勤、李鸿升,分别是南洋理工大学校长讲席教授、香港中文大学副教授。
赵恒爽,香港大学助理教授;刘希慧,香港大学副教授——这二位都是大晓机器人负责VLA基座模型的科学家…….
大晓初创团队,包括两位顶级AI大佬在内,其实都师出同门:商汤科技创始人汤晓鸥教授创办的MMLab——陶大程和王晓刚还是同宿舍上下铺的兄弟。
1996 年,汤晓鸥MIT博士毕业后,前往香港任教,并在2001年组建香港中文大学多媒体实验室MMLab。
之后的20多年时间,汤晓鸥把MMLab建成了成了计算机视觉研究重镇。比如2011年到2013年,CVPR所有29篇深度学习论文中,来自MMLab的有 14 篇;再比如2012年CVPR仅有的两篇深度学习论文全部来自 MMLab。
从这里走出、如今如雷贯耳的big name包括但不限于:王晓刚、何恺明、林达华、陶大程、颜水成……
所以从中国AI人才,尤其是计算机视觉赛道角度,外界也常把汤晓鸥的MMLab称作“黄埔军校”,持续在大模型、自动驾驶等等领域开枝散叶。
20多年后,这个实验室的力量,又在“大师兄”的带领下,以大晓为名,汇聚到了最热的具身智能赛道。
195