大模型战争,正在从对话框打到现实世界。
6月16日,阿里巴巴发布千问具身智能大模型Qwen-Robot系列。
和过去只会聊天、写代码、看图片的大模型不同,这一次,阿里要开始控制机器人进入真实世界。
01Qwen-Robot是什么?
这次阿里发布的Qwen-Robot不是一个单独的机器人模型,而是一套模型组合,包括三部分:
丨Qwen-RobotManip:负责操作,相当于机器人的“手”。
它是视觉-语言-动作模型,也就是VLA。
机器人不只是看见杯子、听懂拿起来,还要生成一串连续动作。
这类模型难在适配不同机器人,机械臂、双臂机器人、人形机器人,身体结构都不一样。
它的一个亮点,是采用80维统一动作表征,相当于给不同硬件定义一套通用肢体语言。
它还基于摄像头画面里的相对位置操作,不必过度依赖繁琐的绝对坐标计算。
在数据层面,它基于完全由开源数据构建的超过38000小时语料库完成预训练,并在 RoboChallenge Table30 v1真机测评中包揽前两名。
丨Qwen-RobotNav:负责导航,相当于机器人的“脚”。
它是视觉语言导航模型,也就是VLN。
它要让机器人听懂自然语言,并在真实空间里移动。
比如“去厨房门口”“绕过桌子”“找一下我的行李箱”,机器人要一边看环境,一边记住走过哪里,一边规划下一步路线。
它的亮点是把语言指令导航、目标搜索、自动驾驶等五大任务族,统一到同一个框架里。
过去这些任务往往分开做,现在它试图用一套模型,处理多种移动智能体任务。
此外,它还提出任务自适应观察机制,可以根据任务灵活切换记忆策略。
它也是业内少数原生支持多种智能体框架的VLN模型,并已在宇树Go2四足机器人上实现零样本真实环境部署。
丨Qwen-RobotWorld:负责思考,相当于机器人的“大脑”。
它是世界模型。
所谓世界模型,不只是识别物体,而是推演物理世界接下来会怎么变化。
比如杯子被推到桌边会不会掉,抽屉拉开后里面东西会怎么移动,机器人下一步动作是否合理。
它的特别之处,是以自然语言作为统一动作接口,把机器人操作、自动驾驶、室内导航等多类场景打通。
训练上,它拥有860万条视频和文本对、超过2亿帧画面,并采用30%通用视频数据和70%具身专属数据混合训练。
所以,Qwen-Robot系列模型,是把操作、导航、世界推演组合成一套机器人通用能力栈。
02阿里为何下场?
毫无疑问,具身智能已经成了中国AI圈最热的赛道之一。
2026年一季度,国内具身智能赛道披露融资超过50起,获投企业超过30家,累计融资额约200亿元。
宇树科技、智元机器人、银河通用、星海图、自变量机器人、智平方、千寻智能、云深处等公司,纷纷跻身百亿估值阵营。
具身智能,正在变成资本、产业和大厂共同押注的新战场。
猛一看,阿里这次发布Qwen-Robot,不过是在追机器人的风口。
但更深的原因,在于大模型竞争的方向在变化。
过去两年,大模型竞争主要发生在数字世界。聊天、写作、代码、搜索、办公、Agent,本质上都是AI在屏幕里完成任务。
但具身智能不同,它要让AI控制机器人,在物理世界完成真实任务。
比如,让机器人进入仓库、工厂、商超、家庭、物流场景,完成搬运、分拣、巡检、配送、服务等任务。
如果未来机器人都需要一个通用大脑,那么这个大脑就可能变成新的云服务、新的模型底座,甚至新的产业入口。
这正是阿里必须下场的原因。
它不一定要亲自造机器人,但它一定不能错过机器人最核心的智能层。
具身智能,是大模型走向产业和物理世界的重要下一站。
在这一领域,阿里已有积累。
2025年8月,阿里达摩院开源过RynnVLA、RynnEC、RynnRCP等模型和协议,分别对应动作生成、世界理解,以及机器人本体、传感器、模型服务和动作执行之间的连接。
之后,千问团队又推出Qwen-VLA,把Qwen的视觉语言能力,扩展到动作生成和轨迹预测。
这次Qwen-Robot的发布,是把具身智能能力正式放进千问主品牌,变成了机器人行业听得懂、用得上的三类模块。
这意味着,具身智能不再只是阿里实验室里的研究方向,而是正式进入阿里大模型的主战场。
03这个“大脑”有什么不一样?
现阶段做具身智能的公司,几乎都在讲“大脑”。
智元发布GO-1,强调“一脑多形”和数据回流;自变量发布WALL-B,主打世界统一模型;银河通用推出 LDA-1B,讲世界-动作统一框架;星海图发布G0,用“快慢双脑”让机器人完成整理床铺这类长程任务。
那么,阿里Qwen-Robot和这些机器人公司的具身智能模型,有什么不同?
最大的区别,在于起点不同。
阿里是从大模型往机器人走。
它原来有大语言模型、多模态模型、Agent、视频理解模型和云服务能力。
Qwen-Robot更像是在这些基础上,继续往操作、导航、世界模型延伸。
具身智能厂商则是从机器人往大模型走。
它们先有本体、机械臂、传感器、运动控制和真实任务,再用机器人每天采集的数据训练自己的VLA、世界模型或具身大脑。
这决定了双方优势不同。
阿里的优势,是模型底座强、生态大、平台化能力强。
Qwen-Robot如果跑通,可以不绑定某一台机器人,而是变成很多机器人公司都能调用的通用能力。
这更像机器人行业的安卓,或者未来云端机器人模型API。
但阿里的短板也明显,真实机器人不是它的主业。
具身智能最后比的不是benchmark,而是真机数据、失败数据、场景闭环。
机器人在实验室抓起杯子,和在仓库、商超、家庭里连续工作,是两回事。
这正是具身智能厂商的优势。
智元、自变量、星海图、银河通用这类公司,离真实机器人更近。
它们有自己的本体,有数据采集链路,有真机测试,也能把失败案例重新回流到训练系统。
这些公司的模型,通常不是为了做一个通用API,而是为了让自己的机器人更快进工厂、进商超、进家庭,完成具体任务。
所以,阿里和具身智能厂商很可能走出两条路径。
一条是阿里这样的基础模型厂商,做通用底座、云服务和开发者生态;
另一条是机器人公司,做本体、数据、场景和端到端闭环。
前者赢在规模化和生态,后者赢在真实世界的脏活累活。
04大厂纷纷入局具身智能
Qwen-Robot背后真正值得关注的,不只是阿里,大厂们都在从大模型走向具身智能。
腾讯有HY-Embodied,字节Seed团队在做VLA,京东发布具身智能数据基础设施和具身大模型,小米也在探索机器人本体和端侧模型。
再加上美团、阿里、字节、京东频繁投资机器人公司,信号已经很清楚:
大厂不再只是围观具身智能,而是在抢未来机器人背后的入口。
谁能让更多机器人调用自己的模型,谁就有机会成为物理世界里的新平台。
这也是为什么大厂们要从投机器人公司,走向自研具身模型。
但热闹归热闹,具身智能离真正爆发还有很长一段路。
高质量真机数据、真实环境里的泛化能力、成本、安全、部署和维护等,都是具身智能产业尚未解决的问题。
当国内大厂开始集体争夺具身智能入口,这未必只是另一场内卷。
它也可能意味着,机器人进入真实产业的速度,已经开始加快。
#阿里 #具身智能
384
