• 正文
  • 相关推荐
申请入驻 产业图谱

具身是具身,智能是智能

05/22 10:25
1260
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

这几天的主题是“汽车”——“智能”汽车、“人形”汽车、“飞行”汽车。一样的配方,不一样的味道。

现阶段,谈论“具身智能”还为时尚早,机器人本体是具身,而实现端到端VLA的“大脑”才是终极的智能。如何实现,技术路线都还没有定论,都在摸着石头过河,这会是一个极其艰难的时期。

所有机器人本体厂商,都在不断强化专项动作的能力,但这个意义对于未来的真正的具身智能意义不大,只在于展示人形机器人本体的鲁棒性(虽然这也很重要)。汽车本身也是具身智能的一个载体,真正实现自动驾驶(Full-Self Drive)才算具身智能有真正的落地应用。有意思的是,Transformer(变形金刚)正好是车和人形机器人的复合体,而Transformer架构恰好又是端到端大模型的底层架构,这也许是冥冥中来自塞博坦星的暗示吧。

但是,自动驾驶过去十年的努力也证实了,依赖规则和策略设定的模式来实现自动驾驶,是突破不了L3这一层级的,端到端才是提升质变的希望。老黄也一直把物理AI挂在嘴边,这到底是个什么东西?要理解物理AI,我们必须要回头看看人工智能的发展史。虽然普遍认为1950年的图灵测试,是人工智能在学术界的开端,但真正让普罗大众接触到AI,也就短短15年的时间。

这15年的时间里,AI应用的落地经历了两个阶段,第一阶段是感知AI,也就是图像语音识别、自然语言语义识别,最普及的应用就是人脸识别,现在刷脸已经深入每个人的生活,对应的技术模型是卷积神经网络,比如AlexNet。

第二个阶段就是现在最熟悉的生成式AI,基础大模型带来的能力,比如大语言模型、多模态大模型,也就是AI生成文本、图片、视频,典型应用包括ChatGPT、Midjourney、Sora等,对应的技术模型就是Transformer基础架构。

第三个阶段就是大家正在积极围观的AI Agent,智能体,不再依赖prompt,能够自主规划,自主决策,从头到尾完成一项完整的任务,典型应用就是智能体,对应着推理大模型和多模态大模型,以及多种模型的通力合作,完成具体任务。

第四个阶段就是老黄所说的物理AI,是AGI的终极形态,不知道大家意识到一个问题没有,到目前没位置,还没有智能体能够实现和物理世界的交互,不管是感知、生成还是Agent,基本都局限于数字世界,没有智能体能够反作用于物理世界,智能汽车算是有这个苗头了,但是和机器人能够抓取放还是两个层面的物理世界交互。

随意未来跨域数字世界和物理世界这道鸿沟,机器人成为端到端大模型的载体,才算是真正进入到通用人工智能AGI时代。

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录

公众号科创之道主笔,标准的EE、CS专业理工男。从事研发、咨询、投资工作15年,主要关注领域为半导体、人工智能、物联网、云计算等,目前专注于风险投资和企业服务领域,平时喜欢把一些工作上的感悟随手记下来,希望通过自己的文字,融合IT产业和投融资行业知识,为跨行业沟通搭建一座桥梁。