扫码加入

VLA

加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

VLA,vision language action。VLA模型是在 VLM 基础上利用机器人或者汽车运动轨迹数据,进一步训练现有的 VLM,以输出可用于机器人或者汽车控制的文本编码动作。

VLA,vision language action。VLA模型是在 VLM 基础上利用机器人或者汽车运动轨迹数据,进一步训练现有的 VLM,以输出可用于机器人或者汽车控制的文本编码动作。收起

查看更多
  • 高德机器人成果首秀,拿下10个SOTA
    高德发布两个机器人VLA成果,ABot-NO和ABot-MO分别解决了导航和机器人操控任务,均取得SOTA成绩。高德通过统一架构和多模态融合提升了性能,展示了其在具身智能领域的技术实力和战略布局。
    高德机器人成果首秀,拿下10个SOTA
  • 极智嘉发布首款人形通用仓储机器人:技术破壁垒 业绩强兑现 成长有望提速
    全球智能机器人龙头极智嘉(2590. HK)重磅发布业内首款专为仓储场景原生打造的轮式人形机器人 Gino 1,一举攻克仓储作自动化最后一道壁垒,引领行业迈入无人仓新时代。 此前不久,公司披露2025年度录得订单人民币41.37亿元,同比增长31.7%,全球市场份额稳步扩大,叠加正式纳入港股通的资本利好,技术、业绩、资本三重共振,极智嘉迈入全新发展阶段。 市场对此已早有预期。 自上市以来,极智嘉股
  • 已有VLM,自动驾驶为什么还要探索VLA?
    自动驾驶技术正处于发展的转折点。过去十几年间,行业长期依赖模块化的技术路径,即将驾驶任务拆解为感知、预测、规划和控制四个独立环节。这种结构虽然清晰,但在面对突发状况时(长尾场景),会因规则覆盖不足而表现僵化。 随着大语言模型和视觉语言模型(VLM)的爆发,开发者们意识到,如果车辆能像人类一样拥有常识,理解什么是“潮汐车道”,知道“救护车在后方鸣笛需要避让”,那么自动驾驶的上限将得到极大提升。 然而
  • 人形机器人的“端到端”时刻:Figure Helix 02 架构对自动驾驶 VLA 的启示
    Figure发布Helix 02,展示全自主人形机器人从模糊指令到完成任务的全过程,采用三层神经网络架构实现从像素输入到物理动作输出的控制。S2处理指令与环境理解,S1负责视觉运动策略,S0执行全身控制,共同实现自主操作。此架构与自动驾驶中的VLA类似,有望推动人形机器人商业化。
    人形机器人的“端到端”时刻:Figure Helix 02 架构对自动驾驶 VLA 的启示
  • 轻舟的VLA与世界模型架构解读
    理想汽车推出搭载128 TOPs J6M和激光雷达的AD Pro,支持城区NOA的OTA,并由轻舟智航提供算法技术支持。轻舟展示了其融合VLA与World Model的下一代自动驾驶模型架构,该架构通过端到端的方式整合感知、理解和决策模块,实现了更智能的驾驶体验。
    809
    01/26 11:00
    轻舟的VLA与世界模型架构解读
  • VLA和世界模型在自动驾驶中可以融合吗?
    随着VLA(视觉-语言-动作模型)与世界模型在自动驾驶领域的关注度提升,这两项技术成为主机厂研发布局的重点。VLA通过统一模型框架整合感知、推理和动作生成,而世界模型则在系统内部构建动态模拟与未来预测能力。尽管两者侧重点不同,但融合可以提升自动驾驶系统的整体性能,增强环境理解和预测能力。然而,融合面临训练资源需求高、模型结构复杂和实时性挑战等问题。总体而言,融合VLA与世界模型有助于自动驾驶系统迈向更高可靠性和智能化水平。
    VLA和世界模型在自动驾驶中可以融合吗?
  • VLA模型是基于预置规则来指导行动吗?
    视觉-语言-动作(VLA)模型通过大量示例学习,整合视觉、语言和动作任务,无需预设规则,而是基于统计关联进行预测。其视觉模块使用视觉编码器学习抽象特征,语言模块将指令转化为语义向量,两者融合后传递至动作解码器生成动作命令。这种端到端学习方式赋予模型更强的泛化能力和适应性,使其在复杂任务中表现出类似人类的操作能力。
    VLA模型是基于预置规则来指导行动吗?
  • 长城首个VLA车型发布,魏建军回应「赌上姓氏造车」
    魏建军发布2026款蓝山,号称搭载全新VLA系统,试图引领智能化竞争。然而,由于市场竞争激烈,该车型半年内两次换代,导致车主二手车价值大幅下降。魏建军透露,此举是为了回应竞争对手的快速迭代和技术进步。尽管VLA系统带来了显著的用户体验提升,但未能解决后续升级的问题,使得老车主难以享受最新技术。此外,魏建军批评了行业内卷的价格战和资本的影响,呼吁行业回归理性发展。
    长城首个VLA车型发布,魏建军回应「赌上姓氏造车」
  • VLA与世界模型有什么不同?
    自动驾驶行业目前主要分为视觉—语言—动作模型(VLA)和世界模型两大技术路径。VLA通过视觉感知、语言理解和动作输出一体化,实现“看、想、做”的能力,适用于复杂语义场景和人机交互。世界模型则通过构建内部虚拟世界,进行预测和仿真,提高对动态场景的理解和应对能力。两者各有优劣,VLA擅长语义理解与可解释性,而世界模型在预测和仿真方面更具优势。综合运用两者的优点,有望推动自动驾驶技术更加成熟和安全。
    VLA与世界模型有什么不同?
  • 英伟达首次开源自动驾驶VLA,Robotaxi进入「安卓时刻」,吴新宙带队全华班出品
    英伟达发布首个自动驾驶VLA Alpamayo-R1,性能超越传统端到端30%,开源助力自动驾驶门槛降低。Alpamayo-R1采用视觉-语言-动作模型,通过因果链数据集和多阶段训练策略,显著提升了自动驾驶在复杂场景下的表现。此模型不仅适用于Robotaxi,还能促进更多传统出行平台进入自动驾驶领域,推动行业竞争格局变化。
    英伟达首次开源自动驾驶VLA,Robotaxi进入「安卓时刻」,吴新宙带队全华班出品
  • VLA能解决自动驾驶中的哪些问题?
    VLA(Visual-Language-Action)模型通过整合视觉、语言和动作控制,缩短自动驾驶系统中的感知与行动延迟,增强对复杂场景的理解与泛化能力。该模型利用大规模语言模型的语义抽象和常识推理,提升对稀有场景的理解,适用于学校区域、施工路段等复杂交互场景。VLA不仅能解析自然语言指令,还能通过行为克隆和强化学习训练策略网络,实现高效的端到端学习。然而,VLA面临数据标注成本高、潜在的语义偏差等问题,需通过仿真技术和分阶段训练加以克服。此外,VLA应与传统安全监控模块协同工作,确保自动驾驶系统的安全性与可解释性。
    VLA能解决自动驾驶中的哪些问题?
  • 吴新宙带领英伟达冲刺自动驾驶L4背后的VLA大模型算法
    2023年8月,吴新宙算是在中国L2+智能辅助驾驶竞争顶峰--辅助驾驶进城之后离开小鹏汽车加入英伟达。2024年1月,特斯拉推出FSD V12 Beta端到端版本,智能辅助驾驶算法进入“端到端”阶段。随即中国代表了全球辅助驾驶市场全面拥抱了端到端。
    吴新宙带领英伟达冲刺自动驾驶L4背后的VLA大模型算法
  • 训练一个人类VLA模型需要5步
    本文介绍了从无证新手到老司机的过程,即人类驾驶VLA(Vision-Language-Action)模型不断升级的过程。首先,Vision-Language基座模型通过对交通环境的感知和理解进行训练,其次是Vision-Language基座模型Pro版,进一步理解和掌握交通规则。接着,Vision-Language-Action模型具备基础的汽车操控能力,并在实践中不断提升。最后,Vision-Language-Action模型Pro版和蒸馏版分别代表高级驾驶能力和肌肉记忆水平。
    1579
    2025/11/13
    VLA
  • 对话何小鹏:在物理AI时代,数据是新的石油
    小鹏汽车在第七届科技日上展示了其智能汽车、机器人、Robotaxi与飞行汽车四大业务方向的发展成果,特别是推出了第二代VLA大模型,标志着公司在物理AI领域的重大突破。何小鹏表示,尽管仍面临量产挑战,但公司有信心通过硬件和工程化能力的投入,形成软硬件协同演进的闭环。此外,小鹏还将部分核心技术开源,助力物理AI的进一步发展。
    对话何小鹏:在物理AI时代,数据是新的石油
  • ICCV涌现自动驾驶新范式:统一世界模型VLA,用训练闭环迈向L4
    理想汽车在ICCV 2025上展示了其从数据闭环迈向训练闭环的策略,强调了世界模型的重要性及其在自动驾驶领域的应用。通过构建云端世界模型,理想实现了训练闭环,增强了车端VLA模型的性能。此外,理想还开源了自己的星环OS,促进了汽车行业的发展。
    1166
    2025/11/10
    ICCV涌现自动驾驶新范式:统一世界模型VLA,用训练闭环迈向L4
  • VLA和世界模型,谁才是自动驾驶的最优解?
    自动驾驶技术的发展呈现两种主要路径:VLA(视觉—语言—行动)模型和世界模型。VLA通过视觉感知、语言理解和动作生成串联起来,利用语言模型进行高级推理,适用于复杂场景的理解和决策,但面临物理精度和安全约束的挑战。世界模型则强调空间认知与物理推演,通过仿真环境训练模型,具有出色可控性和物理一致性,但仿真与现实的差距难以完全消除,且对高精度传感器依赖较大。两者各有优劣,未来有望深度融合,共同推动自动驾驶技术的进步。
    VLA和世界模型,谁才是自动驾驶的最优解?
  • 特斯拉最新技术分享,FSD核心架构曝光了
    特斯拉在ICCV上曝光了FSD的核心架构,其中涉及VLA技术,引发行业热议。特斯拉FSD已步入大模型阶段,参数规模不断扩大。特斯拉FSD最近更新了V14.1.3版本,增强了安全性、个性化体验,并重启了激进模式。
    特斯拉最新技术分享,FSD核心架构曝光了
  • 自动驾驶上常提的VLA与世界模型有什么区别?
    VLA通过视觉、语言和动作的结合,实现从感知到决策再到动作的闭环,具有解释性和语义理解的优势;世界模型则侧重于动力学预测和未来状态模拟,适用于安全验证和策略评估。两者各有优劣,在自动驾驶领域应综合运用,确保系统的功能性和安全性。
    自动驾驶上常提的VLA与世界模型有什么区别?
  • 自动驾驶中提到的WEWA架构是个啥?
    01、什么是WEWA? WEWA全称可以理解为“World Engine+World Action”。它把实现自动驾驶的思路拆成两层,一层在云端,负责“造世界、训练模型、把难题推演透”;另一层在车端,负责“看世界、理解世界、直接下决定并把车开出去”。云端是大脑的训练工厂,车端是实时决策与执行的现场指挥。这样做有一个好处,那就是可以把稀有但危急的边缘场景用数据和模型在云端“补齐”,把实力更强的行为模
  • 分析丨智驾两大核心路线“贴脸开大”,车企如何“二选一”?
    智能驾驶技术路线之争揭开序幕,主要围绕VLA和WA两种方案展开。VLA通过视觉-语言-动作中间层实现可解释性和长时序推理,适合中小车企低成本快速迭代;WA构建数字孪生世界,强调理解和模拟现实,更适合大型企业长期投资。理想、小鹏等公司利用VLA实现快速落地,而华为和蔚来则押注WA,试图建立技术壁垒。2025年将成为智驾路线的关键转折点,VLA进入量产阶段,WA开始初步应用,行业竞争加剧,中小车企面临巨大压力。
    分析丨智驾两大核心路线“贴脸开大”,车企如何“二选一”?

正在努力加载...