VLA_VLA资讯 - 与非网

端到端、世界模型与VLA三者到底是什么关系？

2026年上半年，自动驾驶行业技术迭代加速，主要聚焦于端到端、VLA和世界模型三大技术路线。端到端简化了传统模块化设计，但缺乏深层理解；VLA通过加入语言模型增强理解能力，但存在推理延迟和模型不适配问题；世界模型则通过模拟物理世界预测未来，提高决策主动性。随着技术融合加深，行业正朝着让AI理解物理世界的趋势发展，预计下半年的竞争将集中在技术融合的深度和速度上。

智驾最前沿

590

07/07 10:29

自动驾驶端到端

专访大晓李鸿升：一脑多型背后，ACE-Ego打开具身规模化训练新路径

大晓机器人发布的ACE-Ego是一款全新的具身操作VLA模型，通过联合预训练大规模第一视角人类视频与多机型机器人数据，显著提升了模型的环境鲁棒性和泛化能力。ACE-Ego在多个复杂零售操作任务中表现出色，并实现了高效迁移至不同机器人平台。此外，ACE-Ego的开源计划降低了行业门槛，促进了具身智能技术的普及和创新。

脑极体

452

07/05 15:22

具身智能 VLA

全新人形29.9万起！西安交大博士团队创立企业拿下4000台意向订单！

合肥优艾智合机器人股份有限公司在上海发布工业具身智能大模型“智合”及工业原生人形机器人“隙锋”，启动FabriX生态伙伴计划，提出三年内赋能10000个工业现场的目标。隙锋机器人标准型售价29.9万元，进取型49.9万元，首批4000台意向订单已完成签约。公司团队由西交大博士、米其林投资CTO和大疆高管组成，具有强大的理论和技术实力。FabriX大模型采用边端侧双重架构，通过先验蒸馏和双回路逻辑校验，平衡AI灵活性与工业确定性。隙锋机器人通过50条数据采集训练可达到90%成功率，未来需进一步优化至工业级要求。优艾智合的“一脑多态”架构旨在提升集群协作效率，但需解决标准化与定制化的平衡问题。公司凭借实际项目经验和客户积累，有望在未来竞争中保持领先地位。

人形大讲堂

657

07/03 14:28

大模型人形机器人

世界模型还是VLA，选错技术路线就会被淘汰吗？

自动驾驶行业在2026年迎来技术路线的关键抉择，主要围绕VLA（视觉-语言-动作模型）与世界模型展开激烈讨论。VLA强调通过语言模型理解场景并作出决策，而世界模型则侧重于物理世界的预测和推演。尽管目前尚未出现绝对优势路线，多家企业如华为、Waymo、理想、小鹏等都在积极探索融合这两种技术的方法，以适应未来的高阶自动驾驶需求。

智驾最前沿

675

06/30 09:55

自动驾驶 VLA

具身智能与机器人学习资源全景图：从SLAM到大模型再到VLA/VLN的技术演进

具身智能技术栈从深度学习与强化学习出发，依次涵盖SLAM、大语言模型（LLM）、视觉语言动作模型（VLA/VLN），最终实现端到端的机器人控制。这一技术栈遵循“感知定位、语义理解、决策行动”的逻辑递进关系，每层技术相互支撑，共同构成完整的具身智能系统。

敢敢AUTOHUB

1547

06/28 08:25

具身智能智能机器人

城市NOA提出这么久，发展到什么程度了？

城市NOA技术近年来迅速发展，已成为各大车企竞争焦点。尽管多数车型宣称标配此功能，但其实际成熟度和性能差异仍待考察。随着端到端架构的普及，VLA和世界模型成为新的技术方向，分别强调快速决策和预判能力。安全性也是重点，轻舟智航和理想提出的方案通过安全端到端机制增强安全性。然而，尽管部分高端车型表现出色，但在复杂路况下的表现仍有待提高。总体而言，城市NOA技术虽取得进展，但仍面临诸多挑战，还需进一步完善。

智驾最前沿

1052

06/18 10:58

NOA VLA

70分钟深度对话黄铁军：AI已有类意识行为，未来人与AI将理性共存

智源研究院理事长黄铁军在2026智源大会上表示，智源追求的是通用具身智能，即机器人能在任何场景下自主应对，而非单纯解决特定场景问题。他认为未来两三年内，机器人有望在日常工作中达到人类水平，但需突破物理常识理解和能耗控制的难点。此外，黄铁军指出未来数据采集将从离线走向实时在线，穿戴传感和脑机数据将成为训练世界模型、具身智能的核心数据来源。在AI意识与安全方面，他认为AI已表现出类似有意识的反馈，但自进化风险仍需谨慎对待。

智东西

522

06/15 23:41

AI 具身智能

小米人形机器人上台自拍，然后呢？

6月8日，小米在北京举办17T系列新品发布会。常规发布环节结束后，现场放出意外彩蛋，一个身着深灰面料的人形机器人身影缓缓登台，单手稳稳握住刚发布的小米17T Pro，完成角度调整、按音量键变焦并点击快门拍照，主讲人评价实拍效果“非常不错”，引发全场掌声。

人形大讲堂

1379

06/10 12:20

人形机器人 VLA

视觉语言动作模型（VLA）为何能让自动驾驶理解世界?

自动驾驶技术的进步离不开视觉语言动作模型（VLA）的应用。传统系统依赖单一模块处理感知、决策和执行，容易造成信息丢失和误判。VLA通过统一神经网络连接视觉和知识库，使自动驾驶系统能够理解和应对复杂场景，提高决策透明度和可解释性。尽管面临实时性和计算效率的挑战，VLA有望推动自动驾驶进入新阶段，同时其潜在的应用价值远超汽车领域，助力通用人工智能时代的到来。

智驾最前沿

719

06/08 10:18

自动驾驶 VLA

具身智能 | LingBot-VLA：从开源基座到真机后训练，如何用少量数据教会机器人做复杂操作

LingBot-VLA 是一款开源的 Vision-Language-Action 基座模型，具有大规模真机预训练、跨机器人本体适配、LeRobot 数据生态等特点。它使用超过 2 万小时的真实机器人操作数据进行预训练，覆盖多种双臂机器人构型，并在 GM-100 真机基准和 RoboTwin 2.0 仿真任务中展示了其性能。文章详细介绍了如何准备环境、采集数据、编写 Robot Config、进行归一化、微调模型、评估模型，并最终将策略接入真机的过程。此外，还提供了具体的步骤和注意事项，帮助开发者更好地理解和利用这一模型。

敢敢AUTOHUB

1900

06/04 14:16

具身智能 VLA

具身智能 | LingBot-VLA：从开源基座到真机后训练，如何用少量数据教会机器人做复杂操作

从VLA到WAM、VAM与UAM：机器人基础模型如何从“看见就做”走向“预测世界再行动”

本文综述了机器人基础模型的发展历程，特别是从视觉语言到动作（VLA）、动作预测（WAM）、统一动作模型（UAM）以及强化学习后训练（RL）等多个方向的进展。文章详细介绍了VLA、WAM、UAM和RL各自的特点及其应用场景，指出VLA解决了机器人基础模型的统一接口问题，而WAM和VAM分别回应了VLA的物理预见短板和语义控制分工问题。此外，文章还强调了RL后训练和自进化闭环对于长期提升机器人能力的重要性。最终，文章总结了机器人基础模型正在从“看见就做”的行为克隆系统，走向“理解语义、预测世界、评估风险、选择动作、复盘失败并持续进化”的物理智能系统的趋势。

敢敢AUTOHUB

3199

06/03 14:24

具身智能 VLA

从VLA到WAM、VAM与UAM：机器人基础模型如何从“看见就做”走向“预测世界再行动”

VLA与世界模型哪个更适合自动驾驶？为什么车企会有不同选择？

自动驾驶技术中，世界模型与VLA各有侧重：世界模型注重环境逻辑预测，VLA强调决策逻辑推理。两者在实际应用中逐渐融合，共同推动自动驾驶系统的智能化水平。

智驾最前沿

791

06/03 13:18

自动驾驶 VLA

具身智能 | JEPA-VLA：视频预测嵌入如何革新机器人视觉-语言-动作模型

清华大学与华为诺亚方舟实验室联合发表的论文“JEPA-VLA”指出，当前视觉-语言-动作（VLA）模型在样本效率和泛化能力上存在局限，主要原因是传统视觉表征未能充分捕捉任务相关的关键信息和动态规律。研究提出V-JEPA 2方法，通过预测视频中被遮挡部分的潜在表示，提升了模型对任务相关信息的选择性编码能力和时序建模能力。JEPA-VLA方法将V-JEPA 2的预测性视觉表征融入现有VLA模型，通过前融合和门控融合策略，提高了环境理解和动作预测的准确性。该研究为机器人操作任务提供了更为有效的视觉表征解决方案。

敢敢AUTOHUB

978

05/23 09:55

具身智能 VLA

十分钟读论文 | ReconVLA: 重建式视觉-语言-动作模型——让机器人真正“看准“目标

ReconVLA是一种新型的视觉-语言-动作（Vision-Language-Action，VLA）模型，旨在解决现有模型在视觉注意力分配上的问题。该模型通过引入重建式隐式视觉定位范式，提升了模型的视觉感知能力，并且能够在复杂的场景中精准定位目标物体。 ReconVLA的核心架构包括视觉重建分支和动作预测分支。视觉重建分支通过重建目标物体的图像，迫使模型集中注意力在目标区域；动作预测分支则负责生成机器人的连续动作。两者协同优化，确保模型既能够精准感知目标，又能够准确输出动作。 ReconVLA还采用了大规模预训练数据集，通过微调和自动化标注流程，提高了模型的泛化能力和视觉重建能力。预训练数据集涵盖了多种机器人操作场景和物体类型，有助于模型更好地理解和适应不同的任务。总的来说，ReconVLA通过创新的架构和技术手段，显著提升了VLA模型的视觉感知能力，为通用机器人智能的发展奠定了坚实的基础。

敢敢AUTOHUB

739

05/20 11:31

VLA

哪些企业的自动驾驶方案使用了世界模型，用法有啥区别？

自动驾驶行业正转向让AI理解物理世界运行规律的方向，称为“世界模型”。特斯拉、华为、蔚来等多家公司展示了各自的方案，涉及端到端AI、云计算与车端推理的不同策略。世界模型旨在解决传统自动驾驶系统中信息传递损耗的问题，通过内部推演未来场景，增强决策能力。尽管路线各异，业界普遍认同让AI掌握物理常识和因果推理是迈向高级自动驾驶的关键步骤。

智驾最前沿

1383

05/20 11:02

自动驾驶 VLA

VLA已死，WAM当立：机器人的GPT时刻到了吗？

就在刚刚过去的4月底，红杉资本举办的AI Ascent 2026大会上，英伟达机器人方向负责人Jim Fan抛出了一个极具争议的论断：“视觉语言模型VLA已死，世界动作模型WAM当立。”他还预测，未来一到两年内，机器人学习的主要数据来源将从昂贵的人类遥控操作，转变为互联网上随手可得的第一视角人类视频。

脑极体

926

05/20 10:20

VLA

十分钟读论文 | StarVLA：视觉-语言-动作模型开发的统一框架

StarVLA框架为视觉-语言-动作模型（VLA）研究提供了一个统一的开发标准，解决当前VLA系统的碎片化问题。该框架采用模块化解耦架构，允许研究者自由组合不同的“大脑”和“小脑”，支持多种动作解码范式。StarVLA还具备跨具身与多模态联合训练的功能，通过统一的评估标准和接口，促进模型的横向对比和评估。此外，StarVLA提供了从数据处理到部署的完整流程，支持模型的训练、推理和真实机器人部署。

敢敢AUTOHUB

1184

05/18 15:18

VLA

VLA是怎么让自动驾驶有驾驶逻辑的？

自动驾驶面临复杂场景处理难题，VLA模型通过引入大语言模型的理解能力，打破感知与控制壁垒，实现视觉、语言与动作的实时互动，增强对罕见特例场景的处理能力和人机交互透明度，但仍需克服计算效率、安全性及数据质量等挑战。

智驾最前沿

626

05/18 14:13

自动驾驶 VLA

具身智能TL常用算法面经：基础认知与 VLA 框架(一)

具身智能涉及机器人身体、传感器和执行器在真实或仿真环境中闭环行动，区别于传统CV/NLP和机器人控制。VLA（Vision-Language-Action）是一种条件动作生成系统，通过视觉、语言和机器人状态生成机器人动作。Transformer、ViT等模型在VLA中用于构建多模态序列关系。评估VLA模型时，不仅要看离线指标，还需关注真实任务成功率、泛化和安全指标。

敢敢AUTOHUB

1667

05/11 11:23

具身智能算法

2026年，各车企的自动驾驶方案到了什么阶段（一）？

2026年北京车展上，各大车企聚焦于自动驾驶系统对物理世界的理解能力，而非单纯硬件堆砌。小鹏汽车推出了第二代VLA技术，实现了从规则驱动到AI推理的转变，显著提高了推理效率和响应速度。华为则押注WA（世界行为模型），通过多智能体博弈和在线强化学习提升训练效果，同时强调激光雷达和高精度地图的重要性。特斯拉坚持纯视觉方案，通过重写AI架构大幅提高反应速度，利用大量真实驾驶数据不断优化AI性能。

智驾最前沿

1774

05/06 09:35

自动驾驶 VLA