VLA

加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

VLA,vision language action。VLA模型是在 VLM 基础上利用机器人或者汽车运动轨迹数据,进一步训练现有的 VLM,以输出可用于机器人或者汽车控制的文本编码动作。

VLA,vision language action。VLA模型是在 VLM 基础上利用机器人或者汽车运动轨迹数据,进一步训练现有的 VLM,以输出可用于机器人或者汽车控制的文本编码动作。收起

查看更多
  • 具身智能 | JEPA-VLA:视频预测嵌入如何革新机器人视觉-语言-动作模型
    清华大学与华为诺亚方舟实验室联合发表的论文“JEPA-VLA”指出,当前视觉-语言-动作(VLA)模型在样本效率和泛化能力上存在局限,主要原因是传统视觉表征未能充分捕捉任务相关的关键信息和动态规律。研究提出V-JEPA 2方法,通过预测视频中被遮挡部分的潜在表示,提升了模型对任务相关信息的选择性编码能力和时序建模能力。JEPA-VLA方法将V-JEPA 2的预测性视觉表征融入现有VLA模型,通过前融合和门控融合策略,提高了环境理解和动作预测的准确性。该研究为机器人操作任务提供了更为有效的视觉表征解决方案。
    具身智能 | JEPA-VLA:视频预测嵌入如何革新机器人视觉-语言-动作模型
  • 十分钟读论文 | ReconVLA: 重建式视觉-语言-动作模型——让机器人真正“看准“目标
    ReconVLA是一种新型的视觉-语言-动作(Vision-Language-Action,VLA)模型,旨在解决现有模型在视觉注意力分配上的问题。该模型通过引入重建式隐式视觉定位范式,提升了模型的视觉感知能力,并且能够在复杂的场景中精准定位目标物体。 ReconVLA的核心架构包括视觉重建分支和动作预测分支。视觉重建分支通过重建目标物体的图像,迫使模型集中注意力在目标区域;动作预测分支则负责生成机器人的连续动作。两者协同优化,确保模型既能够精准感知目标,又能够准确输出动作。 ReconVLA还采用了大规模预训练数据集,通过微调和自动化标注流程,提高了模型的泛化能力和视觉重建能力。预训练数据集涵盖了多种机器人操作场景和物体类型,有助于模型更好地理解和适应不同的任务。 总的来说,ReconVLA通过创新的架构和技术手段,显著提升了VLA模型的视觉感知能力,为通用机器人智能的发展奠定了坚实的基础。
    416
    05/20 11:31
    VLA
  • 哪些企业的自动驾驶方案使用了世界模型,用法有啥区别?
    自动驾驶行业正转向让AI理解物理世界运行规律的方向,称为“世界模型”。特斯拉、华为、蔚来等多家公司展示了各自的方案,涉及端到端AI、云计算与车端推理的不同策略。世界模型旨在解决传统自动驾驶系统中信息传递损耗的问题,通过内部推演未来场景,增强决策能力。尽管路线各异,业界普遍认同让AI掌握物理常识和因果推理是迈向高级自动驾驶的关键步骤。
    哪些企业的自动驾驶方案使用了世界模型,用法有啥区别?
  • VLA已死,WAM当立:机器人的GPT时刻到了吗?
    就在刚刚过去的4月底,红杉资本举办的AI Ascent 2026大会上,英伟达机器人方向负责人Jim Fan抛出了一个极具争议的论断:“视觉语言模型VLA已死,世界动作模型WAM当立。”他还预测,未来一到两年内,机器人学习的主要数据来源将从昂贵的人类遥控操作,转变为互联网上随手可得的第一视角人类视频。
    610
    05/20 10:20
    VLA
    VLA已死,WAM当立:机器人的GPT时刻到了吗?
  • 十分钟读论文 | StarVLA:视觉-语言-动作模型开发的统一框架
    StarVLA框架为视觉-语言-动作模型(VLA)研究提供了一个统一的开发标准,解决当前VLA系统的碎片化问题。该框架采用模块化解耦架构,允许研究者自由组合不同的“大脑”和“小脑”,支持多种动作解码范式。StarVLA还具备跨具身与多模态联合训练的功能,通过统一的评估标准和接口,促进模型的横向对比和评估。此外,StarVLA提供了从数据处理到部署的完整流程,支持模型的训练、推理和真实机器人部署。
    541
    05/18 15:18
    VLA
    十分钟读论文 | StarVLA:视觉-语言-动作模型开发的统一框架
  • VLA是怎么让自动驾驶有驾驶逻辑的?
    自动驾驶面临复杂场景处理难题,VLA模型通过引入大语言模型的理解能力,打破感知与控制壁垒,实现视觉、语言与动作的实时互动,增强对罕见特例场景的处理能力和人机交互透明度,但仍需克服计算效率、安全性及数据质量等挑战。
  • 具身智能TL常用算法面经:基础认知与 VLA 框架(一)
    具身智能涉及机器人身体、传感器和执行器在真实或仿真环境中闭环行动,区别于传统CV/NLP和机器人控制。VLA(Vision-Language-Action)是一种条件动作生成系统,通过视觉、语言和机器人状态生成机器人动作。Transformer、ViT等模型在VLA中用于构建多模态序列关系。评估VLA模型时,不仅要看离线指标,还需关注真实任务成功率、泛化和安全指标。
    具身智能TL常用算法面经:基础认知与 VLA 框架(一)
  • 2026年,各车企的自动驾驶方案到了什么阶段(一)?
    2026年北京车展上,各大车企聚焦于自动驾驶系统对物理世界的理解能力,而非单纯硬件堆砌。小鹏汽车推出了第二代VLA技术,实现了从规则驱动到AI推理的转变,显著提高了推理效率和响应速度。华为则押注WA(世界行为模型),通过多智能体博弈和在线强化学习提升训练效果,同时强调激光雷达和高精度地图的重要性。特斯拉坚持纯视觉方案,通过重写AI架构大幅提高反应速度,利用大量真实驾驶数据不断优化AI性能。
    2026年,各车企的自动驾驶方案到了什么阶段(一)?
  • 北京车展直击|物理AI引爆新一轮算力革命,汽车业进入“最强大脑”竞赛
    2026年北京车展上,AI成为最醒目关键词,车企转向AI转型。VLA与世界模型之争凸显,物理AI成为智驾技术核心。理想、小鹏、华为、Momenta等企业分别推出不同技术路线,争夺智驾市场。物理AI对算力需求激增,推动芯片升级。舱驾一体化成为趋势,地平线等企业推出融合芯片。存储压力显现,大模型上车带来挑战。中国车企凭借数据闭环优势,加速物理AI普及。尽管面临可解释性、算力投入与合规等问题,物理AI仍被视为未来智驾发展的关键方向。
    北京车展直击|物理AI引爆新一轮算力革命,汽车业进入“最强大脑”竞赛
  • A2000家族亮相:一颗为VLA和世界模型而生的芯片
    黑芝麻智能推出的华山 A2000 芯片,是一款专为下一代智驾范式设计的高性能车规级芯片。其架构定义于 2021 年,支持大模型直接处理从感知到动作的全流程,具有九韶 NPU 和近存计算架构,确保实际效能最大化。A2000 提供了开放平台、独特架构和成熟工具链,旨在成为车企信赖的长期合作伙伴。尽管面临激烈的市场竞争,A2000 在高端智驾芯片市场展现出强劲竞争力,尤其是在大模型端侧部署方面。
  • 刚刚,又一家百亿估值独角兽宣布完成股改
    智平方(深圳)科技股份有限公司已完成股份制改造并更名为智平方(深圳)科技股份有限公司,标志着该公司迈向二级市场的关键一步。作为一家成立于2023年的AGI原生通用智能机器人企业,智平方凭借其端到端VLA技术路线和具身大模型GOVLA,获得了资本市场的高度认可,并迅速实现了商业化突破。公司已进入多个行业场景,且自有产线已具备年产千台能力。截至2026年2月,智平方宣布完成B轮系列融资,规模超10亿元人民币,公司估值突破百亿,成为深圳2026年首个新晋百亿估值具身智能独角兽。
    刚刚,又一家百亿估值独角兽宣布完成股改
  • 独家丨长城汽车智驾自研加速前进,今年上车,预计采用VLA方案
    长城汽车计划今年推出自研智驾方案,并预计采用VLA方案。尽管目前主要依赖于与方案商的合作,但长城一直在寻求自主研发的道路。随着与蔚来、小鹏等新势力厂商在同一时间窗口内实现自研VLA上车,长城的自研实力有望重返第一阵营。此外,长城汽车已经建立了九州超算中心,为大模型产品研发提供算力支持,并在美国硅谷筹备建立自动驾驶研发中心,以吸引顶尖技术人才。
    468
    04/03 10:04
    独家丨长城汽车智驾自研加速前进,今年上车,预计采用VLA方案
  • 英伟达 Alpamayo:基于推理的自动驾驶大模型设计与量产部署全解析
    英伟达在GTC 2026上介绍了其开源的Alpamayo VLA模型,这是一个100亿参数的端到端、基于推理的视觉语言动作模型。Alpamayo通过多阶段训练流程,包括通用推理、轨迹预训练、监督微调和强化学习,提升了模型的推理能力和准确性。此外,Alpamayo还解决了具身不一致和前沿探索等问题。在量产部署方面,英伟达提出了多任务产品功能和模式专家架构,以及生产级别的数据流水线和实时部署技术,确保模型能够在真实车辆环境中高效运行。最新发布的Alpamayo 1.5模型增加了导航和语言对话控制辅助驾驶等功能,进一步提升了其灵活性和可控性。
    1321
    03/27 10:00
    英伟达 Alpamayo:基于推理的自动驾驶大模型设计与量产部署全解析
  • 理想MindVLA-o1让自动驾驶更像人?
    理想汽车发布MindVLA-o1,其核心逻辑是通过统一的视觉-语言-动作模型,模拟人类司机的驾驶逻辑,实现从“看见路”、“理解路”到“推演下一秒”的转变。MindVLA-o1不仅提升了三维空间理解和多模态思考能力,还在动作生成上进行了优化,使其更加平稳和可控。此外,MindVLA-o1采用了闭环强化学习和软硬件协同设计,确保模型能够适应实际驾驶场景。
    理想MindVLA-o1让自动驾驶更像人?
  • 理想亮牌:VLA,是物理AI时代的入场券
    理想在GTC大会发布了下一代自动驾驶架构MindVLA-o1,旨在加速物理AI的发展,特别是自动驾驶领域。MindVLA-o1解决了VLA架构的主要问题,如3D空间、语言思考和行为对齐效率不足、长尾场景处理困难和高计算成本。该架构不仅提升了自动驾驶性能,还展示了其在机器人领域的潜力。理想希望通过这一架构推动物理AI的全面进步,最终实现“硅基人”的愿景。
  • 理想汽车下一代基座模型Mind VLA-o1的架构和算法应用解析
    理想汽车在GTC 2026大会上发布了下一代自动驾驶基座模型Mind VLA-o1,强调VLA架构将成为其发展主线。Mind VLA-o1采用原生多模态Transformer设计,解决了感知、语言与动作对齐延迟、计算效率和长尾场景数据扩展等问题。该模型通过闭环强化学习和软硬件协同优化,旨在提高自动驾驶的实时性和智能化水平。
    894
    03/23 10:58
    理想汽车下一代基座模型Mind VLA-o1的架构和算法应用解析
  • 元戎启行的40B VLA自动驾驶基座模型和方法论
    元戎作为中国辅助驾驶/自动驾驶算法供应商的后起之秀,在这两年来量产车辆大幅度上升,拥有长城、吉利、甚至传言拿下了新势力零跑的业务。而且元戎也是比较早喊“VLA”甚至量产"VLA"的供应商。
    2059
    03/23 09:31
    元戎启行的40B VLA自动驾驶基座模型和方法论
  • 小鹏和理想均押注VLA,两者技术各有啥特色?
    随着高级辅助驾驶功能的发展,VLA(视觉-语言-动作)模型成为推动NOA技术的关键。理想汽车的MindVLA-o1采用体系化设计,强调物理一致性和预测式隐世界模型,注重模型结构和工程闭环;小鹏的第二代VLA则更偏产品化,利用连续视频流和分层产品策略,追求驾驶自然和安全。两者各有侧重,理想聚焦于物理模型和模拟器,小鹏则着重于高效算力和模型架构。
    小鹏和理想均押注VLA,两者技术各有啥特色?
  • Mobileye 2026产品战略以及最新VLA算法芯片解读
    Mobileye在2025年表现出色,营收逆势增长15%,达18.94亿美元,调整后营业利润增长45%。其Surround ADAS产品取得突破,预计2026年迎来强劲增长。同时,Mobileye收购Mentee Robotics,正式进军人形机器人领域,推动“物理人工智能”发展。
    1193
    03/16 10:04
    Mobileye 2026产品战略以及最新VLA算法芯片解读
  • 小鹏第二代VLA,唯一敢跟特斯拉叫板的中国智驾
    小鹏发布第二代VLA,采用全新物理AI技术,打破传统智驾局限,目标直接瞄准L4级别自动驾驶。该系统覆盖多种场景,性能超越现有L2水平,并获得资本和行业的高度认可。小鹏通过自研技术和大规模数据训练,构建了强大的物理世界大模型,提升了感知精度和决策速度。此外,小鹏计划在未来两年内进一步整合VLM大模型,使汽车成为“超级智能体”,推动自动驾驶进入实用阶段。

正在努力加载...