VLA

加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

VLA,vision language action。VLA模型是在 VLM 基础上利用机器人或者汽车运动轨迹数据,进一步训练现有的 VLM,以输出可用于机器人或者汽车控制的文本编码动作。

VLA,vision language action。VLA模型是在 VLM 基础上利用机器人或者汽车运动轨迹数据,进一步训练现有的 VLM,以输出可用于机器人或者汽车控制的文本编码动作。收起

查看更多
  • 具身智能 | JEPA-VLA:视频预测嵌入如何革新机器人视觉-语言-动作模型
    清华大学与华为诺亚方舟实验室联合发表的论文“JEPA-VLA”指出,当前视觉-语言-动作(VLA)模型在样本效率和泛化能力上存在局限,主要原因是传统视觉表征未能充分捕捉任务相关的关键信息和动态规律。研究提出V-JEPA 2方法,通过预测视频中被遮挡部分的潜在表示,提升了模型对任务相关信息的选择性编码能力和时序建模能力。JEPA-VLA方法将V-JEPA 2的预测性视觉表征融入现有VLA模型,通过前融合和门控融合策略,提高了环境理解和动作预测的准确性。该研究为机器人操作任务提供了更为有效的视觉表征解决方案。
    具身智能 | JEPA-VLA:视频预测嵌入如何革新机器人视觉-语言-动作模型
  • 十分钟读论文 | ReconVLA: 重建式视觉-语言-动作模型——让机器人真正“看准“目标
    ReconVLA是一种新型的视觉-语言-动作(Vision-Language-Action,VLA)模型,旨在解决现有模型在视觉注意力分配上的问题。该模型通过引入重建式隐式视觉定位范式,提升了模型的视觉感知能力,并且能够在复杂的场景中精准定位目标物体。 ReconVLA的核心架构包括视觉重建分支和动作预测分支。视觉重建分支通过重建目标物体的图像,迫使模型集中注意力在目标区域;动作预测分支则负责生成机器人的连续动作。两者协同优化,确保模型既能够精准感知目标,又能够准确输出动作。 ReconVLA还采用了大规模预训练数据集,通过微调和自动化标注流程,提高了模型的泛化能力和视觉重建能力。预训练数据集涵盖了多种机器人操作场景和物体类型,有助于模型更好地理解和适应不同的任务。 总的来说,ReconVLA通过创新的架构和技术手段,显著提升了VLA模型的视觉感知能力,为通用机器人智能的发展奠定了坚实的基础。
    417
    05/20 11:31
    VLA
  • 哪些企业的自动驾驶方案使用了世界模型,用法有啥区别?
    自动驾驶行业正转向让AI理解物理世界运行规律的方向,称为“世界模型”。特斯拉、华为、蔚来等多家公司展示了各自的方案,涉及端到端AI、云计算与车端推理的不同策略。世界模型旨在解决传统自动驾驶系统中信息传递损耗的问题,通过内部推演未来场景,增强决策能力。尽管路线各异,业界普遍认同让AI掌握物理常识和因果推理是迈向高级自动驾驶的关键步骤。
    哪些企业的自动驾驶方案使用了世界模型,用法有啥区别?
  • VLA已死,WAM当立:机器人的GPT时刻到了吗?
    就在刚刚过去的4月底,红杉资本举办的AI Ascent 2026大会上,英伟达机器人方向负责人Jim Fan抛出了一个极具争议的论断:“视觉语言模型VLA已死,世界动作模型WAM当立。”他还预测,未来一到两年内,机器人学习的主要数据来源将从昂贵的人类遥控操作,转变为互联网上随手可得的第一视角人类视频。
    590
    05/20 10:20
    VLA
    VLA已死,WAM当立:机器人的GPT时刻到了吗?
  • 十分钟读论文 | StarVLA:视觉-语言-动作模型开发的统一框架
    StarVLA框架为视觉-语言-动作模型(VLA)研究提供了一个统一的开发标准,解决当前VLA系统的碎片化问题。该框架采用模块化解耦架构,允许研究者自由组合不同的“大脑”和“小脑”,支持多种动作解码范式。StarVLA还具备跨具身与多模态联合训练的功能,通过统一的评估标准和接口,促进模型的横向对比和评估。此外,StarVLA提供了从数据处理到部署的完整流程,支持模型的训练、推理和真实机器人部署。
    542
    05/18 15:18
    VLA
    十分钟读论文 | StarVLA:视觉-语言-动作模型开发的统一框架