扫码加入

视觉语言模型VLM

加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

视觉语言模型 (VLM) 是一种多模态生成式 AI 模型,能够对文本、图像和视频提示进行推理。

视觉语言模型 (VLM) 是一种多模态生成式 AI 模型,能够对文本、图像和视频提示进行推理。收起

查看更多
  • 什么是VLM?为什么它对自动驾驶很重要?
    视觉语言模型(VLM)整合了视觉和语言模型,能够将视觉信号和语言信号结合,实现对复杂场景的语义理解。VLM在自动驾驶中的应用主要解决了对非常规信息的识别和解释、人机交互与自然语言导航、小目标和潜在危险的识别以及提供可解释的“说话能力”等问题。然而,VLM的应用也面临着参数过多、计算量大、本地化训练不足、内部推理黑箱以及数据隐私和合规性的挑战。为了有效利用VLM,需要将其置于自动驾驶系统的中低频层,作为情景理解和语义推理模块,同时对其进行针对性的压缩和优化,确保其在实际应用中的稳定性和安全性。
    什么是VLM?为什么它对自动驾驶很重要?
  • DeepSeek最新王炸模型:VLM架构重磅突破,AI像人一样读图
    DeepSeek开源了其面向OCR场景的专用模型DeepSeek-OCR 2,采用了新型解码器使其阅读模式更接近人类,提高了在复杂布局下的识别精度,并在OmniDocBench v1.5上取得了91.09%的成绩,较前一代提升了3.73%,在视觉标记预算相同的情况下,编辑距离低于Gemini-3 Pro。
    559
    01/29 13:14
  • 深度解析小鹏汽车2026新品会:Physical AI-VLA智驾、VLM座舱,依然数不完的SKU
    最近,小鹏汽车举行了一个2026小鹏全球新品发布会,会上小鹏汽车一口气发了P7+、G7、G6、G9的4款换代新车、包含增程的2套动力系统、分别为Max、Ultra SE、Ultra 的3个智驾配置。
    深度解析小鹏汽车2026新品会:Physical AI-VLA智驾、VLM座舱,依然数不完的SKU
  • AFEELA的“人车共生”实验:深度解读Sony Honda Mobility CES2026发布会
    Sony Honda Mobility (SHM) 在CES 2026展示了其全新移动终端形态,重点在于通过AI定义座舱、索尼娱乐生态上车以及Web3共创机制,重新定义“移动出行”的底层逻辑。具体亮点包括AI技术:引入VLM实现L4级自动驾驶,增强感知与决策能力;基于Azure OpenAI的交互智能,实现双向沟通和共生关系。内容生态:打通PlayStation生态系统,提供真正的“移动主机”体验,包括Remote Play和沉浸式视听。
    AFEELA的“人车共生”实验:深度解读Sony Honda Mobility CES2026发布会
  • 自动驾驶中常提的VLM是个啥?与VLA有什么区别?
    自动驾驶车辆要在复杂多变的道路环境中安全行驶,不仅需要“看见”前方的车辆、行人和路面标志,还需要“读懂”交通标识上的文字提示、施工告示牌和乘客的语言指令。之前和大家讨论过VLA,了解到视觉-语言-动作模型,但在很多场景中,大家还会提到VLM,看起来与VLA非常类似,那VLM又是个啥?与VLA(Vision-Language-Action,视觉-语言-动作)又有什么区别?
    自动驾驶中常提的VLM是个啥?与VLA有什么区别?