视觉语言模型VLM_视觉语言模型VLM是什么意思

什么是VLM？为什么它对自动驾驶很重要？

视觉语言模型（VLM）整合了视觉和语言模型，能够将视觉信号和语言信号结合，实现对复杂场景的语义理解。VLM在自动驾驶中的应用主要解决了对非常规信息的识别和解释、人机交互与自然语言导航、小目标和潜在危险的识别以及提供可解释的“说话能力”等问题。然而，VLM的应用也面临着参数过多、计算量大、本地化训练不足、内部推理黑箱以及数据隐私和合规性的挑战。为了有效利用VLM，需要将其置于自动驾驶系统的中低频层，作为情景理解和语义推理模块，同时对其进行针对性的压缩和优化，确保其在实际应用中的稳定性和安全性。

智驾最前沿

595

02/13 14:49

自动驾驶视觉语言模型VLM

DeepSeek最新王炸模型：VLM架构重磅突破，AI像人一样读图

DeepSeek开源了其面向OCR场景的专用模型DeepSeek-OCR 2，采用了新型解码器使其阅读模式更接近人类，提高了在复杂布局下的识别精度，并在OmniDocBench v1.5上取得了91.09%的成绩，较前一代提升了3.73%，在视觉标记预算相同的情况下，编辑距离低于Gemini-3 Pro。

智东西

559

01/29 13:14

AI DeepSeek

深度解析小鹏汽车2026新品会：Physical AI-VLA智驾、VLM座舱，依然数不完的SKU

最近，小鹏汽车举行了一个2026小鹏全球新品发布会，会上小鹏汽车一口气发了P7+、G7、G6、G9的4款换代新车、包含增程的2套动力系统、分别为Max、Ultra SE、Ultra 的3个智驾配置。

Vehicle

1541

01/12 11:26

小鹏汽车物理AI

深度解析小鹏汽车2026新品会：Physical AI-VLA智驾、VLM座舱，依然数不完的SKU

AFEELA的“人车共生”实验：深度解读Sony Honda Mobility CES2026发布会

Sony Honda Mobility (SHM) 在CES 2026展示了其全新移动终端形态，重点在于通过AI定义座舱、索尼娱乐生态上车以及Web3共创机制，重新定义“移动出行”的底层逻辑。具体亮点包括AI技术：引入VLM实现L4级自动驾驶，增强感知与决策能力；基于Azure OpenAI的交互智能，实现双向沟通和共生关系。内容生态：打通PlayStation生态系统，提供真正的“移动主机”体验，包括Remote Play和沉浸式视听。

Vehicle

673

01/08 13:53

AI技术国际消费电子展（CES）

AFEELA的“人车共生”实验：深度解读Sony Honda Mobility CES2026发布会

自动驾驶中常提的VLM是个啥？与VLA有什么区别？

自动驾驶车辆要在复杂多变的道路环境中安全行驶，不仅需要“看见”前方的车辆、行人和路面标志，还需要“读懂”交通标识上的文字提示、施工告示牌和乘客的语言指令。之前和大家讨论过VLA，了解到视觉-语言-动作模型，但在很多场景中，大家还会提到VLM，看起来与VLA非常类似，那VLM又是个啥？与VLA（Vision-Language-Action，视觉-语言-动作）又有什么区别？

智驾最前沿

1318

2025/08/07

自动驾驶 VLA

视觉语言模型VLM

文章