• 正文
  • 相关推荐
申请入驻 产业图谱

座舱Agent工程化研究:从数字 AI 向物理 AI 突破

11/19 15:15
1166
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

佐思汽研发布《2025年座舱Agent工程化研究报告》。

《2025年座舱Agent工程化研究报告》从座舱Agent的现状出发,总结了研发、工程阶段的技术路线与头部主机厂Agent产品特点,并探讨座舱Agent的未来趋势、落地重点等。

动作执行:完成任务的最后一公里

从2023年大模型上车开始,座舱AI助手(AI Assistant)在每个阶段都有不同的主线任务。其中2025年座舱AI助手的重点是实现动作执行(Action),从单纯的“出主意”到“帮你办”,完成从“Assistant”向真正“Agent”转变的重要一步。

2023年至今座舱Agent的主要发展重点

来源:佐思汽研

2025年座舱AI助手的典型场景之一是餐饮点单:

2024年,当用户要点咖啡,座舱AI助手只能在地图上找到附近的咖啡店,然后用户手动操作选定店址,AI助手再完成导航,而下单、支付等环节需要用户自己完成,AI助手完全无法协助。

2025年,当用户要点咖啡,座舱AI助手已经能够确认用户意向后,自行完成下单、支付等一系列操作,节省用户注意力,优化用户体验。

以理想同学通过肯德基“车速取”功能点单为例,整个流程分为5步:

理想同学与肯德基“车速取”功能的实现步骤

整理:佐思汽研

整个过程涉及到长期记忆库、工具调用、多智能体协作等方向的技术:

01、案例一:工具调用

2024年初,OPEN AI的Function Calling是座舱Agent在工具调用时采用的主流技术,聚焦单模型与单工具的直接交互;

2024下半年,Anthropic提出的MCP(Model Context Protocol)在Function Calling基础上解决 “多组件协同” 的问题,完善了Function Calling的应用场景和效率。

2025年4月,谷歌提出A2A(Agent2Agent)协议,进一步规范不同Agent之间的通信与协作方式。

工具调用的几种路线

整理:佐思汽研

以理想同学为例,2025年,其Agent落地方案就包括了MCP/A2A技术框架(另外一个框架是CUA):

MCP/A2A路线:以车机Agent作为MAS系统的主导者,给第三方Agent下达执行任务,由第三方Agent完成各自的工作流程。

CUA(Cockpit Using Agent):操作系统调用多模态大模型理解指令/任务,通过拆解规划,生成最终执行动作,并调用小程序、APP完成指令/任务。如在缴费场景中,理想同学经过一系列理解与规划,调用API对接支付宝车载助手,通过支付宝的生态,使用相关小程序完成支付。

训练过程中,理想团队在智能体强化阶段的Reward 模块优化中使用了MCP统管工具服务,如使用MCP Hub为训练任务和业务请求提供可调用的工具资源目录。

Reward Server分布式架构中的MCP技术

来源:理想汽车

在下一个阶段,理想同学计划在加强多模态能力的同时,实现COA(Chain of Action,行动链),即同一个模型不断思考如何去调用外部工具解决问题并行动,进一步提升工具调用、推理与行动等不同模块的协同性。

理想同学技术路线1.0到2.0

来源:理想汽车;整理:佐思汽研

02、案例二:GUI Agent

GUI Agent(图形用户界面智能体)是一种特定类型的 LLM Agent,用来处理用户以自然语言提出的指令或请求,通过屏幕截图或 UI 元素树理解 GUI 的当前状态,并执行模拟人机交互的动作,从而跨越各种软件界面。

GUI Agent通常包括操作环境、Prompt 工程、模型推理、动作执行、记忆等模块组件。

GUI Agent技术距离完全成熟尚有时日,但已有一部分车企在布局,包括理想、吉利、小米等。

如在上述点单场景中,理想同学在选择套餐时便采用了GUI Agent 技术,实现了无需用户动手,可自行操作屏幕相关组件 。同时,理想团队也指出,GUI Agent操作的准确率也会影响CUA框架的最终执行效果(因为在付款过程需要扫描屏幕截图,用到了GUI Agent),如果准确率过低,可能会导致登记停车、缴纳停车费等复杂任务难以保证稳定体验。

以小米为例,推出BTL-UI(Blink-Think-Link)GUI Agent框架,在马尔可夫决策过程框架的基础上,运用GRPO算法。Agent需要在每个时间步骤接收当前的屏幕状态、用户指令和历史交互记录,然后输出结构化的BTL响应,将输入的多模态信息转换为包含视觉注意力区域、推理过程和执行指令的综合输出。

其实现方式与核心技术包括:

仿生交互框架:基于 BTL-UI(Blink-Think-Link)模型,模拟人类视觉注意力分配(眨眼阶段)、逻辑推理(思考阶段)和精确执行(执行阶段),支持复杂多步骤任务(如跨应用调用、多模态交互)

自动化数据生成:自动分析屏幕截图,识别出与用户指令最相关的界面元素,并为这些区域生成高质量的注意力标注。

BTL奖励机制:细致评估中间的每个认知阶段,检查AI是否正确识别了相关界面元素,是否进行了合理的逻辑推理,以及是否生成了准确的操作指令。

小米BTL-UI(Blink-Think-Link)框架分为“眨眼”、“思考”、“执行”三个阶段

数据来源:小米汽车;整理:佐思汽研

车企正处于从L2 Reasoners到L3 Agent迈进的阶段,L3又分为四个阶段

根据OPEN AI对AGI的定义,国内车企正处于从L2 Reasoners到L3 Agent迈进的阶段。在每个不同的阶段,都需要解决不同的问题,表现出相应的特性:

AGI的5个等级

来源:OPEN AI;整理:佐思汽研

在L3阶段,座舱Agent升级可分为四个阶段:

座舱Agent升级的四个阶段

整理:佐思汽研

在现阶段,大部分车企的座舱AI助手已经一定程度完成了“专业服务”,接下来需要实现“情绪共鸣”以及迈过“主动预判”这个坎。

以提供“情绪共鸣”阶段为例,头部玩家如蔚来的“Nomi”。

2025年,大部分AI助手的情绪聊天功能主要通过TTS技术模拟的腔调变化、知识库的专用词汇调用(如口语化的语气词)和预设的情绪场景workflow来实现。而相比其他座舱Agent,Nomi还额外具备两个独特优势:

实体外壳:Nomi通过外壳“Nomi Mate”(截至2025年11月已升级至3.0版本),能够具现化200多个动态表情,在真实世界给予情绪价值。如Nomi在与人进行语音交互时会模拟人与人之间对话时的头部动作,模拟人听到声音时头部转向声音来源的动作,实现了弧形转头轨迹。

2. 情感设定:

在架构上,设定“情感引擎”专属模块,通过“情境智能”、“专属智能”和“情感表达”三个子模块,借助语音、视觉及多模感知技术,实现情景仲裁,得出一系列对于当前情境的理解,实现情绪场景下的自然类人反应。

在设定上,Nomi支持被赋予性格,可按照设定,通过类似GPT的流式预测模型进行搜索联想,表现出专属的情景反应,为每个人提供个性化体验(如能够模拟多个MBTI性格,相比之下理想同学MBTI设定就是固定的ENFJ)。

实现“主动预判”后,座舱Agent从数字 AI 向 物理 AI 突破

从L3.5+阶段开始,泛化性成为Agent能否灵活应对多场景任务的限制因素之一;为提升不同场景下的泛化性,Agent不仅需要学习策略(在某个状态下该做什么动作),更要通过学习环境动态模型(执行某个动作后世界会如何变化),实现在环境的直接交互中进行预测。

为避免因高质量数据的短缺造成的限制,解决方案之一是在真实的物理世界环境中进行学习,实现从数字 AI 向 物理 AI 的突破。

以理想同学的训练为例,理想团队在大量使用互联网数据用于基座模型训练后,发现有数据对模型的能力提升效果已经降低,模型预训练的scaling law边际收益已经下降。

因此理想团队对下一阶段的训练方式做出改变,聚焦于模型与物理世界的交互,通过强化学习让模型去判断思考过程的对错,在与环境的交互中积累经验与数据。

理想团队对Agent阶段的路线规划

来源:理想汽车;整理:佐思汽研

World Labs李飞飞团队提出“增强型交互式智能体”(augmented interactive agents),该智能体具备多模态能力与 “跨现实无关”(cross reality-agnostic)集成特性,并内置涌现机制。

在训练相应智能体的过程中,李飞飞团队引入 “上下文提示”(in-context prompt)或 “隐式奖励函数”(implicit reward function),通过二者捕捉专家行为的关键特征,智能体可通过从专家演示中学习到的用于任务执行的物理世界行为数据进行训练。该数据的收集方式是将物理世界中的专家演示以“状态 – 动作对”(state-action pairs)的形式进行收集。

通过物理世界进行训练的交互机制

2025年,OEM大多选择多智能体的路线来构建座舱AI体系,而多智能体协作恰巧也是提升Agent泛化性的途径之一,通过“领域专精 + 场景联动 + 群体学习”,从多个维度突破现有Agent的泛化性局限。

多智能体协作提升泛化性的三个维度

整理:佐思汽研

以广汽的Agent“北鼻”为例,通过基于大模型意图识别的多智能体协作,落地复杂场景的意图识别,打破垂类智能体 “无统一交互入口、协同低效” 的痛点,无需用户分别操作多个智能体(如单独调导航、空调),提升协作效率。其原理包括:

构建核心智能体:用汽车场景相关预设数据集(如车辆控制、导航等指令记录)微调预训练语言模型,得到意图识别大模型,再基于该模型构建 “意图理解智能体”,同时加入缓存服务提升响应速度。

解析用户意图:接收用户指令(如语音、触控指令),由意图理解智能体推理出意图识别结果(含 1-3 个意图及对应置信度,例:“找加油站” 置信度 0.85、“调温度” 置信度 0.9),并缓存指令与结果。

调用协同智能体:结合当前场景(如行车状态、天气)做协作决策,调用与意图相关的目标智能体(如导航、控车智能体)协同工作,接收各智能体执行结果。

仲裁反馈执行:依据历史置信度评分(智能体过往执行成功率)和当前执行结果仲裁;无历史评分时,用意图识别大模型推理仲裁,最终将结果反馈给执行系统(如车机、语音播报)完成操作。

 

「联系方式」手机号同微信号

产业研究部丨符先生 15810027571

赵先生 18702148304

数据服务部丨张女士 13716037793

战略咨询部丨韩女士 15810133447

推广传播部|廖女士 13718845418

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录