具身智能 | 银河通用 TrackVLA → NavFoM → TrackVLA++ 技术演进分析

转载自公众号：敢敢AUTOHUB

1. 整体演进脉络

银河通用（Galbot）在具身智能导航领域发表了三篇重要论文，形成了一条清晰的技术演进路线。2024年发布的 TrackVLA 是第一个将视觉语言模型（VLM）扩展为视觉语言动作模型（VLA）用于具身视觉跟踪任务的工作，它解决了传统方法中目标识别与轨迹规划相互割裂导致的误差累积问题。

2025年初发布的 NavFoM 将视野从单一跟踪任务扩展到多任务、多具身平台的通用导航基础模型，支持视觉语言导航、目标搜索、主动跟踪和自动驾驶等多种场景。同年发布的 TrackVLA++ 则在 NavFoM 的基础上，针对具身视觉跟踪任务进行专项增强，引入极坐标推理和目标识别记忆机制，显著提升了在遮挡和干扰物场景下的跟踪性能。三者共同构成了从单任务到多任务、从隐式学习到显式推理的完整技术演进图谱。

1.1 技术迭代路线图

1.2 核心问题与解决方案演进

从技术迭代的角度来看，三篇工作分别解决了具身导航领域的三个核心挑战。TrackVLA 首先解决的是"识别与规划如何统一"的问题——传统方法将目标检测和路径规划分离成两个独立模块，导致错误在模块间传递和放大，而 TrackVLA 通过端到端的 VLA 框架将二者融合，并使用 Anchor-based Diffusion 加速轨迹生成。NavFoM 解决的是"如何让一个模型适应多种任务和多种机器人"的问题，通过 TVI Tokens 编码时间和视角信息、BATS 采样策略控制计算预算，实现了跨具身、跨任务的通用性。TrackVLA++ 则聚焦于跟踪任务中最棘手的遮挡和干扰物问题，通过 Polar-CoT 极坐标推理让模型显式思考目标位置，通过 TIM 记忆机制在目标消失时保持身份记忆，从而在复杂场景下保持稳定跟踪。

阶段	核心问题	解决方案	训练规模
TrackVLA	如何将识别与规划统一？	VLA框架 + Anchor-based Diffusion	1.7M样本
NavFoM	如何支持多具身多任务？	TVI Tokens + BATS采样策略	8M样本
TrackVLA++	如何处理遮挡和干扰物？	Polar-CoT推理 + TIM记忆	2M样本

2. TrackVLA：具身视觉跟踪的VLA先驱

2.1 问题背景

具身视觉跟踪（Embodied Visual Tracking, EVT）是机器人领域的一项核心能力，它要求机器人在真实的三维动态环境中，根据自然语言指令（如"跟随穿蓝色衬衫的人"）持续跟踪并接近指定目标。与传统的二维视觉跟踪（在视频中框出目标）不同，具身视觉跟踪不仅需要识别目标"是谁"，还需要规划机器人"怎么走"才能保持跟踪。传统方法通常将这个问题分解为两个独立的子任务：首先使用目标检测或 ReID（行人重识别）模型定位目标在图像中的位置，然后将检测结果传递给路径规划模块生成移动指令。然而，这种解耦设计存在严重的误差累积问题——如果检测模块出错（比如把干扰物误识别为目标），规划模块会基于错误信息做出错误决策；反过来，如果规划不当导致机器人偏离目标，下一帧的检测也会变得更加困难。TrackVLA 的核心贡献正是提出了一个端到端的统一框架，让目标识别和轨迹规划在同一个模型中协同学习，从根本上解决了误差累积的问题。

2.2 核心架构

TrackVLA 的整体架构遵循视觉语言动作模型（VLA）的标准范式，由视觉编码器、大语言模型骨干网络和动作预测头三部分组成。其设计哲学是让模型在理解视觉场景和语言指令的同时，直接输出可执行的机器人控制指令，而不是像传统方法那样先输出中间表示（如边界框坐标）再由下游模块转换为动作。这种端到端的设计使得整个系统可以通过统一的损失函数进行联合优化，让识别能力和规划能力相互促进。下面我们逐一介绍 TrackVLA 架构中的四个关键组件。

2.2.1 观察编码（Observation Encoding）

TrackVLA 使用预训练的 EVA-CLIP 作为视觉编码器，将输入的 RGB 图像序列转换为高维特征表示。EVA-CLIP 是一种经过大规模图文对比学习训练的视觉编码器，具有强大的语义理解能力。对于输入的图像序列，EVA-CLIP 首先将每帧图像分割成的 patch，然后通过 Transformer 编码器处理，输出每帧个视觉 token，每个 token 的维度为。然而，直接将所有历史帧的全部 token 输入大语言模型会导致序列长度爆炸，计算成本不可接受。为此，TrackVLA 采用了双分辨率 Grid Pooling 策略：对于当前最新帧，保留个 token 以保持细粒度的目标识别能力；对于历史帧，仅保留个 token 作为粗粒度的上下文信息。这种设计背后的核心思想是：当前观察需要精细识别目标位置和外观，而历史观察只需提供粗略的运动上下文。

2.2.2 滑动窗口机制

在实际的跟踪任务中，机器人可能需要持续跟踪目标数分钟甚至更长时间，这意味着累积的历史帧数量会不断增长。如果不加限制地保留所有历史帧，即使经过 Grid Pooling 压缩，输入序列长度仍会线性增长，导致推理延迟逐渐增加，无法满足实时性要求。为了解决这一问题，TrackVLA 采用了固定大小的滑动窗口机制，窗口大小设定为帧。在每个时间步，模型只保留最近的帧观察，丢弃更早的历史信息。这样设计的好处是推理时间恒定，不会随着跟踪时长增加而变慢。具体来说，滑动窗口内的视觉 token 序列组织方式为：前帧使用粗粒度表示（每帧个 token），最新帧使用细粒度表示（个 token）。因此，输入到大语言模型的总 token 数量恒定为个 token，确保了推理效率的稳定性。

2.2.3 大语言模型前向传播

经过视觉编码和 Grid Pooling 处理后的视觉 token 序列，与经过 tokenizer 处理的语言指令 token 拼接在一起，共同输入大语言模型（LLM）骨干网络。TrackVLA 选用 Vicuna-7B 作为 LLM 骨干，这是一个基于 LLaMA 微调的开源对话模型，具有良好的指令理解能力。值得注意的是，TrackVLA 设计了一个灵活的多任务输出机制：根据输入指令中是否包含特殊的 [Track] 标记，模型的输出会走向不同的分支。当指令包含 [Track] 标记时（如 [Track] Follow the man in blue shirt），模型进入跟踪模式，LLM 仅执行单步自回归，输出一个特殊的动作 token，该 token 的隐状态被送入后续的动作预测头生成轨迹。当指令不包含 [Track] 标记时（如 Describe the person you are following），模型进入识别/对话模式，LLM 执行完整的自回归解码过程，逐 token 生成文本答案。这种设计使得 TrackVLA 可以在同一个模型中同时支持跟踪任务和开放式问答任务，真正实现了"识别"与"规划"的统一。

2.2.4 Anchor-based Diffusion Action Model（核心创新）

Anchor-based Diffusion Action Model 是 TrackVLA 最重要的技术创新，它解决了传统扩散策略推理速度慢的问题。扩散模型（Diffusion Model）近年来在机器人控制领域展现出强大的轨迹生成能力，其核心思想是从纯噪声开始，通过迭代去噪逐步生成目标轨迹。然而，传统扩散策略需要执行大量的去噪步骤（通常 50-100 步），每一步都需要调用一次神经网络前向传播，导致推理延迟高达数百毫秒，难以满足实时跟踪的需求。TrackVLA 的关键洞察是：机器人轨迹的分布是有规律的，可以预先学习一组"轨迹锚点"来覆盖常见的运动模式。

具体来说，TrackVLA 首先从训练数据中收集所有的轨迹样本，然后使用 K-means 聚类算法将这些轨迹聚类为个代表性的轨迹锚点。每个锚点包含个路点，分别表示机器人在未来若干时间步的目标位置和朝向。这些锚点覆盖了常见的运动模式，如直行、左转、右转、原地旋转等。

在推理时，模型不再从纯高斯噪声开始去噪，而是从这些预定义的轨迹锚点开始。首先对每个锚点添加少量高斯噪声得到，然后将带噪锚点和 LLM 输出的条件特征一起输入 DiT（Diffusion Transformer）网络，执行仅仅2 步DDIM 去噪，输出去噪后的轨迹和对应的置信度分数。最后，选择置信度最高的轨迹作为最终输出。这种"锚点+少量去噪"的策略实现了5 倍加速，推理帧率达到 10 FPS，满足了实时跟踪的需求。

2.3 训练数据与基准

TrackVLA 不仅提出了新的模型架构，还构建了具身视觉跟踪领域的第一个标准化基准测试集 EVT-Bench。这个基准测试集基于 Habitat 仿真平台和 HM3D 室内场景数据集构建，包含三个难度递增的子任务，全面评估模型在不同复杂度场景下的跟踪能力。

第一个子任务是单目标跟踪（Single Target Tracking, STT），场景中只有一个目标人物，语言指令也比较简单（如"Follow the person"），主要测试模型的基础跟踪能力。

第二个子任务是干扰跟踪（Distracted Tracking, DT），场景中存在多个外观相似的干扰人物，语言指令需要包含目标的细粒度特征描述（如"Follow the man wearing blue shirt and black pants"），测试模型的细粒度目标识别和区分能力。

第三个子任务是歧义跟踪（Ambiguity Tracking, AT），这是最困难的设置，场景中存在外观完全相同的多个人物（如穿着相同制服的工作人员），语言指令也故意保持模糊，模型需要根据目标的初始位置、运动轨迹等上下文信息来保持正确的跟踪。

子任务	英文缩写	难度	描述
单目标跟踪	STT	简单	"Follow the person" 等简单指令
干扰跟踪	DT	中等	存在多个干扰人物，需要细粒度识别
歧义跟踪	AT	困难	存在外观相同的干扰物，指令模糊

在训练数据方面，TrackVLA 采用了双任务联合训练策略，总共使用约 1.7M 个训练样本。其中，855K 个样本来自 EVT-Bench 的跟踪训练集，用于学习端到端的跟踪能力；另外 855K 个样本是开放世界识别数据，包括人物属性识别（如服装颜色、性别、年龄等）和通用 VQA（视觉问答）数据，用于增强模型的视觉语言理解能力。这种联合训练策略使得 TrackVLA 不仅能够跟踪目标，还能够回答关于目标的开放式问题，实现了真正的多任务统一。

3. NavFoM：跨具身跨任务的导航基础模型

3.1 问题背景

在 TrackVLA 发布后不久，银河通用团队意识到一个更宏大的问题：现有的具身导航方法存在严重的碎片化现象。任务层面的碎片化表现为：不同的导航任务（视觉语言导航 VLN、目标搜索 ObjectNav、视觉跟踪 Tracking、自动驾驶 AD）使用完全不同的模型架构和训练流程，研究者需要为每个任务从头设计和训练模型。具身层面的碎片化表现为：不同的机器人平台（轮式机器人、四足机器人、人形机器人、无人机、自动驾驶汽车）由于传感器配置和运动学特性的差异，也需要单独的模型。这种碎片化不仅导致研究资源的巨大浪费，也阻碍了知识在不同任务和平台之间的迁移。

NavFoM（Navigation Foundation Model）的目标是构建一个统一的导航基础模型，能够同时处理多种导航任务、支持多种机器人平台，真正实现"一个模型，多种能力"的愿景。这一目标的实现需要解决两个核心技术挑战：第一，如何让模型理解来自不同相机配置（数量从 1 到 8 个不等、视角各异）的视觉输入；第二，如何在保持计算效率的同时处理长时间导航任务产生的大量历史帧。NavFoM 通过两个关键创新——TVI Tokens 和 BATS 采样策略——优雅地解决了这两个挑战。

3.2 核心架构

NavFoM 的整体架构延续了 VLA 的基本范式，但在多个关键组件上进行了重大升级以支持跨具身、跨任务的通用性。与 TrackVLA 使用 Vicuna-7B 作为 LLM 骨干不同，NavFoM 选用了更强大的 Qwen2-7B 作为语言模型骨干，并将视觉编码器从单一的 EVA-CLIP 升级为 DINOv2 和 SigLIP 双编码器组合。DINOv2 是一种通过自监督学习训练的视觉编码器，擅长捕捉图像的几何结构和空间关系；SigLIP 则是一种经过图文对比学习训练的编码器，擅长理解图像的语义内容。两者的特征拼接后，模型同时具备了空间感知能力和语义理解能力。下面我们详细介绍 NavFoM 的四个核心组件。

3.2.1 多视角观察编码

NavFoM 最显著的升级之一是支持 1 到 8 个相机的任意配置。不同的机器人平台有不同的相机配置：轮式机器人通常只有一个前向相机，四足机器人可能有前后左右四个相机，自动驾驶汽车则可能有多达 8 个环视相机。NavFoM 需要以统一的方式处理这些不同配置的输入。对于每个相机在每个时间步捕获的图像，NavFoM 首先使用 DINOv2 和 SigLIP 双编码器分别提取特征，然后将两组特征拼接在一起。与 TrackVLA 类似，NavFoM 也采用 Grid Pooling 策略对特征进行压缩：当前时间步的图像保留个 token（细粒度表示），历史时间步的图像仅保留个 token（粗粒度表示）。这样，即使有多个相机和较长的历史序列，输入 token 数量也能控制在合理范围内。

3.2.2 Temporal-Viewpoint Indicator (TVI) Tokens（核心创新1）

TVI Tokens（时间-视角指示器）是 NavFoM 最重要的技术创新之一，它解决了多相机多时间步输入带来的歧义问题。问题的本质：当来自不同相机、不同时间步的视觉 token 被拼接成一个长序列输入 LLM 时，模型无法区分哪些 token 来自前向相机、哪些来自后向相机，也无法区分哪些是当前帧、哪些是历史帧。这种歧义会严重影响模型对场景的空间和时序理解。

解决方案：NavFoM 设计了 TVI tokens 作为每组视觉 token 的"身份标识符"。在每个相机、每个时间步的视觉 token 序列前面，NavFoM 会插入一个 TVI token，用于告诉 LLM 这组 token 来自"什么时间、什么方向"。TVI token 的嵌入向量由三部分组成：可学习的基础嵌入（标识这是一个视觉序列的开始）、时间位置编码（标识当前是第几个时间步）、以及方位角位置编码（标识相机的朝向角度）。完整的 TVI token 嵌入公式为：

$$ E_{TVI} = E_{\mathrm{Base}} + \mathcal{P} * \mathrm{time}\big(\mathrm{TimePE}(t)\big) + \mathcal{P} * \mathrm{angle}\big(\mathrm{AnglePE}(\phi)\big) $$

其中 P * time 和 P * angle 是两层 MLP 投影器，将正弦位置编码投影到 LLM 的嵌入空间。值得注意的是，方位角编码采用正弦函数设计，天然保持了圆周连续性（和的编码相同），这对于环视相机配置非常重要。根据任务类型的不同，TVI token 可以灵活组合：单帧图像 QA 任务只需要基础嵌入，视频 QA 任务需要基础嵌入加时间编码，导航任务则需要完整的三部分。

3.2.3 Budget-Aware Temporal Sampling (BATS)（核心创新2）

BATS（预算感知时序采样）是 NavFoM 的第二个核心创新，它解决了长时间导航任务中历史帧管理的难题。问题的本质：导航任务可能持续数分钟甚至数十分钟，如果以 5 FPS 的频率采集图像，一个 10 分钟的任务就会产生 3000 帧图像。即使经过 Grid Pooling 压缩，每帧仍需 4 个 token，3000 帧就是 12000 个 token，远远超出 LLM 的有效处理范围。TrackVLA 采用固定大小的滑动窗口解决这一问题，但这意味着丢弃所有超过窗口范围的历史信息。对于需要长程规划的导航任务（如"回到刚才经过的厨房"），这种丢弃可能导致任务失败。

解决方案：NavFoM 受到人类记忆"遗忘曲线"的启发，设计了一种指数衰减的采样策略。核心思想是：越近的帧越重要，应该以更高的概率保留；越远的帧可以适度遗忘，但不能完全丢弃。具体来说，对于距离当前时刻 T 有 t 个时间步的历史帧，其被采样保留的概率为：

$$ P(t) = (1-\varepsilon) \cdot e^{\frac{k(t-T)}{T}} + \varepsilon $$

BATS 的关键优势在于它能够根据 token 预算 Btoken 自动调整采样率。给定相机数量 N 和 token 预算，BATS 会计算出合适的衰减率 k，使得期望的总 token 数量不超过预算。这意味着无论任务持续多长时间、使用多少个相机，模型的推理时间都保持恒定，不会随着时间推移而变慢。

3.2.4 轨迹预测头

在动作预测方面，NavFoM 采用了与 TrackVLA 截然不同的设计策略。TrackVLA 使用 Anchor-based Diffusion 模型生成轨迹，虽然表达能力强，但计算开销较大，需要执行多步去噪过程。NavFoM 则选择了更简单直接的方案：使用一个 3 层 MLP（多层感知机）直接从 LLM 输出的动作 token 预测轨迹。这种设计的背后逻辑是：当模型规模足够大、训练数据足够多时，LLM 骨干网络已经具备了强大的表征能力，不需要复杂的动作头来补偿。此外，MLP 的推理速度远快于扩散模型，有利于在多任务场景下保持统一的推理效率。

3.3 支持的任务与具身类型

NavFoM 的一个核心设计目标是实现"一个模型，多种任务，多种机器人"的统一。在任务覆盖方面，NavFoM 支持四种主流的具身导航任务：视觉语言导航（Vision-and-Language Navigation, VLN）让机器人根据自然语言指令在环境中导航；目标搜索（Object Goal Navigation）让机器人在未知环境中搜索并接近指定类别的物体；主动视觉跟踪（Active Visual Tracking）让机器人持续跟踪移动目标；自动驾驶（Autonomous Driving）让车辆在城市道路上自主行驶。这四种任务覆盖了从室内到室外、从小型机器人到大型车辆的广泛应用场景。

在具身平台覆盖方面，NavFoM 支持五种不同类型的机器人：轮式机器人是最常见的室内服务机器人形态，通常配备单个或少量相机；四足机器人（如 Boston Dynamics 的 Spot）具有更强的地形适应能力，通常配备多个相机以获得全向感知；人形机器人是未来家庭服务机器人的重要形态；无人机需要处理三维空间的导航问题，动力学特性与地面机器人截然不同；自动驾驶汽车则需要处理高速行驶和复杂交通场景。NavFoM 通过 TVI Tokens 统一编码不同相机配置、通过任务相关的缩放因子适配不同的动作空间，实现了对这些多样化平台的统一支持。

3.4 NavFoM相比TrackVLA的改进

NavFoM 在多个维度上对 TrackVLA 进行了全面升级，下表总结了两者的关键差异。在感知能力方面，NavFoM 将单相机扩展到 1-8 相机任意配置，并引入 TVI Tokens 解决多视角歧义问题，这使得模型能够获得 360° 的环境感知能力。在任务范围方面，NavFoM 从单一的跟踪任务扩展到 VLN、目标搜索、跟踪、自动驾驶四种任务，真正实现了导航基础模型的愿景。在模型架构方面，NavFoM 升级了视觉编码器（从 EVA-CLIP 到 DINOv2+SigLIP 双编码器）和 LLM 骨干（从 Vicuna-7B 到 Qwen2-7B），同时简化了动作预测头（从 Anchor Diffusion 到 MLP）。在历史管理方面，NavFoM 用 BATS 动态采样替代了固定滑动窗口，能够在控制计算预算的同时保留更长时间范围的历史信息。在训练规模方面，NavFoM 的数据量从 1.7M 扩大到 12.7M，增长了约 7.5 倍。

维度	TrackVLA	NavFoM
相机支持	单相机	1-8相机任意配置
任务范围	仅跟踪	VLN+搜索+跟踪+驾驶
具身类型	轮式机器人	多种机器人平台
视觉编码	EVA-CLIP	DINOv2 + SigLIP
动作模型	Anchor-based Diffusion	MLP (更简单高效)
历史处理	固定滑动窗口	BATS动态采样
视角编码	无	TVI Tokens
训练规模	1.7M	12.7M

4. TrackVLA++：推理与记忆增强的跟踪模型

4.1 问题背景

虽然 NavFoM 成功实现了跨任务、跨具身的通用导航能力，但银河通用团队发现，在具身视觉跟踪这一特定任务上，NavFoM 仍然存在两个棘手的问题，而这两个问题恰恰是跟踪任务区别于其他导航任务的核心挑战。

第一个问题是缺乏显式空间推理。NavFoM（以及 TrackVLA）的动作预测完全依赖于 LLM 的隐式推理——模型在"黑箱"中完成从视觉输入到动作输出的映射，我们无法知道模型是否真正"理解"了目标在哪个方向、距离多远。在简单场景下，这种隐式推理可以工作良好；但在存在多个外观相似的干扰物时，模型经常产生混淆，因为它没有明确的机制来"思考"和区分不同物体的空间位置。

第二个问题是长时遮挡导致目标丢失。在真实的跟踪场景中，目标经常会被障碍物遮挡（如走进电梯、绕过柱子、被人群遮挡）。当目标被遮挡时，NavFoM 只能依赖历史帧中的运动趋势来预测动作，但历史帧中的目标特征会随着 BATS 采样被逐渐"稀释"。更严重的是，当目标重新出现时，模型可能会被场景中外观相似的干扰物"欺骗"，错误地跟踪干扰物而不是原始目标。

TrackVLA++ 针对这两个问题，在 NavFoM 的架构基础上引入了两个关键创新：**Polar-CoT（极坐标思维链）**让模型显式推理目标的空间位置，**TIM（目标识别记忆）**让模型在遮挡期间保持对目标身份的记忆。

4.2 核心架构

TrackVLA 的架构在 NavFoM 基础上增加了两个关键模块：Polar-CoT 推理模块和 TIM 记忆模块。这两个模块相互配合，前者负责显式推理目标的空间位置，后者负责在遮挡期间保持目标身份的记忆。值得注意的是，TrackVLA 专注于跟踪任务的性能提升，不追求 NavFoM 那样的多任务通用性。

4.2.1 Polar Chain-of-Thought (Polar-CoT)（核心创新1）

Polar-CoT（极坐标思维链）是 TrackVLA++ 的第一个核心创新，它让模型在预测动作之前，先显式地"思考"目标在哪个方向、距离多远。这种"先推理后行动"的设计灵感来自于大语言模型中的 Chain-of-Thought（思维链）技术，但针对具身跟踪任务进行了专门的优化。

为什么不使用传统的边界框预测？ 现有的 VLA 模型如果想要显式定位目标，通常会预测目标在图像中的边界框坐标 $ \left(x_{\mathrm{min}},\, y_{\mathrm{min}},\, x_{\mathrm{max}},\, y_{\mathrm{max}}\right) $ 。但这种方法在多相机场景下存在严重问题：当目标出现在多个相机的视野中时，需要预测多个边界框，模型需要处理"哪个相机的哪个框对应目标"的歧义问题。此外，边界框预测需要输出至少 4 个 token，计算开销较大。

Polar-CoT 的解决方案：TrackVLA++ 创新性地使用极坐标来表示目标位置。以机器人为中心建立极坐标系，目标的位置可以用方位角（目标在哪个方向）和距离（目标有多远）两个值来唯一确定。这种表示天然适合多相机场景，因为无论目标出现在哪个相机的视野中，其极坐标表示都是唯一的。

为了进一步提高效率，TrackVLA++ 将极坐标空间离散化为一个有限的词汇表。具体来说，方位角被划分为 60 个等分（每个扇区 6°），距离被划分为 30 个等分（从 0.6m 到 5.0m），总共形成个扇区。每个扇区对应一个唯一的 vocabulary token，再加上一个特殊的<invalid>token 表示目标不可见（被遮挡或超出视野），总共 1801 个推理 token。这样，模型只需要预测一个 token就能完成目标定位，极大地降低了计算开销。

4.2.2 Target Identification Memory (TIM)（核心创新2）

TIM（目标识别记忆）是 TrackVLA++ 的第二个核心创新，它解决了目标被遮挡时如何保持身份记忆的问题。核心思想是：当模型确信看到目标时，更新记忆以跟踪目标的最新外观；当模型不确定或目标被遮挡时，冻结记忆以避免被干扰物污染。

TIM 的更新机制与 Polar-CoT 紧密配合。在每个时间步，Polar-CoT 首先预测目标的极坐标位置（或 <invalid>），同时输出一个置信度分数。这个置信度分数基于推理 token 的预测概率分布计算：如果模型非常确定目标在某个位置，输出概率分布会非常"尖锐"（熵低），置信度高；如果模型不确定，输出概率分布会比较"平坦"（熵高），置信度低。置信度的计算公式为：

$$ C_{T-1} = 1 - \frac{H\big(\mathrm{softmax}(P)\big)}{\log K} $$

这个设计的直观含义是：如果当前置信度高于历史平均水平，说明当前观察质量好，应该大幅更新记忆；如果当前置信度低于历史平均水平，说明当前观察可能有问题，应该保守更新。特别地，当 Polar-CoT 预测 <invalid>（目标不可见）时，置信度被强制设为，记忆完全冻结，避免被遮挡期间的无关信息污染。

4.2.3 完整推理流程

TrackVLA++ 的推理流程比 NavFoM 更复杂，因为需要执行两次 LLM 前向传播：第一次用于 Polar-CoT 推理，第二次用于动作预测。下面详细描述每个时间步的完整处理流程。

步骤1：视觉编码。与 NavFoM 相同，使用 DINOv2 和 SigLIP 双编码器处理来自所有相机的当前帧图像，通过 Grid Pooling 得到细粒度视觉特征。同时，通过 BATS 采样策略获取历史帧的粗粒度特征。

步骤2：特征投影。将视觉特征和 TIM 记忆状态分别通过投影器映射到 LLM 的嵌入空间，得到和。

步骤3：Polar-CoT 推理（第一次 LLM 前向）。将记忆特征、视觉特征和语言指令特征拼接后输入 LLM，执行单步自回归，输出推理 token 。将这个 token 解码为极坐标位置或 <invalid>，同时计算置信度。

步骤4：TIM 更新。如果 Polar-CoT 预测了有效的目标位置，从中提取对应位置的视觉特征，然后根据置信度加权更新 TIM 记忆。如果预测为 <invalid>，记忆保持不变。

步骤5：动作预测（第二次 LLM 前向）。将更新后的记忆特征、视觉特征、语言特征和 Polar-CoT 输出拼接后再次输入 LLM，输出动作 token ，通过 MLP 动作头生成轨迹。

步骤6：执行。机器人按照预测的轨迹移动，进入下一个时间步。

4.3 训练损失

TrackVLA++ 的训练采用多任务联合损失函数，同时优化轨迹预测、Polar-CoT 推理和语言理解三个目标。总损失函数为：

$$ \mathcal{L} = \mathcal{L}_{\mathrm{traj}} + \alpha \cdot \mathcal{L}_{\mathrm{reason}} + \beta \cdot \mathcal{L}_{\mathrm{text}} $$

其中 L*traj 是轨迹预测的均方误差（MSE）损失，衡量预测轨迹与真实轨迹之间的差距；L*reason 是 Polar-CoT 推理 token 的交叉熵损失，监督模型正确预测目标的极坐标位置；L*test 是语言建模损失，用于 QA 任务的文本生成。损失权重 α=0.2 和 β=0.5 是通过实验调优得到的。

这种多任务损失设计有两个重要考量。首先，推理损失 L*reason 的权重相对较小（），是因为推理任务本身并不是最终目标，而是服务于更好的轨迹预测；过大的推理损失权重可能导致模型过度关注定位精度而忽略动作规划的质量。其次，语言损失 L*test 用于保持模型的语言理解能力，使其能够处理开放式的目标描述和场景问答。

4.4 训练数据

TrackVLA 的训练数据基于 EVT-Bench 构建，但进行了重要的扩展以支持 Polar-CoT 监督学习。与 TrackVLA 和 NavFoM 不同，TrackVLA 的跟踪数据需要包含每一帧的目标极坐标标注——即目标相对于机器人的方位角和距离。这些标注通过仿真器的真值信息自动生成，无需人工标注。总训练数据量约为 2M 样本，虽然规模小于 NavFoM 的 12.7M，但针对跟踪任务进行了专门的优化。

训练数据的组成包括四个部分。首先是约 1M 的 Polar-CoT 跟踪数据，这是核心训练数据，包含多视角图像序列、语言指令、极坐标标注和轨迹真值。其次是约 294K 的人物识别 VQA 数据，来自 SYNTH-PEDES 数据集，用于增强模型对人物外观特征（服装、体型、配饰等）的理解能力。第三是约 205K 的图像 QA 数据，来自公开的视觉问答数据集，用于保持模型的通用视觉理解能力。最后是约 501K 的视频 QA 数据，用于增强模型对视频时序信息的理解。

数据类型	样本数	说明
Polar-CoT跟踪数据	1M	多视角，带极坐标标注
人物识别VQA	294K	SYNTH-PEDES
图像QA	205K	公开数据集
视频QA	501K	公开数据集
总计	2M	-

4.5 TrackVLA++相比NavFoM的改进

TrackVLA 可以看作是 NavFoM 在跟踪任务上的"专精版本"，它继承了 NavFoM 的多相机支持和 BATS 采样策略，同时针对跟踪任务的特殊需求增加了两个关键模块。在**空间推理能力**方面，NavFoM 依赖 LLM 的隐式推理来完成目标定位，而 TrackVLA 通过 Polar-CoT 实现了显式的极坐标推理，模型必须先"思考"目标在哪里，再决定如何移动。在长期记忆能力方面，NavFoM 仅通过 BATS 采样保留历史帧信息，没有专门的目标记忆机制，而 TrackVLA++ 的 TIM 模块可以在目标可见时持续更新目标特征记忆，在目标被遮挡时冻结记忆，有效防止被干扰物误导。

需要指出的是，这些改进是以一定的推理效率为代价的。由于需要执行两次 LLM 前向传播（Polar-CoT + 动作预测），TrackVLA 的推理速度约为 4.8 FPS，略低于 NavFoM 的约 5 FPS。此外，TrackVLA 专注于跟踪任务，不支持 NavFoM 的其他导航任务（VLN、目标搜索、自动驾驶），是一个任务专用模型而非通用基础模型。

维度	NavFoM	TrackVLA++
空间推理	隐式	Polar-CoT显式推理
长期记忆	无（仅滑动窗口）	TIM目标识别记忆
遮挡处理	容易丢失目标	置信度门控保护
干扰物区分	依赖隐式学习	推理引导特征提取
推理开销	1次LLM前向	2次LLM前向（CoT+Action）
任务范围	多任务通用	跟踪专精

5. 总结

通过前面的详细分析，我们可以清晰地看到三个模型在技术特性上的差异和演进关系。下表从多个维度对比了 TrackVLA、NavFoM 和 TrackVLA 的关键技术选择。在**基础模型**方面，TrackVLA 使用 Vicuna-7B，而 NavFoM 和 TrackVLA 都升级到了更强大的 Qwen2-7B。在视觉编码器方面，TrackVLA 使用单一的 EVA-CLIP，而后两者使用 DINOv2 + SigLIP 双编码器组合。在相机支持方面，TrackVLA 仅支持单相机，NavFoM 和 TrackVLA 都支持 1-8 个相机的灵活配置。在**动作模型**方面，TrackVLA 使用创新的 Anchor-based Diffusion，而 NavFoM 和 TrackVLA 简化为 MLP。在任务范围方面，TrackVLA 和 TrackVLA 专注于跟踪任务，NavFoM 则是支持多任务的通用基础模型。在**独特技术**方面，TrackVLA 的核心创新是 Anchor-based Diffusion，NavFoM 的核心创新是 TVI Tokens 和 BATS，TrackVLA 的核心创新是 Polar-CoT 和 TIM。