具身智能与机器人学习资源全景图：从SLAM到大模型再到VLA/VLN的技术演进

转载自公众号：敢敢AUTOHUB

1. 引言

随着人工智能技术的飞速发展，具身智能（Embodied AI）正在成为连接数字世界与物理世界的关键桥梁。与传统的纯软件AI系统不同，具身智能强调智能体必须拥有物理形态，能够通过传感器感知环境、通过执行器与环境交互，并在这种持续的感知-行动循环中学习和适应。这一研究范式的兴起，标志着人工智能从"理解世界"向"改变世界"的重要转变，也被认为是通向通用人工智能（AGI）的必经之路。

本文基于GitHub上多个优质开源资源库的深度分析，系统梳理了从同步定位与建图（SLAM）、大语言模型（LLM）到视觉语言动作模型（VLA/VLN）的完整技术演进路径，为研究者和工程师提供一份全面的学习路线图。这一技术栈遵循"感知定位、语义理解、决策行动"的逻辑递进关系：SLAM提供环境感知与定位能力，使机器人能够构建环境地图并确定自身位置；LLM/VLM提供语义理解与推理能力，使机器人能够理解自然语言指令和视觉场景；VLA/VLN则实现从感知到行动的端到端闭环，将高层语义理解转化为具体的运动控制指令。

2. 深度学习与强化学习基础

深度学习和强化学习是支撑整个具身智能技术栈的理论基石。深度学习提供了从原始感知数据中提取高层语义特征的能力，使机器人能够"看懂"周围的世界；强化学习则提供了通过试错学习最优行为策略的框架，使机器人能够在复杂环境中做出正确的决策。这两大技术的深度融合，催生了深度强化学习这一强大的学习范式，成为当前机器人控制和决策的主流方法。

2.1 awesome-deep-learning

链接：https://github.com/ChristosChristofidis/awesome-deep-learning

深度学习领域的综合资源库，作为所有AI技术的基础支撑，涵盖CNN、RNN、Transformer等核心架构的论文、教程、代码和工具。该仓库系统整理了深度学习从感知机到现代大模型的完整发展历程，包括卷积神经网络在图像识别中的突破性应用、循环神经网络在序列建模中的广泛使用、以及Transformer架构引发的自然语言处理革命。对于具身智能研究者而言，深度学习是理解视觉感知、语言理解、多模态融合等核心技术的必备基础，该仓库与awesome-rl共同构成了理解现代AI系统的理论基础，是入门深度学习和进阶具身智能的必备参考资源。

2.2 awesome-rl

链接：https://github.com/aikorea/awesome-rl

强化学习领域的经典资源库，虽然目前已停止维护，但仍是入门RL的重要参考。强化学习的核心思想是让智能体通过与环境的交互来学习最优策略，这与具身智能的本质需求高度契合。仓库系统整理了理论基础，包括David Silver在DeepMind开设的强化学习课程（被誉为RL入门的黄金标准）、UC Berkeley CS294深度强化学习课程、以及Sutton和Barto合著的经典教材《Reinforcement Learning: An Introduction》。在应用领域方面，仓库涵盖了游戏AI（如AlphaGo、Atari游戏）、机器人控制（如机械臂操作、四足行走）、自动驾驶等多个方向。代码实现部分收录了OpenAI Baselines、Stable Baselines3、PyTorch Deep RL等主流框架，以及Gymnasium、Jumanji等仿真平台，是将RL应用于具身智能的基础学习资源。

类型	资源
课程	David Silver RL课程、UC Berkeley CS294
教材	Sutton《Reinforcement Learning》
代码	OpenAI Baselines、PyTorch Deep RL
平台	Gymnasium、Jumanji

3. SLAM与视觉定位

同步定位与建图（Simultaneous Localization and Mapping，SLAM）是机器人自主导航的核心技术，解决的是机器人在未知环境中同时构建环境地图并确定自身位置的问题。这一技术对于具身智能至关重要，因为任何需要在物理世界中移动和操作的智能体，都必须首先知道"我在哪里"以及"周围环境是什么样的"。SLAM技术经过数十年的发展，已经从早期基于滤波器的方法演进到现代基于图优化和深度学习的方法，在精度、鲁棒性和实时性方面都取得了显著进步。

3.1 awesome-visual-slam

链接：https://github.com/tzutalin/awesome-visual-slam

这是视觉SLAM领域最全面的开源资源汇总之一，系统整理了视觉SLAM和视觉里程计相关的开源项目、依赖库、数据集和开发工具。视觉SLAM相比激光雷达SLAM具有成本低、信息丰富的优势，是消费级机器人和AR/VR设备的首选方案。仓库梳理了核心依赖库：基础视觉处理使用OpenCV进行图像预处理和特征提取，Eigen和Sophus用于高效的矩阵运算和李群李代数表示，图优化使用g2o、GTSAM、Ceres-Solver等后端优化库，地图表示使用OctoMap进行三维占据栅格建图、Grid Map用于二维导航地图。在经典算法方面，收录了ORB-SLAM系列（基于特征点的方法，以其出色的鲁棒性和精度成为视觉SLAM的标杆）、LSD-SLAM（直接法的代表，能够构建大规模半稠密地图）、DSO（直接稀疏里程计，在光照变化场景下表现优异）、SVO（半直接法，专为高速无人机设计）等单目SLAM代表作，以及DVO-SLAM（RGBD稠密里程计）和Kimera（MIT开发的实时度量-语义SLAM系统）等，是SLAM开发者的必备参考。

类型	算法	特点
单目	ORB-SLAM	特征点法，鲁棒性强
单目	LSD-SLAM	直接法，大规模稠密
单目	DSO	直接稀疏里程计
单目	SVO	半直接法，高速
RGBD	DVO-SLAM	稠密视觉里程计
语义	Kimera	实时度量-语义定位

3.2 awesome-slam-datasets

链接：https://github.com/youngguncho/awesome-slam-datasets

这是SLAM数据集领域最权威的资源汇总，提供了一个可交互的Google Spreadsheet完整版本，方便研究者按需筛选和比较不同数据集的特性。高质量的数据集对于SLAM算法的开发、测试和基准比较至关重要，该仓库的价值在于其全面性和系统性的分类方式。仓库按照里程计、建图、场景识别、定位、感知等任务类型对数据集进行分类，同时提供传感器配置（相机、LiDAR、IMU、GPS）、环境特征（室内/室外、城市/乡村、动态/静态）等多维度筛选条件。收录的数据集涵盖KITTI（城市驾驶场景的经典基准，包含立体相机、激光雷达和GPS/IMU数据）、TUM RGB-D（室内手持RGB-D相机数据集，提供精确的运动捕捉真值）、EuRoC MAV（无人机室内飞行数据集，包含立体相机和IMU）、Oxford RobotCar（覆盖一年四季的城市长期变化数据）、nuScenes和Waymo Open（大规模自动驾驶数据集，包含3D目标检测标注）、4Seasons（专注于多季节长期定位挑战）等业界标准基准，并集成了evo等轨迹评估工具，是SLAM算法开发者选择测试数据集的必备参考。

数据集	传感器	场景	特点
KITTI	Camera+LiDAR+GPS	城市驾驶	经典基准
TUM RGB-D	RGB-D	室内	手持设备
EuRoC MAV	Stereo+IMU	室内飞行	无人机
Oxford RobotCar	多传感器	城市	长期变化
nuScenes	全传感器	城市驾驶	3D检测
Waymo Open	Camera+LiDAR	城市驾驶	大规模
4Seasons	多传感器	多季节	长期定位

3.3 Awesome-camera-relocalization-in-prior-map

链接：https://github.com/Master-cai/Awesome-camera-relocalization-in-prior-map

专注于视觉重定位（Visual Relocalization）研究的资源库，系统梳理了在已有先验地图中估计相机位姿的各类方法。视觉重定位是SLAM系统中的关键组件，用于解决机器人"绑架问题"（即机器人在未知初始位置时如何定位）和回环检测问题。与SLAM的增量式定位不同，重定位需要在没有连续观测的情况下，仅凭单张或少量图像确定相机在已知地图中的精确位姿。仓库按照地图表示类型进行系统分类：图像数据库地图方法包括基于图像检索的方法（如NetVLAD利用深度学习提取全局描述子、DBoW2使用词袋模型进行快速匹配）和端到端位姿回归方法（如PoseNet直接从图像预测6DoF位姿、MapNet引入时序约束提升精度）；点云地图方法包括传统的2D-3D特征匹配和基于深度学习的场景坐标回归（如DSAC系列、ACE等）；稠密地图方法涵盖Mesh、Surfel、SDF等表示形式（如iMAP、NICE-SLAM等神经隐式表示方法）；此外还有基于NeRF神经辐射场的新兴定位方法。这种分类方式清晰展示了视觉定位技术从传统几何方法到深度学习方法的演进路径，对于自动驾驶、AR/VR等应用场景的研究者具有重要参考价值。

地图类型	方法	代表工作
图像数据库	Image Retrieval	NetVLAD, DBoW2
图像数据库	Pose Regression	PoseNet, MapNet
点云地图	特征匹配	2D-3D对应
点云地图	场景坐标回归	DSAC, ACE
稠密地图	Mesh/Surfel/SDF	iMAP, NICE-SLAM
NeRF地图	神经辐射场	NeRF-Loc

3.4 awesome-lidar-place-recognition

链接：https://github.com/hogyun2/awesome-lidar-place-recognition

LiDAR场景识别领域的专业资源库，系统整理了基于激光雷达的场景识别研究。与视觉场景识别相比，LiDAR场景识别具有对光照变化不敏感、几何信息精确等优势，在自动驾驶和大规模户外机器人导航中应用广泛。仓库将方法分为手工特征和学习方法两大类：手工特征方法包括SOLiD（专为视场角受限场景设计）、BTC（结合二进制描述子和三角形几何约束）、NDTMC（基于正态分布变换的地图编码）等；学习方法包括BEVPlace++（利用鸟瞰图特征进行场景匹配）、RangePlace（基于距离图像的Transformer架构）等最新算法。该仓库是从事机器人SLAM回环检测和自动驾驶场景识别研究的重要资源。

类型	2024年代表工作	特点
Handcraft	SOLiD	FOV受限场景
Handcraft	BTC	二进制+三角形描述子
Handcraft	NDTMC	NDT地图编码
Learning	BEVPlace++	BEV特征学习
Learning	RangePlace	距离图像Transformer

4. 大语言模型（LLM）

大语言模型的崛起为具身智能带来了革命性的变化。传统机器人系统依赖于预定义的规则和有限的语义理解能力，而LLM的引入使机器人能够理解复杂的自然语言指令、进行常识推理、生成执行计划，甚至与人类进行自然对话。这种能力的提升，使得机器人从"执行预设程序的机器"向"理解意图并自主规划的智能体"转变成为可能。2023年以来，将LLM应用于机器人控制的研究呈现爆发式增长，SayCan、Code as Policies、RT-2等工作展示了LLM在机器人任务规划和执行中的巨大潜力。

4.1 Awesome-LLM

链接：https://github.com/Hannibal046/Awesome-LLM

这是GitHub上最具影响力的大语言模型资源库之一，拥有超过20k Star，以"LLM have taken the Whole World by storm"为开篇，系统梳理了从2017年Transformer架构诞生到2025年DeepSeek-R1的完整LLM发展历程。仓库以里程碑论文时间线的形式，清晰展示了GPT系列、BERT、LLaMA、Mistral、Mamba等关键模型的演进脉络。从2017年Google提出的"Attention Is All You Need"奠定Transformer基础，到2018年BERT开创预训练-微调范式，再到2020年GPT-3展示大规模语言模型的涌现能力，2022年Chain-of-Thought Prompting和InstructGPT引入推理链和人类反馈强化学习，直至2024-2025年DeepSeek-V3和DeepSeek-R1在开源领域取得突破性进展。仓库内容涵盖里程碑论文、开源LLM模型、训练数据、评估基准（如HELM、BIG-bench、MMLU）、训练框架（如Megatron-LM、DeepSpeed、FSDP）、推理优化（如vLLM、TensorRT-LLM）、应用案例和教程课程等完整生态，是追踪LLM前沿进展的首选资源。

时间	关键词	机构	论文
2017-06	Transformers	Google	Attention Is All You Need
2018-10	BERT	Google	Pre-training of Deep Bidirectional Transformers
2020-05	GPT-3	OpenAI	Language models are few-shot learners
2022-01	CoT	Google	Chain-of-Thought Prompting
2022-03	InstructGPT	OpenAI	Training with human feedback
2023-02	LLaMA	Meta	Open and Efficient Foundation Models
2023-12	Mamba	CMU	Linear-Time Sequence Modeling
2024-12	DeepSeek-V3	DeepSeek	First open-sourced GPT-4o level model
2025-01	DeepSeek-R1	DeepSeek	Reasoning via Reinforcement Learning

4.2 Awesome-Chinese-LLM

链接：https://github.com/HqWu-HITCS/Awesome-Chinese-LLM

专注于中文大语言模型的资源库，由哈尔滨工业大学团队维护，以"规模较小、可私有化部署、训练成本较低"为筛选标准，为国内研究者和企业提供从模型选型到部署落地的完整指南。中文LLM的发展对于国内具身智能研究具有重要意义，因为机器人与用户的自然语言交互往往需要使用中文。仓库系统整理了适合国内场景使用的中文LLM资源，包括底座模型（ChatGLM系列、Baichuan系列、Qwen系列、Yi系列等主流开源模型，这些模型在中文理解和生成方面经过专门优化）以及各垂直领域的微调模型：医疗领域有华佗GPT、本草等专业医学问答模型，可用于医疗机器人的知识问答；法律领域有智海-录问、LaWGPT等法律咨询模型；金融领域有轩辕、FinGPT等金融分析模型；教育领域有桃李、EduChat等教育辅助模型。此外，仓库还收录了BELLE、Firefly、COIG等高质量中文训练数据集，以及LLaMA-Factory、ChatGLM-Tuning等实用的微调训练教程，是中文LLM研究和应用的一站式参考资源。

分类	代表模型/资源
底座模型	ChatGLM、Baichuan、Qwen、Yi
医疗领域	华佗GPT、本草
法律领域	智海-录问、LaWGPT
金融领域	轩辕、FinGPT
教育领域	桃李、EduChat
数据集	BELLE、Firefly、COIG
训练教程	LLaMA-Factory、ChatGLM-Tuning

5. 具身智能与VLA/VLN

视觉-语言-动作（Vision-Language-Action，VLA）模型和视觉-语言-导航（Vision-Language-Navigation，VLN）模型代表了具身智能领域的最新研究前沿。这类模型的核心目标是实现从多模态感知输入到机器人动作输出的端到端映射，被认为是机器人领域的"GPT时刻"。与传统的模块化机器人系统不同，VLA模型将感知、理解、规划、控制统一在一个神经网络中，通过大规模数据训练获得泛化能力，能够执行开放词汇的机器人任务。2024-2025年间，Physical Intelligence的Pi系列、Google的RT-2/Gemini Robotics、Nvidia的GR00T等模型的发布，标志着VLA技术正在从学术研究走向产业应用。

5.1 awesome-embodied-vla-va-vln

链接：https://github.com/jonyzhang2023/awesome-embodied-vla-va-vln

该仓库是当前最全面的视觉-语言-动作（VLA）模型资源集合，由Jony Zhang和Sage两位研究者共同维护，涵盖了从2024年到2026年的最新研究成果。仓库的核心价值在于其对VLA、VLN、VA三大类模型的系统性整理：VLA（Vision-Language-Action）模型将视觉理解与语言指令转化为机器人动作，是当前最受关注的研究方向；VLN（Vision-Language-Navigation）模型专注于视觉感知与语言导航指令的路径规划，在室内导航和服务机器人领域有广泛应用；VA（Vision-Action）模型则实现从视觉输入到动作输出的直接映射，适用于不需要语言交互的场景。仓库收录了Science Robotics、IJRR等顶级期刊的综述论文，以及Physical Intelligence的Pi0系列（展示了扩散策略在灵巧操作中的强大能力）、Nvidia GR00T N1（面向人形机器人的通用基础模型）、Google Gemini Robotics（将Gemini多模态能力扩展到机器人控制）等业界领先模型，同时追踪动作Token化、世界模型、扩散策略、强化学习后训练等关键技术方向的最新进展。

5.2 Awesome-Embodied-Robotics-and-Agent

链接：https://github.com/zchoi/Awesome-Embodied-Robotics-and-Agent

由同济大学Haonan Zhang团队维护的具身机器人与智能体资源库，专注于将视觉语言模型（VLM）和大语言模型（LLM）应用于机器人领域的前沿研究。该仓库的独特价值在于其系统性的分类体系和配套的综述论文支撑，团队于2025年10月在arXiv发布了《A Survey on Efficient Vision-Language-Action Models》综述论文，对VLA模型的效率优化进行了全面分析。仓库内容涵盖Survey综述、VLA模型（如Pi0系列展示的扩散策略、OpenVLA的开源实现、RT-2的视觉-语言-动作统一架构）、自进化智能体（能够从经验中持续学习改进）、LLM与强化学习/世界模型的结合（如UniSim统一仿真器、Genie生成式交互环境）、规划与操作（如SayCan将LLM用于任务规划、Code as Policies将代码作为策略表示）、多智能体协调（如MetaGPT多角色协作框架、CAMEL角色扮演通信）、视觉语言导航、3D场景理解、评测基准等多个研究方向。

5.3 Awesome-Embodied-AI-Job

链接：https://github.com/StarCycle/Awesome-Embodied-AI-Job

这是一个由Lumina社区维护的具身智能领域招聘信息聚合平台，每日更新，为求职者提供从实习到全职、从学术界到工业界的全方位职业发展参考。具身智能作为一个快速发展的新兴领域，人才需求旺盛但信息分散，该仓库的价值在于将分散的招聘信息集中整理，帮助求职者快速了解行业动态和岗位需求。招聘信息涵盖头部企业（智元机器人、字节跳动Seed团队、小米机器人、理想汽车等，岗位方向包括VLA算法研发、运动控制、灵巧手设计）、科技巨头（大疆创新、Physical Intelligence等，专注感知算法和具身智能基础研究）、学术机构（清华大学、北京大学、浙江大学、香港科技大学等，提供博士/博后/研究实习机会）、研究院所（智源研究院、中科院自动化所等，涉及数据采集和强化学习研究）以及初创公司（生数科技、松延动力、自变量机器人等，招聘全栈工程师）。

5.4 haoranD/Awesome-Embodied-AI

链接：https://github.com/haoranD/Awesome-Embodied-AI

这是一个全面的具身智能论文和资源汇总仓库，配套论文于2025年5月被IEEE/ASME Transactions on Mechatronics接收，这是机电一体化领域的顶级期刊。仓库的学术价值在于其对具身智能研究的系统性梳理和深入分析，不仅收录论文列表，还提供了对各研究方向的综合评述。仓库深入分析了具身感知（如何让机器人理解周围环境）、具身交互（如何让机器人与物体和人类进行物理交互）、具身智能体（如何构建能够自主决策的智能系统）和Sim-to-Real适应（如何将仿真中训练的策略迁移到真实机器人）等核心研究方向，总结了该领域的最新进展、研究重点和当前局限性，是了解具身智能研究全貌的重要参考资源。

5.5 Songwxuan/Embodied-AI-Paper-TopConf

链接：https://github.com/Songwxuan/Embodied-AI-Paper-TopConf

这是一个活跃维护的具身智能顶会论文列表，专门收录被ICLR、NeurIPS、ICML、RSS、CoRL、ICRA、IROS、CVPR、ECCV等顶级会议接收的论文。对于研究者而言，追踪顶会论文是了解领域前沿的最有效方式，该仓库的价值在于其及时性和分类的系统性。仓库已更新至2025年各大会议的最新论文，按照VLA模型（视觉-语言-动作统一架构）、世界模型（环境动态预测）、规划与推理（任务分解和执行策略）、导航（室内外自主移动）、人形机器人（双足行走和全身控制）、基准与数据集（评估标准和训练数据）等类别进行组织，是追踪具身智能学术前沿的高效工具。

5.6 BaiShuanghao/Awesome-Robotics-Manipulation

链接：https://github.com/BaiShuanghao/Awesome-Robotics-Manipulation

专注于机器人操作研究的论文汇总仓库，涵盖非学习和学习控制方法。机器人操作是具身智能的核心能力之一，涉及抓取、放置、装配、工具使用等多种技能。该仓库的价值在于其对操作领域研究的全面覆盖，从传统的基于模型的控制方法到现代的学习驱动方法都有收录。仓库收录了2025年多篇重要Survey，包括Safe Learning for Contact-Rich Robot Tasks（探讨接触丰富任务中的安全学习问题）、A Step Toward World Models（分析世界模型在机器人操作中的应用）、Diffusion Models for Robotic Manipulation（综述扩散模型在操作任务中的最新进展）等，是机器人操作领域研究者的重要参考。

6. 自动驾驶

自动驾驶是具身智能技术最重要的应用场景之一，也是推动SLAM、感知、规划等技术发展的主要驱动力。自动驾驶系统需要在复杂的动态环境中实现安全、高效的导航，这对感知、预测、规划、控制等各个模块都提出了极高的要求。近年来，随着大模型技术的发展，端到端自动驾驶和基于世界模型的自动驾驶成为研究热点，有望突破传统模块化方案的性能瓶颈。

6.1 Awesome World Models for Autonomous Driving

链接：https://github.com/topics/world-model

专注于自动驾驶世界模型的资源汇总。世界模型是一种能够预测未来状态的生成式模型，在自动驾驶中用于预测其他交通参与者的行为、模拟不同决策的后果、生成训练数据等。该仓库收录了HERMES（统一自动驾驶世界模型，ICCV 2025）、FSDrive（时空Chain-of-Thought视觉推理框架，NeurIPS 2025）等代表性工作，涵盖3D场景理解、未来轨迹预测、动态场景生成、闭环仿真等研究方向，是了解自动驾驶世界模型前沿进展的重要资源。

6.2 LLM4AD - LLM/VLM/VLA for Autonomous Driving

链接：https://github.com/topics/autonomous-driving

探索大语言模型、视觉语言模型和VLA模型在自动驾驶中应用的资源汇总。LLM在自动驾驶中的应用是一个新兴但快速发展的研究方向，其核心思想是利用LLM的常识推理能力来增强自动驾驶系统的决策能力，特别是在处理长尾场景和复杂交通规则时。仓库按规划（利用LLM进行高层路径规划和行为决策）、感知（使用VLM进行场景理解和目标检测）、问答（构建能够解释驾驶决策的对话系统）、生成（利用生成模型创建训练数据和仿真场景）等任务分类，收录了CoT4AD等增强推理能力的VLA框架，是自动驾驶与大模型交叉领域的重要参考。

7. 技术演进脉络分析

具身智能技术的发展遵循着清晰的演进脉络，从底层的感知定位能力，到中层的语义理解能力，再到顶层的决策执行能力，形成了一个完整的技术栈。理解这一演进脉络，对于研究者选择研究方向、工程师设计系统架构都具有重要的指导意义。

7.1 从感知到行动的完整闭环

┌─────────────────────────────────────────────────────────────┐
│                    具身智能技术栈                            │
├─────────────────────────────────────────────────────────────┤
│  深度学习基础 → LLM → VLM → VLA → 机器人控制                 │
│       ↓          ↓      ↓      ↓                            │
│  特征提取    文本理解  多模态  端到端                         │
│                        理解    控制                          │
├─────────────────────────────────────────────────────────────┤
│  强化学习(RL) ←→ SLAM/定位 ←→ 具身智能应用                   │
└─────────────────────────────────────────────────────────────┘

7.2 关键技术节点

具身智能技术栈可以分为四个层级，每个层级承担不同的功能职责。感知层负责环境理解，核心技术包括SLAM同步定位与建图、LiDAR场景识别、视觉重定位等，这些技术使机器人能够构建环境地图并确定自身位置。理解层负责语义推理，核心技术包括大语言模型LLM和视觉语言模型VLM，这些技术使机器人能够理解自然语言指令和视觉场景的语义含义。决策层负责策略优化，核心技术包括强化学习RL和视觉语言动作模型VLA，这些技术使机器人能够根据任务目标和环境状态选择最优行动。执行层负责运动控制，核心技术包括灵巧手控制、全身运动规划、力控制等，这些技术将高层决策转化为具体的关节运动指令。

层级	功能	核心技术
感知层	环境理解	SLAM、LiDAR场景识别、视觉重定位
理解层	语义推理	LLM、VLM、多模态融合
决策层	策略优化	RL、VLA、任务规划
执行层	运动控制	灵巧手、运动规划、力控制

8. 总结

本文系统梳理了具身智能领域的完整技术栈和优质开源资源，从深度学习与强化学习的理论基础，到SLAM与视觉定位的感知能力，再到大语言模型的语义理解，最终到VLA/VLN模型的端到端控制，形成了一条清晰的技术演进路径。这一技术栈的核心逻辑是"感知定位、语义理解、决策行动"的递进关系，每一层技术都为上层提供支撑，共同构成了具身智能系统的完整能力。