人形机器人产业链分析——3D视觉

人类约70%的信息是通过人眼感知获取的，未来的人形机器人也将和人类一样，大量信息都将通过视觉感知获取。视觉技术是机器人获取环境信息的重要途经,随着国内外人形机器人的陆续发布，人形机器人的视觉感知技术越来越重要了。

人形机器人对环境感知有宽视场、高速度和高精度的各种要求，但是目前技术路径尚未完全确定，各家都有自己的解决方案。特斯拉 Optimus的3D传感模块以多目视觉为主，全身搭载8个摄像头，自研芯片FSD，纯视觉方案硬件成本低，对软件算法要求高。国内厂商多采用3D相机+激光雷达方案，优必选WALKERX的视觉模块采用四目视觉+双RGBD，小米CyberOne的Mi-Sense视觉系统采用iToF+RGB，达闼采用3D深度相机+RGB单目摄像头+TOF相机+激光雷达的综合方案，宇树采用3D激光雷达+深度相机方案，追觅采用ToF+结构光，智元A1采用 RGBD 相机。

究竟以上技术路径是如何实现的？各种视觉方案又有哪些差异点？今天笔者将和大家一起学习探讨人形机器人的视觉系统是如何实现对感知和交互的，以便大家对人形机器人视觉技术发展有更多了解和判断。

一、人形机器人视觉方案

1.1、特斯拉人形视觉方案

特斯拉的纯视觉传感器方案的实现，离不开多任务学习HydraNets神经网络架构。每辆特斯拉汽车拥有8个环绕车身、覆盖周围360°的摄像头，来获取交通信号灯、信号牌、匝道、路缘等周边信息，为神经网络学习提供了绝佳条件。

特斯拉开发了“矢量空间”（Vector Space）技术，同时兼具了非凸优化算法（Non-convex）、高维度两大优势。该技术可以通过8个摄像头输入的数据为基础绘制3D鸟瞰视图，形成4D的空间和时间标签的“路网”以呈现道路等信息，帮助车辆把握驾驶环境，更精准的寻找最优驾驶路径。同时，特斯拉自主研发了基于神经网络的训练方式。

图| FSD计算机视觉技术

来源：特斯拉AI Day

特斯拉Optimus搭载了与特斯拉车辆相同的FSD技术以及Autopilot相关神经网络技术，其大脑使用的是自研的AI训练 Dojo D1芯片和超级计算机 Dojo。特斯拉FSD系统已可以实现每1.5毫秒2500次搜索的超高效率，预测可能出现的各种情况，并在其中找到最安全、最舒适、最快速的自动驾驶路径。在经过完全自动驾驶能力系统的实际应用验证后，特斯拉强大的FSD计算机视觉技术已可直接应用于机器人。

图|特斯拉FSD芯片+D1芯片

来源：特斯拉AI Day

图|小米Mi Sense 视觉技术

来源：小米官网

小米CyberOne的Mi-Sense视觉系统采用iToF+RGB方案。欧菲光同步发布自研的机器视觉深度相机模块，主要由 iToF 模组、RGB 模组、可选的 IMU 模块组成，产品在测量范围内精度高达 1%，应用场景广泛，可通过第三方实验室 IEC 60825-1 认证，满足激光安全 Class1 标准。iToF 技术是现在主流的 3D 视觉感知技术之一，欧菲光研发基于 iToF+RGB 深度测量技术的 3D 智能深度相机。

iToF无法获取物体的颜色纹理信息，RGB相机可获取物体丰富的颜色纹理信息，将RGB与iToF相结合既能得到物体的深度信息，又可获取物体的颜色纹理信息，这可大大拓展其应用领域。RGB信息可用于物体检测识别，深度信息可用于建图避障等，RGB+iToF在诸多领域可实现1+1>2的作用。

1.3、优必选人形视觉方案

图|优必选人形视觉方案

来源：优必选官网

优必选WALKERX的视觉模块创新升级四目系统及双RGBD传感器，采用胸部四目视觉，头部+腰部双RGBD，以及腰部4*毫米波雷达避障。

SLAM视觉导航自主路径规划：基于多目视觉传感器的三维立体视觉定位采用Coarse-to-fine的多层规划算法，第一视角实景AR导航交互及2.5D立体避障技术实现动态场景下全局最优路径自主导航。实现定位精度10cm，导航精度20cm，精定位精度1cm。

基于深度学习的物体检测与识别算法、人脸识别算法和跨风格人脸数据生成技术，可在复杂环境中识别人脸、手势、物体等信息，丰富准确地理解和感知外部环境。

1.4、达闼人形视觉方案

图|达闼人形视觉方案

来源：达闼官网

达闼人形头部+腰部两个3D深度相机，前胸和后胸两个RGB单目摄像头，下半身暂时单点TOF相机+激光雷达的方案。

1.5、宇树人形视觉方案

图|宇树人形视觉方案

来源：宇树官网

宇树目前采用头部3D激光雷达+深度相机方案，相对最为简单。

二、视觉技术分析

2.1、3D 视觉技术

在过去的数十年中，2D 成像技术有了长足的发展，分辨率从几十万像素发展到现在的上亿像素，色彩还原更真实，逆光环境下也能通过 HDR（高动态光照渲染）技术提升图像质量。然而，2D 图像仅能够提供纹理（色彩）信息，无法提供实现更精准识别、追踪等功能所需的空间形貌、几何尺寸、位姿等信息。

3D视觉技术相对与2D技术提供了更丰富的被摄目标信息，可以在六个自由度（x、y、z、旋转、俯仰、横摆）上定位被摄目标，还原人眼视角的三维立体世界。基于3D视觉传感器采集的信息，不但有纹理（色彩）信息，还增加深度信息，也就是视场内的空间几何尺寸信息。这样围绕着物体、空间扫描一圈，就能得到点云图和精准的“1:1”还原的3D 模型。而有了这些信息作为输入，应用场景会大大增多，性能也会大幅提升。

图|空间三维测量

来源：奥比中光官网

3D机器视觉技术分为两个部分，即3D重构技术和3D数据分析算法，前者获取3D信息、重构3D场景，后者对3D场景中的信息进行理解。目前，3D重构的常用技术类型有：被动3D视觉技术（分为单目3D、双目3D 和多目3D，即分别使用一个、两个和两个以上相机组成立体视觉系统）、激光3D扫描技术、结构光3D技术、TOF相机技术等。3D重构获得的表征数据，包括点云、体素、网格图、深度图等，通过3D数据分析算法进行滤波、特征提取、分割、语义理解，从而实现识别、测量、定位和检测等功能。

表1 3D视觉感知技术差异

来源：奥比中光

2.2、3D视觉常用技术对比

3D 视觉成像技术可分为光学和非光学成像方法。目前应用最多的还是光学方法，包括：结构光、飞行时间(ToF)、多目视觉激光扫描法、激光散斑法、干涉法、照相测量法、激光跟踪法等等，常用的为前三种方法。

图|三种3D视觉方案原理

来源：网络、知乎、与非研究院整理

2.2.1、结构光

结构光：通过光学投射模块将具有编码信息的结构光投射到物体表面，在被测物表面形成光条图像。图像采集系统采集光条图像后，通过算法处理得出被测物表面的三维轮廓数据，以还原目标物体三维空间信息。结构光技术是一种主动的三维测量技术。

特点：由于结构光是主动光，好处是昏暗环境和夜间可用。不需要根据场景的变化而有变化，降低了匹配的难度。但显然在强光环境中会受到干扰，室外基本不可用。另外，由于主动结构光是带编码的，所以多个结构光相机同时使用也是有问题的。在实测中，结构光在角度比较小的侧面上反射比较严重，经常出现比较大的黑洞，当然黑色物体和玻璃是结构光的大 BUG，一个吸光一个透光。

2.2.2、立体视觉法

立体视觉法：指从不同的视点获取两幅或多幅图像重构目标物体3D结构或深度信息，目前立体视觉 3D 可以通过单目、双目、多目实现。双目机器视觉是指使用两个 RGB 彩色相机采集图像，并通过后端的双目匹配和三角测量等算法，计算得到深度图的技术方法。双目技术使用的是物体本身的特征点，由于每一次双目匹配都面对不同的图像，都需要重新提取特征点，计算量非常大。双目是一种被动的三维测量技术。

特点：硬件复杂度较低，弱光或目标特征不明显时几乎不可用。同时，双目相机的运算复杂度也非常高，对硬件计算性能要求极高。因为计算能力要求高，双目相机极少在嵌入式系统设备中使用，双目相机在通用场景中表现也并不太好，像诸如 slam 导航等应用，但在工业自动化领域和 x86 系统中,双目相机应用广泛，因为工业自动化中，双目相机只要解决特定场景中的特定问题。

2.2.3、飞行时间(ToF)

飞行时间(ToF)：由发射和反射光信号之间的时间延迟来测量，给定固定的光速。为了精确地测量时延，经常使用短光脉冲。这种技术跟 3D 激光传感器原理基本类似，只不过3D 激光传感器是逐点扫描，而TOF 相机则是同时得到整幅图像的深度信息。

特点：和结构光方式相比，ToF 并不需要对光的图案做复杂解析，只需要反射回来即可，这大大的提高了鲁棒性，深度信息还原度比结构光好很多，点云的完整性更好。主要表现在：深度图质量要高于结构光，抗强光的干扰能力也更强一些，精度也要更高一些。对于玻璃，是光技术的死穴，只能靠其他技术来弥补了。ToF速度高，但精度只有毫米级。ToF 技术的难度较高，成本也较高。

2.3、3D视觉传感器

3D 视觉传感器是由深度引擎芯片、深度引擎算法、通用或专用感光芯片、专用光学系统、驱动及固件等组成的精密光学测量系统，可以采集并输出“人体、物体和空间”的三维矢量信息。

图|视觉传感器结构

来源：奥比中光招股书

三、国内外主要3D视觉企业

消费级竞争对手主要为苹果、华为、微软、索尼等科技巨头，也包括英飞凌、瑞芯微、华捷艾米等企业。微软是业内最早推出消费级3D视觉传感器的企业，已推出结构光、iToF 技术的 3D 视觉传感器；苹果、华为主要自研 3D视觉传感器以服务于自家产品；索尼、三星借助自身在感光芯片方面的实力，推出iToF、dToF 技术相应的感光芯片产品。英飞凌、瑞芯微、奥比中光、华捷艾米也向市场推出了各自研发的 3D 视觉传感器产品。

表|3D视觉传感器主要企业和产品

来源：奥比中光招股书（已上市）

目前3D视觉市场主要还是以外资品牌占据市场主流，苹果、微软、索尼、英特尔、三星等自研iTOF芯片或双目3D芯片为主。国内奥比中光市占率主导地位，芯片为自研，华为、瑞芯微也相继有自研芯片推出，华捷艾米、欧菲光等也已经开始切入相关市场。

四、总结

人形机器人视觉方案目前主要以结构光、双目或多目RGB、TOF等的组合方案为主。国外大厂已经较早的布局和应用，国内市场还在逐步打开市场空间。

现阶段国内外人形机器人产业还处于0-1的阶段，视觉方案的选择比较多样化，随着出货量的增长，技术的迭代升级，未来视觉方案也将会逐步优化定型。3D视觉作为人形机器人最优的视觉方案，也会跟随人形机器人实现蓬勃发展。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
SZH-002T-P0.5	1	JST Manufacturing	Wire Terminal, 0.08mm2		$0.03	查看
50-57-9405	1	Molex	Board Connector, 5 Contact(s), 1 Row(s), Female, 0.1 inch Pitch, Crimp Terminal, Latch, Black Insulator, Plug,	ECAD模型下载ECAD模型	$0.32	查看
BT148W-600R,115	1	NXP Semiconductors	BT148W-600R		$0.46	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

SZH-002T-P0.5

JST Manufacturing

Wire Terminal, 0.08mm2