上图为有人拍到一辆搭载Luminar激光雷达的特斯拉Model Y,一般自动驾驶公司会用林肯MKZ混动改装做原型车,因为有AutonomouStuff公司专业改装线控车辆,显然这是特斯拉自己用的,这当然不是特斯拉要上激光雷达了,这是做数据采集的,激光雷达产生真值即Ground Truth,没有激光雷达就没有真值。

 

 目前深度学习简单分为两种,一种是强监督学习,主要用做识别,即采集数据,标注数据,训练获得权重模型,然后再推理时导入权重模型,对目标识别分类。还有一类是还停留在学术研究的概念阶段,即端到端的深度学习,也有叫无监督学习。2018年以前丰田和英伟达在这个领域研究颇多,目前几乎完全看不到。

 

图片来源:互联网

 

上图英伟达2016年的端到端深度学习无人驾驶框架,只有一个输入,就是方向盘转角,这种方法有明显缺点,首先,这是个彻底的黑盒子,也就是没有可解释性,没有可解释性就意味无法迭代,因为你不知道为什么这个场景下表现好,那个场景下表现不好。无法迭代意味着跑多少公里,安全性舒适性都不会有提升。其次,没有真值,所谓真值就是标准答案,对这种端到端的方式来说,真值就是不出错的驾驶,而人类驾驶员是不可能做到不出错。英伟达当时也只是浅尝辄止,人类驾驶行为,包括速度和转向角,单一个转向角根本不够。 

 

物体识别的强监督学习勉强可看做灰盒子,数据覆盖面越广,识别的类型就可能越多,而端到端是彻底的黑盒子,它知其然,不知其所以然,它只是概率预测(深度学习里最重要的置信度)。 

 

无论是强监督学习还是端到端的深度学习,特斯拉或者说任何一家没有真值生成的车辆无论跑多少亿公里,都不会对感知能力或智能驾驶能力有丝毫提升。 智能驾驶中目标分类或者说识别是深度学习的主要应用领域,但智能驾驶中,传感器不仅要识别目标,还要探测目标的边框或者叫Bounding Box。

 

自动驾驶则需要更高级的3D目标检测,3D目标检测需要同时实现目标定位和目标识别两项任务。其中,通过比较预测边框和Ground Truth边框的重叠程度(Intersection over Union,IoU)和阈值(e.g. 0.5)的大小判定目标定位的正确性;通过置信度分数和阈值的比较确定目标识别的正确性。 

 

如果仅仅是识别目标,那么真值就是正确的标注(Label或Annotation),这个标注只是判断目标是哪一类物体,无论是L2还是L4,单纯识别目标毫无价值,都需要进一步探测目标信息,比如目标与自车的距离。这就需要激光雷达的真值,只有激光雷达的物理测量法才能做真值,才能做标准答案。没有激光雷达,自然就没有真值,这样的数据对L2或L4都没有多少价值。

 

三位年轻俊才,2008年就开始研究自动驾驶数据集

 

图片来源:互联网

 

如何构建一个智能驾驶数据集,我们以全球最权威的KITTI为例,KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前全球公认的自动驾驶领域最权威的测试数据集,也是最早的。尽管已经过去10年,但众多智能驾驶算法公司评估算法优劣无一例外都是在KITTI上打榜。 

 

该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。


整个数据集由389对立体图像和光流图,39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成 ,以10Hz的频率采样及同步。总体上看,原始数据集被分类为‘Road’、‘City’、‘Residential’、‘Campus’和 ‘Person’。对于3D物体检测,label细分为car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc组成。采集车的双目摄像头基线长54厘米,车载电脑为英特尔至强的X5650 CPU,RAID5 4TB硬盘。采集时间是2011年的9月底和10月初,总共大约5天。主要内容如下:

 

 

下图为Kitti的数据采集车。

 

图片来源:互联网

 

主要传感器型号如下表:

 

 

 

OXTS,即Oxford TechnicalSolutions,脱胎自牛津大学,成立自1998年。RT 3003传感器就是一个中级惯性传感器,记录一个完整的三维运动和动力学轮廓与GNSS +惯性传感器融合。提供平滑、健壮和可重复的实时输出,具有低延迟。完全集成的高档MEMS IMU和RTK能力的GNSS接收器记录了一个全面的测量列表,包括位置、速度、加速度和方位。集成6 轴导弹级MEMS IMU,100 Hz刷新频率, L1/L2 RTK 精度:0.02m / 0.1◦  即使GPS信号丢失,RT仍然能通过内部的惯性传感器来继续输出数据。可以通过轮速计等装置,校正位置漂移,在2分钟正常行驶的条件下,位置误差不会大于5米。内部的ADC转换,20bit分辨率,加速度测量的分辨率是0.12mm/s2(12 μg)。ADC转换模拟量输入,采用圆锥/划船(coning/sculling)运动补偿算法来避免信号的混淆。价格据说接近百万人民币(仅供参考,任何直接或间接引用与本文无关),目前有第三代RT3003和更高级的RT4000,频率为250Hz。国内为降低成本,采用分体,即将GNSS和IMU分离,典型的如百度的NovAtel SPAN ProPak6 GNSS接收机 和 NovAtel IMU-IGM-A1。天线一般是GPS NovAtelGPS-703-GGG-HV。顺便说一句,这需要杠杆臂测量做标定,偏移量误差在1厘米之内。这一套参考价格大约25万人民币(仅供参考,任何直接或间接引用与本文无关)。

图片来源:互联网

 

上表为相机参数,现在最少都是400万像素起,有些是800万像素。激光雷达是64线激光雷达,想必大家已经很熟悉了,无需介绍了。

图片来源:互联网

 

什么需要这么多传感器和IMU?


Kitti的数据集格式

图片来源:互联网

 

标注文件的readme.txt文件

图片来源:互联网

 

该文件存储于object development kit (1 MB)文件中,readme详细介绍了子数据集的样本容量,label类别数目,文件组织格式,标注格式,评价方式等内容。从中我们可以看出IMU主要是为了保证数据的时间戳一致,建立统一的坐标系,包括全部坐标系和局部坐标系。高精尖传感器是为了提供参考数值,即Ground Truth。

 

图片来源:互联网

 

上图是通用汽车自动驾驶研发小组在2017年开发的自动真值生成系统即AGT,顺便说一下这个研发小组主要活动在以色列,如今应该并入Cruise了。上图才是真正的数据驱动型智能驾驶。

 

图片来源:互联网

 

通用的数据采集车以及与KITTI的对比,这个将64线激光雷达放在车头,显然有点危险,万一追尾,几十万美元就没了。

 

车辆位姿预测离不开高精度IMU。

 

 

图片来源:互联网

 

光流的真值对比,最糟糕的情况下,误差近60%。

 

图片来源:互联网

 

图片来源:互联网

 

更不要说专业的数据采集系统需要百万元级人民币硬件,以及更为昂贵的数据采集软件系统。 

 

在目前的深度学习方法中,参数的调节方法依然是一门“艺术”,而非“科学”。深度学习方法深刻地转变了人类几乎所有学科的研究方法。以前学者们所采用的观察现象、提炼规律、数学建模、模拟解析、实验检验、修正模型的研究套路被彻底颠覆,被数据科学的方法所取代:收集数据、训练网络、实验检验、加强训练。这也使得算力需求越来越高。机械定理证明验证了命题的真伪,但是无法明确地提出新的概念和方法,实质上背离了数学的真正目的。这是一种“相关性”而非“因果性”的科学。 

 

人类的智慧来自好奇心也就是发现问题,这是机器永远无法做到的,因为它永远不可能有好奇心,所谓人工智能永远只能停留在二次元空间。