加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    •  
    • 演讲要点
    •  
    • 飞速演进的 AI 算法
    • 软件 2.0 时代,AI 芯片新指标
    • 车载 AI 芯片,行业的珠穆朗玛峰
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

地平线黄畅:软件2.0时代,数据驱动进化,算力将成为智能化的基石

2021/01/07
162
阅读需 14 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

当下,AI 芯片将迎来什么样的挑战?

随着软件步入“2.0 时代”,数据开始驱动 AI 进化,算力也逐渐成为智能化的基石。

但除了芯片本身的算力提升,AI 算法对芯片的要求,也还会越来越高。

一方面,AI 算法的发展日新月异,从人工设计特征,到深度学习神经网络模型,发展速度已经远超 AI 硬件改进的速度。

另一方面,软件 2.0 时代,灵活的 AI 开发、有效的数据闭环,将成为 AI 系统的新特征,这又会对 AI 芯片提出更多要求。

前后浪潮,一同夹击。AI 芯片,应当如何破圈?

在 MEET 2021 智能未来大会现场,地平线联合创始人兼技术副总裁黄畅,给我们分享了对于 AI 芯片行业发展的思考。

在不改变原意的基础上,量子位对黄畅的演讲内容进行了编辑整理。

关于 MEET 智能未来大会:MEET 大会是由量子位主办的智能科技领域顶级商业峰会,致力于探讨前沿科技技术的落地与行业应用。本次大会现场有李开复等 20 余位行业顶级大咖分享,500 余名行业观众参与,超过 150 万网友在线收看直播。包括新华社、搜狐科技、澎湃新闻、封面新闻等数十家主流媒体在内纷纷报道,线上总曝光量累计超过 2000 万。

 

演讲要点

AI 的核心理念,就是不断地用机器替代人做更多的事情,包括学习本身。

“软件 2.0”,指的是将整套 AI 系统的开发、测试、改进、安全评估,放在真实的物理世界中迭代提升,形成一个数据迭代闭环。

如今,图像识别算法的进化速度,甚至已超过半导体行业的摩尔定律

即使功耗再低、面积再小,芯片也不能没有性能。而芯片的运算能力指标(TOPS),并不能反映最先进的算法带来的性能提升。因此,地平线提出了一个新指标 MAPS,来合理地评估计算性能。

只有将最先进的算法、和最先进的处理器架构结合在一起,才能更好地对算法进行优化。

车载 AI 芯片,不仅是智能汽车的数字发动机,也是整个芯片行业的珠穆朗玛峰。

(以下为黄畅演讲分享全文)

 

飞速演进的 AI 算法

自上世纪 60 年代被提出后,AI 经历了几个发展阶段。

从早期的符号主义、基于规则的专家系统,到后来的人工设计特征、浅层学习,再到今天的深度学习、超越深度学习的新范式……

每个发展阶段中,AI 的核心理念,都是不断地用机器替代人做更多的事情,包括学习本身。

但与其他领域不同,AI 涉及的问题,难以用分解简化。

计算机视觉为例。

在我们看来,下图是一只猫;但对于计算机而言,它只是一堆数据。

 

如何让计算机理解这张图,是一个复杂、高度非线性的问题。

上世纪 80~90 年代,计算机视觉的先驱,曾提出一种场景理解框架:用计算机提取图片中的物体边缘、构造 2D 物体,并理解 2D 物体之间的深度关系(2.5D 信息),以获得 3D 模型。

但这个框架过于理想化。

不仅在框架计算时会引入大量不确定性(错误、噪音),输入图像本身也存在物体尺度变化、流水遮挡、同类物体类内差异等问题。

而且,现实场景下存在大量光源,各种光会从不同角度、位置出发,在空间中发生反射、折射等变换。

但计算机,却无法逆向还原这一过程。

伴随着 AI 发展进入下一阶段,专家们开始尝试设计一些简单特征(如 SIFT、HOG 等特征)。

这些特征,通常用于描述边缘、纹理等信息。

然后,计算机会用机器学习中的浅层学习(如 SVM、随机森林等)模型来处理特征。

这些模型的参数不多,通常只经过 2~3 层非线性变化。

十几年前,随着稀疏编码(Sparse Coding)出现,这条路走到了极致。

这种方法基于无监督学习,将特征表达从低维映射到高维,并在高维稀疏空间中,用线性方法进行图像分类。

尽管参数很多,但稀疏编码并非端到端学习模式,仍属于浅层应用框架。因此,它的提升空间非常有限。

2012 年,深度学习开始在计算机视觉领域“一飞冲天”。

随着深度学习的发展,各种 AI 模型的运算效率变得更高。

如果配合上特定的硬件设计,还能很好地扩大模型的容量、提升模型识别精度。

早期的深度学习网络,仍然由专家设计。但后来,研究者们开始让 AI 自主发现能提取最优关键特征的网络架构、构造神经网络。

这期间,AI 模型变得更加多样化,算法也在不断进步,其速度甚至超过了半导体行业的摩尔定律。

过去 8~10 年里,处理器性能大约每隔 18 个月翻倍,但在保持精度相同的前提下,算法的计算量每隔 10~14 个月就能减半。

如今,只需要几百分之一的计算量,AI 算法就能达到 8 年前图像识别的精度。

相比于传统方法(下图黑线)会导致精度饱和,深度学习(下图红线)的优势在于,它能很好地利用大数据、大模型和大计算量,来提升模型精度。

但与 AlphaGo 不同,基于深度学习的 AI 系统不能只建立在模拟器中。

以地平线从事的自动驾驶行业为例。

相比于虚拟世界,自动驾驶所应用的真实物理世界(像动植物、自然气候等)在不断发展变化、并持续涌现出新的任务和边角案例(corner case)。

因此,我们不能只在“虚拟世界”(如模拟器)中,训练端到端算法(感知、预测、规划、决策)、再将它们部署到汽车上。

我们必须将整套 AI 系统的开发、测试、改进、安全评估,放在真实的物理世界中迭代提升,形成一个数据迭代闭环。

这,便是所谓的“软件 2.0”。

软件 2.0 时代,AI 芯片新指标

软件 2.0 开发系统,是目前可行度最高的大规模持续迭代 AI 系统。

这个 AI 系统建立于自动化平台上,通过构造一个完整的数据闭环,来快速提取物理世界的数据。

然后,将数据送入后端训练、迭代模型,以提升系统的精度与效率,再通过 OTA 更新前端模型。

这是一个包含数据和计算系统在内的、非常完整的体系。

那么,这个数据闭环长什么样?

如下图,传统的“数据标注→训练→评测”,只是其中的一个小闭环,里面的数据是“死”的。

真正的大数据闭环,实际上包含这一训练模型,它会通过 OTA 服务器,将模型部署到机器人端(如自动驾驶车辆)。

然后,再由机器人端采集数据,并通过数据挖掘送到闭环数据系统,进行快速迭代。

这样的“小闭环+大闭环”,构成了整个“软件 2.0”的开发系统。

这些年来,我们的软件算法演进速度很快。

但算法的演进速度,是以巧妙的算法设计为代价的。算法越巧妙,对计算架构的要求就更高。

像传统的通用并行计算架构 GPU,已经无法满足目前先进 AI 算法的需求,因为它的整体计算效率,其实相当低下。

举个例子,下面是用运算能力(TOPS)达每秒 30 万亿次的处理器系统,运行各种算法任务的结果。

理想情况下,系统的算力利用率,应该能达到 100%;但实际上,算力利用率普遍只有 5%~60%。

精度相同时,算法计算量越小,计算效率通常也越低。

因此,处理器的架构设计非常重要。架构设计得越合理,算法运行就越高效。

为了合理地评估计算性能,地平线提出了一个新指标 MAPS(Mean Accuracy-guaranteed Processing Speed,在精度有保障范围内的平均处理速度)。

为什么要提出这个新的指标?

事实上,芯片的评估,往往有三个指标(PPA):性能(Performance)、功耗(Power)、面积(Area)。

其中,功耗和面积分别决定了芯片的使用、制造成本,但无论功耗再低、面积再小,芯片都不能没有性能。

然而运算能力(TOPS)指标,并不能反映最先进算法带来的性能提升。

因此,我们定义了 MAPS,这个指标通过可视化和量化的方式,在合理的精度范围内,以“快”和“准”两个维度,评估芯片对数据的平均处理速度。

例如,在不同芯片上对 ImageNet 数据集进行图像分类。

首先,选择适合芯片的算法,然后从“快”和“准”两个维度,对芯片的速度和精度进行评估。

上图的三条曲线,就对应了三颗不同芯片的物体识别效果。

这三颗芯片,分别是地平线第三代处理器、第五代处理器和英伟达 Xavier 芯片。

对比发现,在图像分类中,地平线第三代处理器只需要 8%的功耗,就能达到英伟达 50%的性能;第五代芯片只需要 50%的功耗,就能达到英伟达 500%的性能。

在目标检测中,第五代处理器同样用 50%的功耗,就达到了英伟达 13 倍的性能。

如果只沿用通用计算架构,很难为先进算法做出优化。

只有将最先进的算法、和最先进的处理器架构设计结合,才能在功耗和性能上同时达到最优。

在软件 2.0 时代,算力的重要性不言而喻,尤其是领域相关的算力,而非通用算力。

如果对领域相关的算力进行评估,一个更合理的指标就是 MAPS。从这一指标来看,地平线设计芯片的功耗和性能,要比通用设计芯片的优势更大。

在钻研 AI 芯片技术的过程中,我们也发现一个很有趣的现象。

一方面,我们在不断提高 AI 技术;另一方面,AI 技术也改进了我们的生产制造。以芯片设计为例,普通工程师进行电路连线需要 6 周,但 AI 只需要 6 小时。

事实上,AI 技术的出现,给芯片设计带来了巨大挑战。

AI 任务要求,芯片除了算力、还必须携带大量计算和存储单元,即对存储带宽提出了更高要求。

反之,AI 技术,也在快速推动 AI 芯片的发展。

车载 AI 芯片,行业的珠穆朗玛峰

地平线渴望万物智能的时代,在我们看来,汽车终将成为四个轮子上的超级计算机

而车载 AI 芯片,不仅是智能汽车的数字发动机,也是整个芯片行业的珠穆朗玛峰,其设计难度和质量要求(车规级)都很高。

地平线的定位是 Tier2,为产业赋能。我们既能供应芯片,也能提供完整方案,同时,还可以开放工具链,提供算法、模型样例,进行专业化的培训服务。

今年,地平线开启了前装量产元年。

地平线车规级芯片“征程 2”,目前出货量已突破 10 万,还签下了 20 多个前装定点项目。

目前,全球仅有三家公司,实现了车规级 AI 芯片规模化量产,地平线就是其中一家,也是国内唯一一家实现车规级 AI 芯片大规模量产的企业。

而长安 UNI-T 和奇瑞蚂蚁,也已经率先采用地平线的芯片,用作智能驾舱和高级别辅助驾驶。

今年 3 月,“征程 2”在长安 UNI-T 上实现前装量产;9 月,奇瑞蚂蚁搭载“征程 2”正式上市,实现 L2+级自动驾驶。

从自动驾驶到智能座舱,汽车智能化的大潮即将涌来,势不可当。

我们希望通过努力去赋能百业,让我们的客户和用户,都能享受到 AI 带来的收益。同时,我们也愿意与更多伙伴一起踏上这一征程。

谢谢大家。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
USB2514B-AEZC-TR 1 Microchip Technology Inc UNIVERSAL SERIAL BUS CONTROLLER

ECAD模型

下载ECAD模型
$3.31 查看
STM32F407VGT6 1 STMicroelectronics High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC

ECAD模型

下载ECAD模型
$20.39 查看
ATSAM4S16BA-AN 1 Atmel Corporation RISC Microcontroller, 32-Bit, FLASH, CORTEX-M4 CPU, 120MHz, CMOS, PQFP64, LQFP-64
$8.76 查看

相关推荐

电子产业图谱