随着智能驾驶和智能座舱时代到来以及AI技术的兴起,汽车智能化成为了当前全球各个企业的目标和需求导向,自动驾驶和智能座舱在当前和未来的汽车开发和应用场景中备受关注,这对AI芯片需求量大大增加,也对当前AI芯片及芯片厂商提出更高挑战。在自动驾驶和智能座舱领域,目前英伟达、英特尔、德州仪器等不少芯片国际巨头公司已布局良久。在此背景下,国产AI芯片公司如何突破国外技术封锁?本文从国产芯片新星黑芝麻智能关于智能驾驶AI芯片的设计及制造流程来看如何实现弯道超车。

 

所谓AI芯片,神经网络加速器是其必不可少的一部分,目前所有的神经网络算法在硬件层面最消耗计算资源的就是乘和累加运算,即卷积,分解到硬件就是MAC(Multiply Accumulate)单元。通过这个下面公式可以说明MAC运算指令和 AI 算力之间的关系。

 

 

上面就是一个卷积,第二个等号右边每个括号里的系数构成的序列 (14,34,14,4),实际上就是序列 (2,4) 和 (7,3,1) 的卷积。所谓AI算力就是每秒执行多少万亿次指令,这些指令通常就是MAC运算的指令。

 


AI芯片的核心就是MAC运算单元,流程就是从内存中读取训练好的模型的滤波权重值和输入数据,两者相乘,然后重复这个流程并将乘积累加,再写入内存。

 

设计一款数字芯片,流程基本上是确定市场定位、确定性能与功能目标即设计规格参数、架构与算法设计、任务划分、购买IP、RTL编码与功能验证即RTL仿真、综合门级仿真、静态时序分析与仿真。这是前端工序,后端是RTL转门级网表文件、数据导入、布局规划、单元布局、时钟综合树、布线、物理验证、版图文件即GDSII交付晶圆代工厂。

 

 

图1 芯片设计前端流程

 

图2 芯片设计后端流程

 

也可以分为三级:

第一级行为级(Behavior Level):通过行为级算法描述数字系统。也就是逻辑构思,人脑的思维流程。这一阶段主要工具为C/C++/Matlab,熟悉这些工具的人很多,很好找。

第二级寄存器传输级(Register Transfer Level):在寄存器传输级,通过寄存器之间的数据传输进行电路功能设计,例如有限状态机。工具是VHDL/Verilog/System Verilog,熟悉这些工具的人很少,这要求既要懂上层的逻辑结构,也要懂下层的电路实现。

第三级门级(Gate level):数字系统按门级(AND,OR,NOT,NAND等等…)描述。通常不会进行门级设计,门级网表一般是通过逻辑综合的输出。RTL可以用Verilog或VHDL描述。实际上还有更细分的系统级(System Level)或功能模块级(Functional Model Level)。

 

芯片制造流程

 

了解上述芯片软件设计之后,大家就会知道制作出一张芯片难点甚多,尤其在设计以及细节的把控上都是我国芯片被卡脖子的地方。

 

对于芯片制造我们需要了解芯片的上下游,芯片的制造可以理解成点石成金的过程,只不过此处的石是硅石,其材料主要是硅。其中最重要的是第1步二氧化硅到硅的过程,所以造芯片的第1步就是要把二氧化硅还原成硅锭,从目前所使用的工艺来看,硅锭圆形横截面的直径为200毫米。

 

在保留硅锭的各种特性不变的情况下增加横截面的面积是具有相当大难度的。在经过提成,去拉法等获得一根长长的硅棒,然后经过切割,切片越薄,用料越省,自然可以生产的处理器芯片就更多。切片还要镜面精加工的处理来确保表面绝对光滑,之后检查是否有扭曲或其它问题。这一步的质量检验尤为重要,它直接决定了成品芯片的质量。研磨等制成像光盘一样的硅片,在送往晶圆厂通过光刻和石刻雕刻出晶体管的物理结构。

 

光刻是芯片制造过程中工艺非常重要且复杂的一个步骤,光刻蚀过程就是使用一定波长的光在感光层中刻出相应的刻痕,由此改变该处材料的化学特性。这项技术对于所用光的波长要求极为严格,需要使用短波长的紫外线和大曲率的透镜。每一步刻蚀都是一个复杂精细的过程。设计每一步过程所需要的数据量都可以用10GB单位来计量。在残留的感光层物质被去除之后,剩下的就是充满的沟壑的二氧化硅层以及暴露出来的在该层下方的硅层。感光层同时还要被短波长光线透过掩模刻蚀。再经过一部刻蚀,并通过离子注入和覆膜等手段赋予其电特性,掺入的物质原子进入硅原子之间的空隙,彼此之间发生原子力的作用,从而使得硅原料具有半导体的特性,在其上刻划代表着各种逻辑功能的晶体管电路。形成一张芯片,最后将它们切割分离并进行封装测试就完成了一个个芯片的制造。

 

图 3 黑芝麻智能驾驶芯片制造的基本过程

 

上图是以黑芝麻智能驾驶芯片制造流程为例,在制造工艺流程方面简单总结为:

 

晶圆制造与加工

晶圆制造:融化,提纯,拉晶获得单晶硅硅棒,对硅棒进行切片,研磨等获得晶圆。

 

图 4 晶圆图片

 

晶圆加工:光刻改变晶圆材料的化学特性,上述设计的电路制作成一片片光罩,使用强光透过光罩后照在晶圆上,在曝光过程结束后加入显影液,正光刻胶的感光区、负光刻胶的非感光区,会溶解于显影液中。这一步完成后,光刻胶层中的图形就可以显现出来,显影工序使将在曝光过程中形成的隐性图形成为光刻胶在与不在的显性图形。显影中进行的是选择性溶解的过程,最重要的是曝光区和未曝光区之间溶解率的比值(DR)。下一步是刻蚀和离子注入,刻蚀对于器件的电学性能十分重要。如果刻蚀过程中出现失误,将造成难以恢复的硅片报废,因此必须进行严格的工艺流程控制。半导体器件的每一层都会经历多个刻蚀步骤,离子注入是一种将特定离子在电场里加速,然后嵌入到另一固体材料之中的技术手段。重复这些步骤,然后就出现了一个多层立体架构,这就是目前使用的芯片的最初状态了。

 

芯片封装

芯片封装是将Foundry厂生产的晶圆切割成一个个小的晶片,通过不同的封装技术对晶片进行塑封封装从而得到我们看到的芯片。

 

芯片测试

芯片测试包括:良率测试,功能测试,性能测试,可靠性测试等。

 

芯片制造最近几年的变化随着半导体行业技术发展,工艺从微米进入纳米时代,根据行业数据来看,业界最先进的工艺制程5nm已经在2020年量产,3nm的已经进入试产阶段。
 

图 4 1988-2020年芯片工艺制程变化图

 

而且随着CMOS工艺的演进,栅氧厚度也要不断缩小。薄到一定厚度的栅氧就不再是理想的绝缘体,会出现明显的泄漏。在40nm进入28nm的时候,业界开始普遍采用HKMG技术。技术路线分为Gate-first和Gate-last。

 

图 5 40nm-28nm芯片工艺变化

 

工艺进入到16nm/14nm的时候,晶体管结构从2D变为3D FinFET能够带来更好的leakage current控制和更好的性能,成为先进工艺节点必选的晶体管结构。

       

图 6 16nm/14nm芯片晶体管结构变化

 

而目前最先进的量产工艺主要是7nm/5nm,更小的pitch让EUV技术越来越成为主流TSMC从N7+开始采用EUV,最初的7nm工艺(N7/N7P)仍然采用DUV,三星则是在其第一代7nm工艺上就采用了EUV技术。

 

图 7 不同代芯片工艺技术变化

 

GAA(Gate All Around)的名称来自晶体管结构,这个全新设计将栅极完全包裹在通道周围,可实现更好的控制。三星相对TSMC来说,会更早采用GAA技术。TSMC则会从2nm开始采用GAA,这是未来的趋势之一。

 

工艺的不断进步,会带来PPA(Performance Power Area)的提升,进而提升芯片以及系统产品的关键指标和用户体验,这对算力要求超高的智能驾驶芯片来说,有着决定性的影响。

 

对于智能辅助驾驶和智能驾驶车辆来说,车规级芯片需要复杂SOC芯片兼具高算力,高集成度,高可靠性的要求,同时需要控制芯片体积和功耗,当然还要考虑芯片发热情况。

 

图 8 智能驾驶芯片示意图

 

黑芝麻智能从核心IP为切入点,打造国产性能最强自动驾驶计算芯片。基于两大核心自研IP——NeuralIQISP 图像信号处理器及高性能深度神经网络算法平台DynamAI NN引擎,黑芝麻智能已发布多款芯片产品:

 

2019年8月:黑芝麻智能第一颗车规级智能驾驶芯片华山一号A500在国内首发,算力达5-10TOPS

2020年6月:第二代芯片华山二号A1000发布,算力达40-70TOPS,是唯一可以支持L2+自动驾驶的国产芯片

2021年4月:国产车规大算力芯片再升级,黑芝麻智能发布华山二号A1000 Pro。A1000 Pro于同年7月流片成功,算力达到惊人的106-196TOPS,单颗芯片可以支持高级别自动驾驶功能,从泊车、城市内部到高速场景的无缝衔接

 

华山二号A1000自动驾驶芯片:国内首款基于成熟车规功能安全体系打造自动驾驶芯片。该芯片通过了ISO26262功能安全流程ASIL D认证及产品ASIL B Ready认证、可以配合客户实现系统级ASIL D产品。作为已量产的高性能自动驾驶芯片华山二号A1000L自动驾驶感知芯片,目前是国内第一个同时符合汽车功能安全和汽车可靠性权威认证的L2.5等级自动驾驶感知芯片。

 

华山二号A1000 Pro作为国内算力最高的自动驾驶计算芯片,该芯片采用业界创新先进封装工艺集成多个核心,解决16nm工艺支持超大规模深度学习引擎难题,基于内部多核心建立高速通信通路,大幅提高数据传输效率,支持黑芝麻智能最新的FAD Platform,适配多种标准协议和操作系统,提供软件全生命周期的管理,在A1000Pro系统中,任务可以在多个子系统之间动态迁移。

 

华山二号A2000是国内首个250T大算力芯片:顶尖7纳米工艺、国产自主知识产权核心IP、满足ASIL B级别的安全认证标准。

 

黑芝麻智能车规级芯片来看,车规级芯片需要具备以下特点:

工作温度范围较大:-40°-150°,取决于控制器的位置,一般在发动机舱的温度范围是-40°-150°,车身其它位置大概是-40°-105°,相比于其它产品温度范围要求较大。

 

物理化学特性需要稳定:一般车辆工作环境变化较大,特别是环境比较差的地方,一般需要考虑湿度、粉尘、盐碱、霉变、高低温交替、震动、冲击等因素对控制器的影响。

 

抗干扰性:由于车辆上面的电子器件,传感器及各种通信线束,这对车规级芯片的ESD静电、EFT群脉冲、RS传导辐射、EMC、EMI等要求都是非常高。

 

寿命长:与手机相比,车规级的芯片一般要求具备较长的工作寿命,一般为15年或50万公里的设计寿命。

 

故障率:车规级芯片的故障率需要达到PPM-PPB-0,故障率相比其它产品要求较严格。

 

供货周期:目前车规级芯片,考虑到车型的生命周期及售后服务等因素,一般都是10年,供货周期长。

 

产品一致性:由于车辆是大量批量生产,且影响生命安全,因此在芯片一致性方面,无论是产线认证,产线一致性,原材料/生产/封装溯源等要求都是非常严格。

 

除上述这些以外,还需要满足质量管理标准,可靠性标准,功能安全标准,环保标准等等。作为车规级芯片,要求其具备安全架构及安全流程的完整设计和相应的安全认证。

 

图 9 黑芝麻智能车规级芯片安全架构

 

 图 10 黑芝麻智能车规级芯片安全流程

 

图 11 黑芝麻智能车规级芯片A1000安全认证

 

以黑芝麻智能芯片A1000为例,同时遵循ISO-26262 安全标准设计,设计人员通过ISO-26262安全设计生产培训。专门的服务器,用于存储设计文档及过程数据,所有流程可追溯。

 

图 12 黑芝麻智能芯片A1000开发认证证书

 

与传统车规级芯片相比,智能驾驶芯片需要具备更多的性能要求。同时需要支持各类型传感器接口;随着智能驾驶开发软件的多样化,要求智能驾驶芯片需要支持开放的软件与工具链,支持高安全操作系统、自动驾驶框架、 Autosar 、复杂算法等;对信息安全,功能安全,实时性,确定性有着高安全高可靠性要求;同时也需要考虑性能、成本和功耗的平衡,支持量产化的车载散热与布局设计;支持平台化可扩展,满足车厂高中低配需求。

 

图 13 黑芝麻智能芯片A1000自动驾驶芯片特点

 

图 14 黑芝麻智能自动驾驶计算芯片产品路线

 

芯片制造完成后,还需要封装和测试,才能最终拿到芯片。从确定市场定位到最终量产,数字类芯片大概周期要3-4年,用在车上都要是5-6年后了。所以一开始的市场定位要考虑到4-10年后的市场需求,而市场需求通常很难预测,其中的风险也不小,如手机厂商,我们看手机支持的功能,只需要看手机芯片厂商宣传的功能即可。以此类推,面对未来的5-10年,智能驾驶车辆如何发展,我们可以参考黑芝麻智能给出的解决方案。

 

开发工具链是否完善是自动驾驶企业开发的难点之一,黑芝麻智能将其作为黑芝麻芯片易用性的重要指标。配合华山系列自动驾驶芯片,黑芝麻智能还发布了山海人工智能开发平台。它拥有50多种AI参考模型库转换用例,降低客户的算法开发门槛;能够实现QAT和训练后量化的综合优化,保障算法模型精度;支持动态异构多核任务分配,同时还支持客户自定义开发,完善的工具链开发包及应用支持,能够助力客户快速移植模型和部署落地的一体化流程。

 

现在新车的迭代周期越来越短。原因之一,是因为车里面更多的创新是集中在电子和软件部分,就像原来电子行业的发展,因此现在看到很有趣的现象是:汽车行业的发展规律,开始越来越像电子行业的发展趋势。

 

在PC时代和手机时代,当应用和软件在大规模发展的前夕都是硬件先行,因为硬件的迭代周期长,软件的迭代周期短,所以在软件的快速迭代和扩展功能性能的前提,是需要先把硬件的性能和算力备足。汽车行业现在开始进入到的阶段,恰恰是刚刚提到的:汽车行业开始电子化甚至是消费电子化趋势的一个很重要的体现。

 

智能驾驶汽车未来对算力的要求,正因为自动驾驶的发展、汽车智能化的发展,未来软件应用的扩展空间是无限的。所以,他们第一步是希望能留有足够多的硬件和算力的冗余,才能给软件的算法和创新留足够大的空间,这也是为什么现在大家都先要求算力。现在大家都是以算力为衡量性能的标准,当然算力最后体现在满足客户应用的过程中以及软件的优化程度,事实上,一枚芯片有 PPA 三个指标:功耗 Power,性能 Performance,面积 Area。功耗是排第一的,其次是性能,面积则相当于成本,黑芝麻智能推出的华山二号 A1000 Pro,在INT8的算力为 106 TOPS,INT4 的算力达到了 196 TOPS,典型功耗 25W,也意味着整体能效比高达 8 TOPS/W,而目前行业中主流的几家智能驾驶芯片Mobileye EyeQ5是 24 TOPS,英伟达 Xavier是 30 TOPS,英伟达 Orin的高算力版本 Orin X 是 200 TOPS,华为 MDC是 48 - 160 TOPS,特斯拉 FSD是144 TOPS,就黑芝麻智能芯片算力和能耗比来说,不输任何一家。

 

截止目前,黑芝麻智能已经与一汽、上汽、博世、中科创达、亚太等在 L2/3 级 ADAS 和自动驾驶感知系统解决方案上展开商业合作,其中与一汽南京联合打造的红旗 「芯算一体」自动驾驶平台,将服务红旗后续量产车型。在未来,黑芝麻智能将与业内众芯片企业、汽车零部件供应商及各大OEM一起,通过智能驾驶技术的变革改变人类的生活方式。