1848 年 8 月 19 日,《纽约先驱报》刊登了一则重磅消息,加州(加利福尼亚)发现了黄金!消息传开,大批的人力投身于美国西部,引发了席卷全美的淘金热潮,给加州这块贫瘠的土地,带来了财富与繁荣。

 

当下的 AI 领域,正经历着这样一场淘金热。

资本家们毫不吝啬,投入了数以亿计的资金,融入的玩家大小林立,既有掌握先进工具的科技巨头,也有正不遗余力炼金的企业家,更多的是独握一门炼金术的独角兽。同时,因为这片处女地足够大,不管你是芯片制造商,还是算法提供商,抑或是云计算服务提供商,都可以获取自己的利益。但是最终决定这场淘金热能够走得多远、影响多持久,AI 芯片企业掌握了实际的话语权。

 

近日,市场研究公司 Compass Intelligence 发布了最新研究报告,全球 AI 芯片企业排名表中,英伟达(Nvidia)、英特尔(Intel)分列第一、第二名,中国企业华为、寒武纪、地平线,分列 12、22、24 位。虽然都在同一条赛道上奔跑,但是企业侧重有所不同。

 

巨头把持云端 AI 芯片

AI 芯片,可以说是深度学习的专用芯片,具备在很高的内在并行度、大量的浮点计算能力以及矩阵预算的能力,算法、算力、数据,是它三个核心的元素。在相同的精度下,与传统的通用 CPU 相比,它的处理速度更快、所需的服务器更少、功耗更低。一个简单的显性例子是,AI 芯片下的处理能力每秒能够达到 5700 张图片,而如今所用的 CPU 则每秒仅能识别 140 张图片。

 

AI 芯片的兴起要回溯到 2013 年,人们意外发现, 原来用于游戏的 GPU 在深度学习中发挥巨大的作用。这一发现,使得 GPU 出身的英伟达瞬间占据了 AI 芯片的制高点,基于深度学习发布了多款芯片。

 

人工智能芯片领域,可以分为面向云端数据中心的芯片和面向终端的嵌入式人工智能芯片两大门类。而英伟达的 GPU 已经成为在云端服务器的霸主,有报告显示,世界上目前约有 3000 多家 AI 初创公司,大部分都采用了英伟达提供的硬件平台。在端方面,英伟达推出了 16nm 的 AI 芯片 XAVIER、自动驾驶平台 DRIVE PX,并且开源了 DLA 深度学习加速器项目。凭借着巨大的优势,英伟达的股价已经从 2016 年初的 30 美元,飙升至如今的 255 美元,飞升了八倍之多。

 

从保守的角度来说,英伟达的潜在对手是英特尔。在云端市场,英特尔是老牌玩家,英伟达是新入局者。不过,英特尔发力较晚,通过连续收购完成了生态布局,云端收购 Altera 之后推出了基于 FPGA 的专用深度学习加速卡,收购 Nervana 为 AI 优化的 Knight Mill 至强处理器。自动驾驶方面,与 Mobileye 和 BMW 结成了自动驾驶联盟,并在移动端收购了 Movidius。后续发力,业内人士相当看好英特尔。

 

实际上,真正挑起与英伟达在云端芯片较量的重担是谷歌。自从决定研发 AI 芯片,也就是 TPU(Tensor Processing Unit)后,谷歌一直悄无声息。直到去年 4 月,谷歌一篇论文的发布,犹如一枚深水炸弹,让业内吃了一惊。随后 TPU 的发布更是让英伟达“慌了”。第三方平台 RiseML(riseml.com)做了一次对比评测。实验结果表明,在自定义的 LSTM 模型上,TPU 更快。TPU(21402 examples/s)比 P100(1658 examples/s)快 16.9 倍,比 V100(2778 examples/s)快 7.7 倍。RiseML 给出的结论是:一旦 TPU 能够容纳更多的用户使用,就可以成为英伟达 GPU 真正的替代者。

 

需要注意的是,柯洁对战的 AlphaGo Master 使用的就是第一代 TPU,单机运行,且物理服务器仅仅部署了 4 个 TPU 就打败了柯洁。颇为遗憾的是,谷歌的 TPU 仅供自家使用,不对外出售,仅仅开放云端供大家使用。

 

 

初创团队更偏向终端侧发力

英伟达首席科学家兼 NVIDIA Research 高级副总裁 Bill Dally 博士表示,虽然 AI 领域大家似乎都在同一起跑线上,但是细分之后较为清晰可鉴的是,面向云端数据中心的芯片被巨头们把持,因市场偏成熟,企业积累深厚,很难被超越,所以各大初创公司创业方向选择的是面向终端的嵌入式人工智能芯片,如物联网、智能驾驶、机器人等等,这是他们的机会所在。

 

这也是为什么地平线自 2015 年成立以来,突破的是面向终端的嵌入式人工智能芯片薄弱环节——在保证性能、可编程的前提下,芯片保持较低的功耗与成本。

 

地平线表示,他们研发历时 2 年,才推出面向智能驾驶的征程处理器和面向智能摄像头的旭日处理器。三项核心数据上,地平线做到了可每秒实现 30 帧 1080P 高清视频流的实时处理;每帧支持 200 个并行目标的检测、识别和跟踪;典型功耗仅 1.5W,每帧处理时延小于 30ms。

 

地平线采用的是自主设计研发的 BPU 芯片架构,是一款典型的异构多指令多数据的系统,架构中心处理器是完整的系统,存储器架构设计进行了特别优化,能使数据自由传递,进行多种计算,让不同部件同时运转起来,极大提高了器件利用率,提高 AI 运算的效率。

 

寒武纪在终端发力之后,也在云端推出了产品。前不久的发布会上,不仅推出新一代终端智能处理器 IP 产品 Cambricon 1M,还发布了首款云端智能芯片 Cambricon MLU100,双向发力让业内哗然。寒武纪 CEO 陈天石表示,3 年前就开始了两颗芯片的研发,时刻准备着将寒武纪的产品放入云端。陈天石在发布会现场公布了在 R-CNN 算法下 MLU100 与 Tesla V100 和 Tesla P4 的计算延迟对比,数据显示 MLU100 的计算延迟为 125ms,Tesla V100 的延迟为 174ms,Tesla P4 的延迟为 1069ms。

 

现在来看,只有英伟达的体量,才有能力横跨两个领域垂直做深,甚至英特尔也是通过收购完成布局。寒武纪的道路与英伟达相似,但从目前仅有的信息很难判断寒武纪的产品性能,是否能超越英伟达 Tesla V100、Tesla P4。比起各方多有涉足,业内人士更希望寒武纪将垂直领域做得更深。

 

超越互联网+的场景应用

根据 Tractica 研究所的数据,到 2025 年,AI 年收入预计将达到 368 亿美元。Tractica 表示,迄今为止已经确定了 AI 的 27 种不同细分行业以及 191 个使用案例。

 

UCLA 博士李一雷认为,人工智能落地两个重要的点分别是自动驾驶和医疗,然而自动驾驶必须能通过各种极端情况下的验证才能上马,辅助驾驶离现实比较接近。

 

作为 AI 的重头戏,几乎所有的 AI 芯片都在发力智能驾驶领域。因为初创公司偏向端侧,应用场景有所侧重,像地平线这样主攻算法+芯片的企业,未来将在垂直领域做深,沿着规划的三代架构,对芯片进行逐年迭代,使其能力不断升级,智能驾驶仍旧是他们发力的重点行业领域。

 

相比而言,英伟达的核心虽然是 GPU,但是它打造的是一个生态。自动驾驶所需要的运算能力体现在云端和终端两个方面,终端感知周围环境,做出驾驶决策,而云端是将行驶的数据,通过深度学习或者增强学习“训练”模型,最终应用到车辆终端中。英伟达 CEO 黄仁勋预计明年自动驾驶的模拟和开发系统会成熟,2019 年机器人出租车将飞速发展;2020-2021 年底,第一辆全自动的 L4 级自动驾驶汽车上路。

 

丰富的生态,尤其是云端建立深度学习的模型训练,使得英伟达的 AI 芯片拥有更为广泛的应用场景。其中寄予人类深厚希望的,更多是 AI 芯片在医疗上的赋能。以肺癌而言,以往医生一般通过肉眼检查 CT 扫描影像,从中寻找小块结节并推断结节的良性与恶性。但是肉眼的弊端是,如果早期结节很小便难以诊断,后期发现肺癌为时已晚,使得肺癌的存活率仅为 17%。但有了 GPU 驱动的 AI 和深度学习技术来改变肺癌难以诊断的现状。不仅易于诊断,还解放了医生,肉眼检查 CT 扫描影像花费至少在十分钟以上,现在只需要两分钟便可实现结节检测及良恶性区分。据估计,此系统一天可为医生节约至少 4 小时,从而使他们有更多的时间与病人交流或进行更多研究工作。

 

AI 芯片的加持,还给互联网+未能有所改观的传统新领域带来了新变化,比如与互联网难以产生联系的石油行业。据了解,每台海上钻井平台每年大约会产生 50TB 的数据,而其中只有不到 1% 的数据会被标签或分析。看似艰难的数据分析现状,恰恰给拥有海量计算能力的 AI 发挥巨大潜力的机会。

 

在勘探油气藏的过程中,石油天然气行业正在利用计算量越来越庞大的地震算法,用英伟达 GPU AI 解决方案进行“事故预测、岩层辨别以及通过挖掘 3D 模型来创建高效的环境扫描,加快获取钻井许可的过程”,至少提速 4—20 倍。因强大的计算能力,使得斯伦贝谢、雪佛龙、道达尔、巴西石油以及雷普索尔等各大世界石油巨头均部署了英伟达 Tesla GPU,以加速地震处理的速度。

 

淘金热,正在 AI 领域热络上映。不管是自动驾驶还是医疗、石油,这仅仅是 AI 淘金热被发掘出来一小片领域,更多的机会还存在于国防、气候、医学、金融、生物信息等行业。比起互联网+引起的效应,AI 赋能的效果显然更为革命与显现。