这是我第二次见到 Naveen Rao。

 

与初见一样,聊到 AI,他的话匣子一下被打开,一直有层出不穷的想法与理论冒出,满腹经纶,侃侃而谈。

 

英特尔全球副总裁兼人工智能产品事业部(AIPG)总经理 Naveen Rao

 

与他这种温暖的教授般的气质形成“反萌差”的是他对极限运动的热爱。这位 40 刚出头的 AI 专家还是一名运动健将,以至于在滑雪、滑板、骑自行车、驾驶赛车、摔跤和打篮球的生涯中,弄伤了全部手指。或许就是这样一位冒险家,更适合带动人工智能,在他创立的深度学习初创公司 Nervana 被英特尔收购后,Nervana 被迅速整合到英特尔 AI 核心战略之中,现在 Rao 已经成为英特尔人工智能事业群(AIPG)的掌舵人。

 

Rao 说来到英特尔,“这里是一个开放的文化”,他很喜欢团队合作,然而调用资源并不是一件容易的事,但英特尔在产品的市场化方面拥有丰富的经验,强大的向心力正将公司各部门之间扭成一股劲,朝着一个目标通力协作。

 

在英特尔,实干永远比空谈更重要。在英特尔首届 AI 开发者大会上,由 Rao 率队带领,英特尔人工智能业务相关部门的“狠角色”集中露面,这应该是英特尔 AI 史上一次先例。要知道,除了英特尔内部会议,能够在公开场合看到一群“大牛”如此乖巧的集中出现,几乎是零概率事件。

 

但英特尔并没有让人失望。

 

这一次它拿出了一支配置超高的英特尔“AI 银河战队”(姑且叫这名吧),如下图,从左到右依次是:

 

Jennifer Huffstetler,英特尔数据中心事业部副总裁兼数据中心产品和存储营销总经理

Reynette Au,英特尔可编程解决方案事业部副总裁

Jack Weast, 英特尔无人驾驶解决方案资深首席工程师兼首席架构师

Gayle Sheppard,英特尔新技术事业部副总裁兼 Saffron 人工智能事业部总经理

Remi El-Ouazzane,英特尔新技术事业部副总裁兼 Moviduis 总经理

Jonathon Ballon,英特尔物联网事业部副总裁

Naveen Rao, 英特尔公司副总裁兼人工智能产品事业部总经理

 

尽管这阵容堪比漫威“复仇者联盟”,但依旧有“大神”在画框外。

 

英特尔人工智能事业部副总裁、 Nervana 团队核心成员 Carey Kloss

 

Carey Kloss 是英特尔人工智能事业群副总裁、 Nervana 团队核心成员,虽然并没有在上图中出现,但他向科技行者表达出对团队的热爱,“英特尔有迄今为止我见过的最佳的后硅培养(post-silicon bring-up)和架构分析。”也正因如此,Nervana 神经网络处理器(Nervana Neural Network Processor,NNP)才获得巨大提升。

 

事实上,NNP 也是英特尔酝酿已久的“杀手锏”。在本次 AI 开发者大会上,Rao 就爽快公开了英特尔新一代 AI 芯——英特尔 Nervana NNP-L1000,代号为“Spring Crest”的专用人工智能芯片,而这款芯片也即将成为英特尔第一款商用神经网络处理器产品,并计划在 2019 年发布。

 

尽管 Rao 并没有再多透露新代 AI 芯片的细节,但同为 Nervana 创始团队的 Carey Kloss 却掌握着机密——我们当然不会放过他。就在 AI 开发者大会期间,科技行者与他进行了一次“接地气”对话,原来打着“如意算盘”的英特尔还可以这样玩。

 

Nervana NNP:新 AI 芯性能飙升 3-4 倍,但威力还没完全释放

在 Rao 长达 1 小时的主题演讲中,最重磅的发布非英特尔 Nervana 神经网络处理器莫属了,它对英特尔的意义非同小可。

 

如果拿去年 10 月首次公布的“Lake Crest”(Nervana NNP 系列初代芯片代号)做一个比喻,可以说“Lake Crest”就像一场“及时雨”,成功帮助英特尔在 AI 专用芯片竞争中站住脚。但英特尔却提出了一个更大的目标,即到 2020 年要将深度学习训练的性能提升 100 倍。而 Crest 家族很可能成为英特尔目标实现的最快途径。

 

要知道一块芯片的打造并非易事,如果背后没有一支疯狂、专注的芯片开发团队,它也将是一块不足挂齿的芯片。所以懂门道的内行人更专注的问题是:Nervana 神经网络处理器系列芯片背后的英特尔 IC 设计团队,究竟是如何打造出这颗能在现有性能上再飙升 3-4 倍的“Spring Crest”?

 

虽然 Carey Kloss 口风很紧,但关于 Nervana 神经网络处理器,科技行者还是在与他的聊天中,拿到以下犀利信息:

 

1、Lake Crest 和 Spring Crest 的主要区别

Lake Crest 作为第一代处理器,在 GEMM(矩阵运算)和卷积神经上都实现了非常好的计算利用率。这不仅仅是指 96%吞吐量的利用率,而是在没有充分定制化的情况下,Nervana 也在大多数情况下实现 GEMM 高于 80%的计算利用率。当开发下一代芯片时,如果能够保持高计算利用率,新的产品在性能上有 3 到 4 倍的性能提升。

 

2、Lake Crest 计算利用率达到 96%,为什么到 Spring Crest 不升反而降了?

这是一个市场策略,把利用率适当下降。有些情况确实可以实现 98%,在没有资源冲突时,每个硅芯片都完全运行的情况下,可以达到 99%甚至 100%计算利用率。但英特尔想展示的是大多数情况下能能实现的利用率,所以适当调整了。

 

3、为什么 Nervana 芯片的发布节奏一再延期?

分为两个阶段,Nervana 在 2014 年成立之初就开始研发 Lake Crest,,当时整个团队大概 45 人,正在构建一个最大的 Die(硅芯片),我们开发了 Neon(深度学习软件),还构建了云栈,这些都是小团队所完成的。但这也是挑战所在,小团队成长会有阵痛,Nervana 花了很长时间才把第一批产品拿出来,直到去年芯片才真正问世。关于 Spring Crest 为何选择 2019 年年底推出,因为需要集成更多的 Die(硅芯片),获得更快的处理速度,但需要一定的时间去制造硅片,也需要硅片变成新的神经网络处理器,这是延迟的原因。目前来看,Spring Crest 正处于合理的节奏中,已具备明年取得成功的所有要素。

 

4、延迟给英特尔带来了哪些不利影响?

Carey Kloss 并不认为英特尔会在神经网络处理器上处于劣势,因为英特尔的反应速度相对较快,比如逐步转向 bfloat 是一个重要因素,它是业内广泛采用的针对神经网络的一种数值型数据格式,很受市场欢迎,未来英特尔将在人工智能产品线上扩大对 bfloat16 的支持,包括至强处理器和 FPGA。

 

5、拿 nGraph 与 CUDA 相比:没在怕的

抛开硬件层面,英特尔还在软件部署上加足马力。目前,英特尔 AIPG 事业部正在开发名为 nGraph 的软件,该软件是一个框架中立的深度神经网络(DNN)模型编译器。英特尔正在把 TensorFlow、MXNet、Paddle Paddle、CNTK 和 ONNX 等深度学习框架集成在 nGraph 之上。

 

同样是一个平台概念,很多人喜欢拿 GPU 代表企业英伟达与英特尔做比较,事实上,Carey Kloss 就直言了 nGraph 与竞争对手 CUDA 平台的区别。

 

“nGraph 与 CUDA 还是不一样的。CUDA 你可以理解为 nGraph 的底面,我们称之为变压器。nGraph 通过一个固定的 API 接收来自 TensorFlow,Caffe 或 MXNet 的输入,然后通过图形编译器进行性能优化,排除一些不需要的东西,然后将其发送给 CPU 的 MKL-DNN。所以 CPU 仍然使用 MKL-DNN,即使在 nGraph 中也是如此。“不难看出,英特尔也有意把芯片开发放在统一平台上,将 nGraph 打造成为开发基于所有英特尔芯片的 AI 应用程序的接口做统一。

 

相比于新一代 Nervana NNP-L1000 还处于研发阶段,英特尔另一款专注于计算机视觉的芯片 VPU 实际已经商用。关于这款芯片,英特尔又寄托了怎样的市场期望,来看另一位同样在画框外的大神的解答。

 

Movidius VPU:可能是计算机视觉领域的杀手级应用,包括 Windows 10

Gary Brown 是英特尔 Movidius 营销主管,他的主要工作是将 Movidius 研发的产品买到一个好市场,把买卖做大。他对科技行者说,“任何与计算机视觉和摄像头有关的东西都能够用到 Movidius”。

 

英特尔 Movidius 营销主管 Gary Brown

 

在 Movidius 研发的芯片被称作视觉处理单元 VPU,是一种兼具计算机视觉和智能摄像头处理器的芯片,所做的处理分为三类:第一类是 ISP(图像信号)处理,第二类是基于摄像头捕捉技术的处理,第三类是计算机视觉和深度学习。据 Gary Brown 透露,目前 VPU 在 VR 产品、机器人技术、智能家居、工业摄像头和 AI 摄像头、监控和安保领域“生意”了得。

 

之所以广受欢迎,无疑是 VPU 所具备的两点优势:一是能直接在本地摄像头上运行神经网络,与把数据传送到云端再发送回本地相比,延迟更低、用电量更少、时间更短,也意味着更低的带宽和成本;另外一点则是节能技术,用前端算法降低功耗,就可以关闭大部分芯片,只运作小部分最优化的面部检测功能,而当一张脸出现时,其他芯片则被启动,这样能一直保持面部监控系统开启,对于家用摄像头续航 6 个月没问题。目前,Movidius 还在最新产品 Myriad X 的 VPU 中加入神经计算引擎,能将芯片在深度神经网络中的性能提升 10 倍。

 

“抓拍神器”谷歌 Clips 相机是 VPU 的另一个典型应用。这块体积小巧甚至连屏幕都没有的相机却可以“自动”记录下画面,实际上背后正是 VPU 在发挥作用。以 AI 驱动摄像头,听上去很酷,但这还只是 VPU 应用的“冰山一角”。因为英特尔对 VPU 还寄希望于更大的“生意”,远远超出了硬件范畴,十分重视与软件巨头微软 Windows 10 的合作。

 

“Windows 10 可能即将成为 Movidius VPU 巨大市场之一。”Gary Brown 变得兴奋起了,“微软最近为 Windows 10 研发出新的 API,叫做 Windows ML,代表机器学习,大家可以为 Windows 10 写应用,将机器学习转移到 Movidius VPU,开发人员能够运用 Windows ML 进行应用开发,比如视觉应用、视频会议应用、智能助手进行图片搜索,通过图像识别功能搜索有趣的事情。”也就是说,如果在 Windows 10 系统中运用了 Windows ML,就意味着无需一定要在 CPU 上运行机器学习了。

 

Gary Brown 还表示,目前也有 PC 厂商和他洽谈将 VPU 直接放入电脑的新模块,但名字不方便透露。

 

除了芯片在市场“声名远扬”, 让人出乎意料的是 Movidius 的另一个强项竟然是软件。因为“Movidius 团队很多成员属于开发组,硬件只是我们产品的一部分,而软件开发者工具包包含库、驱动、开源和对应固件,也是 Movidius 产品线之一”,Gary Brown 还表示,英特尔新版本的软件开发者工具叫 OpenVINO,该工具包能够帮助开发者在云端(例如 TensorFlow, MXNet 和 Caffe 等热门框架)创建和培训 AI 模型,并将其部署到各种产品中,像 Movidius 与海康威视的合作就是采用这种模式。

 

目前 Movidius 的客户有 75%集中在物联网领域,这并不稀奇。如果对 Movidius 稍有了解,会知道其实这家计算机视觉初创公司最早由英特尔物联网部门在一年半前负责收购,为了输出更全面的 AI 能力,现在英特尔内部各部门之间都有着蛛网般交织的关系,包括 AI 在物联网的渗透,这也是英特尔最重要的业务之一,如何打这张“组合牌”?又一位大牛登场了。

 

英特尔 AI x IoT:重点放在“智能”物体,不只是计算能力

Jonathon Ballon 是英特尔物联网事业部副总裁,擅长归纳的他,开场就抛出了大会关于物联网内容的三条总结:

 

物联网没有一个万能的架构,根据不同的场景有许多种架构;

不是所有的人工智能都发生在数据中心端或云端,人工智能运行在分布式计算架构中:从云端、网络到边缘设备;

英特尔在软件工具方面做了很大投资,英特尔相信软件是硬件平台实现差异性的重要因素,nGraph 和 OpenVINO 这两个工具的互补性,能够让异构架构发挥出最佳性能。

 

英特尔物联网事业部副总裁 Jonathon Ballon

 

言简意赅,正如 Jonathon Ballon 所言,物联网没有一个万能的架构,但要如何一击即中?英特尔似乎有独特的思考与门路。

 

“我们重点放在智能物体上,不只是计算能力。”Jonathon Ballon 进一步解释,“一台带有芯片的设备,具有计算能力,这叫做计算设备,但这并不意味着它是智能的。当把计算设备连上网络,把数据分离出来,这时这个设备称为物联网设备,但它还不一定是智能设备。物联网设备和智能设备之间的区别是:后者有学习能力,这就是人工智能能够发挥巨大作用的地方。”

 

如果将这种思维映射到医疗成像领域,Jonathon Ballon 也谈到“智能”将演变的轨迹:“或许过去十年,我们专注于快速完成影像获取,但现在 AI 发展已经跨越这个台阶,我们思考的是如何比医生更快速准确分析影响,让 AI 系统能够用几分钟的时间就处理完 1 万张医学影像,并向放射科医生指出哪些影像应该特别关注,下一步还要与相关病例联系起来,提供诊断和治疗方案。”

 

同样的颠覆还会发生在零售市场:英特尔与京东打造的 D-MART“无人商店”,已经在多个智能门店以及智能售卖机项目中部署试用。无人商店用到的机器学习算法主要集中在知人、知货、知场 3 个方向,由于涉及线上线下数据打通,将视频等非结构化数据转化为结构数据等,需要用到机器视觉领域 CNN(卷积神经网络)算法,智慧供应链方面用到的传统机器学习算法,如 SVM、统计学的线形回归、逻辑回归等。综合考虑,京东选择了英特尔的边缘服务器做硬件层支持。

 

从医疗到零售还只看到物联网实践的小小缩影,事实上英特尔正在尝试一个通用逻辑或者说方法论,将物联网的部署在所有行业上打通。在 Jonathon Ballon 看来,物联网也拥有专属的“摩尔定律”,不同行业的 IOT 都会经历三个相同阶段:连接,智能以及自治,而自治阶段是未来物联网发展的终极趋势所在。英特尔与京东、亚马逊打造的“无人商店”就是一个完全自主运营的实例。

 

当谈到竞争,Jonathon Ballon 表示并不担心。“英特尔的优势在于善加利用分布式计算架构,专注于打造端到端的解决方案,包括设备、网关、网络、云、数据中心等。”可以看到,不仅是 AI 产品组合,关于物联网,英特尔也已经攒好“组合牌”,从设备到云已备好了一整套完整的产品组合方案。

 

所以,英特尔的手上都有哪些牛 X 底牌?

 

英特尔从来都不会直接地告诉别人它的 AI 能力有多强,但未来你身边的 AI 可能都有“Intel inside”。

 

就像没听说过 Movidius VPU,但你可能知道大疆今年推出了一款具有手势识别遥控功能的迷你无人机;不熟悉 Moblieye 这个名字,但你大概听过特斯拉 Autopilot 的自动驾驶功能;没研究过英特尔 AI 平台,但你或许会被 2020 年东京奥运会的直播效果惊艳;甚至,在如今大多数人工智能硬件公司采用的芯片前,都要加一个英特尔商标。

 

事实上,借由其体量的优势,英特尔在 AI 硬件方面完成了深远布局。从训练到推理,从服务器到终端的 AI 全产业链上,都有 intel inside 的身影。如果说数据洪流带来巨大机遇和挑战,多种多样的应用需求需要不同的解决方案和技术来满足,同理人工智能也是如此。纷繁复杂的工作负载也需要不同类型和特点的人工智能产品来支撑,这就需要提供更全面的企业级方案。

 

在人工智能策略上,英特尔实际上一直强调的是“广度”,即对于每一种架构风格,英特尔都有一个或多个的产品组合,让各种规模的机构都能通过英特尔开启自己的人工智能研发。例如,英特尔正在与 Novartis 合作,使用深度神经网络来加速高内涵筛选——这是早期药品研发的关键元素。双方的合作把训练图片分析模型的时间从 11 个小时缩短到了 31 分钟。

 

 

当然,要释放 AI 潜力,仅“广度”还是不够的,还应该有更全面的考虑。在一年多漫长梳理与整合之后,英特尔终于拿出了一套相对完善的产品组合方案——英特尔人工智能全栈式解决方案,包括至强可扩展处理器、英特尔 Nervana 神经网络处理器和 FPGA、网络以及存储技术等;针对深度学习/机器学习而优化的基于英特尔架构的数学函数库(Intel MKL)以及数据分析加速库(Intel DAAL)等;支持和优化开源深度学习框架如 Spark、Caffe、Theano 以及 Neon 等;构建以英特尔 Movidius 和 Saffron 为代表的平台以推动前后端协同人工智能发展。

 

这就够了吗?当然不是。

 

差点漏掉了“Loihi”。它是英特尔正在研发的神经拟态计算芯片,能够像大脑一样通过脉冲或尖峰传递信息,通过“异步激活”方式进行计算,使机器学习更有效率,同时对于计算力的需求更小。但 Rao 也指出,Loihi 目前只是一个研究项目,是英特尔的一个重要研究方向但不是唯一方向。

 

“如果我们能提高的话,这项技术将成为潜力股。”

 

“与此同时,还有量子计算,它是创造更多计算能力的方法。”