昨天,英特尔年度战略“纷享会”在线上举办,在会上英特尔中国研究院院长宋继强发表主题演讲《凌云之智:驱动智能时代的技术创新》,英特尔近期的关键进展,以及在计算方式、连接方式以及存储方式三个领域的全面布局。

 

过去二十年到未来的五年,数据从规模、形态到处理需求都在发生巨大的变革。第一,数据量呈指数级爆发。第二,数据形态日趋多样化。第三,数据实时处理的需求也在不断增长。人工智能的原数据及其产生的模型并不是给人看的,是给机器使用的,这个数据量是非常巨大的。万物互联之后,机器产生的数据也在大幅度上升。这些数据远远超出网络和云端处理的能力,不可能都送到数据中心云端处理。数据在哪里产生就要靠近数据源进行处理。因此,边缘计算和实时处理的需求也是快速增长的。

 

在数据的变革驱动之下,计算的发展呈现出三个显著的趋势。第一,数据量呈爆发式增长,这使得对于智能化的需求激增;第二,多元化的数据形态和工作负载,许多是非结构化的数据,一种架构无法满足所有需求,计算必须更加多元化;第三,未来大量设备是在物理世界中捕捉数据进行实时处理的,数据从云端到边缘到设备都有处理和存储的需求。因此,边缘的智能化正在全面展开。

 

宋继强表示,英特尔对于未来计算的研究和布局,将紧密围绕数据展开。我们认为,未来计算的颠覆性效应将会在三个维度发生,即计算方式、通信方式以及存储方式。面向智能时代,英特尔的指数级创新将在三个层面发生,分别是通过智能连接让数据传输得更快,通过智能存储去存储更多数据,通过智能计算去处理各种各样的数据。”

 

从新型计算的角度来看,量子计算、神经拟态计算将是两种重要的新型计算方式;从数据通信的方式来看,硅光子将是一种新的互联方式;从存储或者内存技术来看,英特尔认为让数据尽可能地靠近计算,是未来数据处理最迫切的需求,让内存和计算资源更紧密地结合在一起,将让大规模数据处理的效率大幅攀升。

 

 

Loihi新型计算架构:让拟态神经成为可能

从新型计算的角度来看,量子计算、神经拟态计算将是两种重要的新型计算方式。针对神经拟态计算,英特发布了 Loihi 新型计算架构,传统的 CPU、GPU 擅长处理人难以处理的大规模、大数据量的并发计算。但是,随着技术的发展和应用领域逐渐扩展,人们逐渐要求计算机的处理模式趋向于像人类一样,不需要大量数据,也不需要预先标注好的数据训练它。为了应对这种挑战,我们需要全新的架构,同时还需要大幅度提高能效比。

 

Loihi 支持模拟人脑的神经元连接构建的单元,将计算和存储完全融合在了一起。一个芯片中包含了 128 个核,每个里面又包含了 1000 个小的神经元,这就构成了一个大规模的片上计算网络。同时,它可以支持多种学习模式,可以同时将深度学习、关联学习、强化学习使用的网络放在一个芯片架构中,让它去学习和自我扩展,这是领先的软硬件协同设计的模式。

 

英特尔基于 Loihi 芯片可以设计出更大规模的系统,让它具备更强的学习能力和处理更复杂的学习应用。早期,英特尔把 4 块 Loihi 主板联结在一起,然后进展到可以用 32 块、64 块,最新已经把 768 块 Loihi 芯片集成在一起,做成一个大规模的神经拟态计算系统,这个系统可以在 5 个机箱大小的空间中集成 768 块芯片,以 500W 的功耗执行大规模的深度学习、神经拟态学习的应用。

 

目前,已经有 90 家组织加入到英特尔神经拟态计算研究社区中。这个系统已经可以给很多合作伙伴提供云上的服务,可以在上面试验大规模的工业系统中如何使用神经拟态的新架构,在更复杂的工作负载和高性能计算中实时动态处理数据。在算法方面,英特尔和美国康奈尔大学进行合作,探索让计算机拥有嗅觉。它使用一套模拟人的嗅觉系统的模型架构,将它实施在一块 Loihi 芯片上,功耗非常低。而且只用一个样本就可以让这个系统的识别率达到 92%。如果用传统的深度学习方法,需要 3000 个样本训练才可以达到这样的识别率,同时功耗是千倍以上。可见,Loihi 的神经拟态架构,加上专门设计好的算法,可以让机器学会一些原本人才能学会的事情,并且降低功耗。

 

量子计算:从概念走向实用

 

 

量子计算是一种全新的计算模式,它的底层基础已经不是经典计算中使用的具有确定性的二进制比特,而是利用量子态系统为基础,通过量子位的相干,在多个量子位上实现超大规模的并行计算。2015 年,英特尔宣布与荷兰科研机构 QuTech 开展为期十年的合作计划。之后,两个研究方向同步在进行:第一,是超导量子位和超导量子测试芯片,英特尔发布了 49 量子位的测试芯片“Tangle Lake”。第二,是英特尔做硅电子自旋的“自旋量子芯片”。现在已经有了两个自旋量子位的测试芯片,并且在英特尔自己的 300mm 的晶圆生产线上制作。现在量子计算系统面临的一个挑战是,如何在低温下测试晶圆上或者是量子系统中的量子位到底好不好?英特尔与合作伙伴一起设计并试验了量子的低温晶圆的测试系统。

 

宋继强表示,英特尔持续推动量子计算,实现规模化的商业部署。如果将量子计算商业化比作“极限攀岩”,那么现在才刚刚启程。我们在关注如何构建能够用于解决棘手挑战的系统,即“量子实用性”。只有在成千上万个量子位可靠运行的情况下,量子计算机才能比超级计算机更快地解决实际问题。换句话说,业界要开发出这种规模的功能性量子处理器还需要数年时间。

 

围绕量子计算领域,英特尔也正持续探索。一是要创造更好、更稳定的量子位,还要提升多个量子位同时连接和测试,英特尔需要和摩尔定律的同步推动并开发出一套可扩展的 I/O 系统。宋继强强调,“英特尔的前沿探索,不会与目前的架构创新产生冲突,而是一个互补的探索。”

 

为了实现在低温下控制多个量子位,英特尔研究院刚发布了代号为“Horse Ridge”低温控制芯片,它可以同时控制 50 个左右的量子位,而且是在 -270℃左右的低温下去控制。这是一个里程碑,这样可以让量子位的控制更加集成化,为我们控制成千上万个量子位打下基础。

 

存储和存储模式的革新

 

 

当我们的计算需要很多数据时,就必须要通过内存总线访问数据,这会造成用户要去远一点的内存找数据,因此造成大量的计算等待。如果能将数据和计算紧密地放在一起,就可以大大减少对内存通道的冲突。现在计算靠近内存核心是非常核心的方向。从上图中的一个非常小的近内存计算单元来看,里面有 16 个乘加器组成的计算单元,同时有它自己的静态内存的存储。所以,这部分的计算可以直接拿到数据,不需要再占用内存总线。同时,这是个非常小的计算单位,也可以更大量地集成在一起。在 FPGA 应用案例中,它将大量的计算单元和内存模块放在一起构成了更大规模的计算系统,同时保证内存功耗很低。

 

未来通信:硅光通信

 

 

未来的通信即硅光通信,现在在内存之间传输数据要求大带宽、低功耗。光通信是现在采用较多,但是光通信和电子器件结合的时候,通常还需要一些分立器件连接起来进行转换,这个器件会比较耗体积,也会损失一些传输效率。如何将电和光的转换封在一个芯片封装中,这非常重要。今年 3 月,英特尔向业界展示了业界首个一体封装光学以太网交换机,它成功将 1.6 Tbps 的硅光引擎与 12.8 Tbps 的可编程以太网交换机进行了集成。

 

宋继强指出,“我们认为一体封装光学器件对于 25 Tbps 及更高速率的交换机具备功率和密度优势,是非常必要的技术。我们目前已经可以为客户提供支持。”