最近在杭州举行的“2022英特尔中国数据中心合作伙伴技术峰会”上,听到了两个小案例,从某种程度上也反映了数据中心的发展重点和未来趋势,先来分享如下:

 

两个案例

 

都软件定义存储了,硬件还重要吗?

 

北京星辰天合科技股份有限公司联合创始人&首席运营官翟静做了一个小小的统计:在工信部去年印发的《“十四五”信息通信行业发展规划》中,提到“人工智能”21次、“网络安全”77次,“数据”149次。

 

各行各业都在推行数字化的今天,数据的重要性不言而喻,翟静的深切感受是关于大量数据的存储方式。他谈到,要把数据真正留存下来,业界主要有两种方式:一种是传统存储阵列,一种是分布式软件定义。翟静把这两种方式分别比作手机的“功能机”和“智能机”,传统存储基本是基于ASIC芯片,主要责任是让数据保存更可靠、性能更好;而分布式软件定义是基于通用的x86平台的通用硬件能力,用软件对数据进行资源池化、调度,去支撑云平台。

 

当前,软件定义存储逐渐成为企业IT的主流选择。据IDC统计,软件定义存储的市场规模在2017年约为30.59亿,到2021年已经达到了137亿。从发展的角度看,软件定义存储的规模在5年前约是传统存储的1/4,到现在,软件定义和超融合基本占据了整个存储工作负载的一半左右。

 

站在软件公司的角度,翟静也分享了他对于存储硬件的看法。在他看来,硬件会影响整个软件定义存储项目的成功,特别是下沉市场,一些客户缺乏软硬件集成的能力、运维的能力,就更为看重产品的易用性、安装/运维的便利性。他强调,所谓软件定义一切,并不意味着不需要重视硬件平台,反而先进、通用的硬件平台是一切的基础,只有一个扎实的、开放的硬件平台,才有健康的生态和生意。

 

如何为中国需求做更多事情?

 

根据工信部印发的《新型数据中心发展三年行动计划(2021—2023年)》,到2023年底,新建大型及以上数据中心PUE降到1.3以下。硬指标与时间表的设定,将进一步加快绿色数据中心的普及。

 

当英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立,与海外同事就这一趋势沟通时,同事的反应出奇一致:没听说过PUE 1.3,什么是PUE?

 

其实,PUE(Power Usage Effectiveness)是用于测量IDC能源效率的指标,是用IDC总能耗除以IT设备能耗得来。IDC总能耗包含IT设备能耗和制冷、配电等系统能耗,PUE数值越靠近1说明非IT设备的能耗越少,能效水平越高。

 

自去年开始,英特尔中国战略升级,进入2.0时代。“差别在哪里?原来更多是全球技术、产品提供给中国客户,当然这个过程中包括适配不同软硬件需求的工作,以及和中国生态伙伴的合作”, 陈葆立表示,“但现在我们想更贴近这个市场,为中国客户定制解决方案,未来也会持续打造更符合中国本土的产品。”

 

回到“PUE 1.3”这个案例,这个海外同事并不熟悉的市场需求,在当下可能是个疑问,也可能是个机会。当前几乎所有中国客户都希望能达到更好的PUE,那么是不是可以通过本土团队更好地赋能?陈葆立介绍说,“英特尔中国现有1.2万余人,上海也有研发团队,涵盖了硬件和软件人才,我们相信可以为中国的需求做更多事情。”

 

数据大行其道,遇上绿色计算和“英特尔中国2.0战略”,会碰撞出什么样的火花?

 


英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立

 

应对新型数据中心建设核心需求

 

英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰表示,随着“双碳”战略的确立,“新基建”、“东数西算”等国家工程的推进,中国数据中心建设正朝着高能效、高算力、高安全、高技术的方向迈进。



英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理
庄秉翰

 

英特尔正在应对新型数据中心建设的三大核心需求:

 

首先,面对数据爆发和千行百业的数字化创新,需要针对复杂的场景和工作负载,搭建不同的系统级解决方案。

 

其次,国家对新型数据中心提出了数网协同、数云协同和云边协同的三个协同要求。全国算力合理布局,建立新型数据中心的网络协同机制,在感知、调度、编排三个维度上铺设低时延网络,形成云网一体,算网融合、软件定义的新型算力网络

 

此外,国家发改委明确规定,在未来数据中心的建设中,PUE需要在1.3以下,这是一个非常严格的要求。因此节能、绿色化、降低PUE成为未来发展的趋势。如何更加绿色的处理数据成为重中之重,对满足高速可持续的数字经济具有重要的战略意义。

 

建立行业标准,加速可循环增长

 

英特尔数据中心平台技术与架构部中国区总经理王飞表示,可持续发展已经成为一个非常重要的话题,它不但涉及国计民生,也对行业、企业的发展起着至关重要的作用。在数据中心可持续发展方面,英特尔构建了绿色数据中心解决方案矩阵,在先进的液冷技术上进行深度的联合创新。同时,还通过建立行业标准,去最大化可循环经济的减碳效应。

 

针对不同市场需求,英特尔最新推出了两个服务器模块化设计的行业标准:第一个标准是DC-MHS(Modular Hardware System),主要针对互联网领域和企业的国际市场,其关注点主要是模块的复用,通过标准的覆盖可以极大减少产品的电子垃圾,有效降低产品在生产阶段的碳排放。第二个标准是开放通用服务器平台(Open Common Server Platform;OCSP),是英特尔联合了多家国内厂商共同推出的一个标准,主要针对通用服务器市场,在设计上更加强调对成本的优化。这两个标准的共同目标都是希望通过简化设计、降低成本,通过灵活的模块设计来组合出不同的系统设计。

 

此外在本次峰会上,绿色数据中心技术创新论坛正式成立,英特尔携手论坛成员共同发布了《绿色数据中心创新实践——冷板液冷系统设计参考》,旨在突破数据中心系统功耗限制,并在降低设计与使用成本的同时,建立并逐步完善冷板液冷的生态系统,从而有效降低数据中心PUE值。

 

王飞表示,液冷技术是直接降低PUE的不二之选。数据中心冷却系统大致可以分为两类,一类是比较传统的风冷技术,另外一类是日渐成熟的液冷技术,而液冷又分为冷板式和浸没式。相较于风冷,液冷技术有更大的能效优势,因为它有更好的热捕获能力,对于浸没式液冷来说,甚至可以达到近100%的热捕获能力。在液冷技术的加持之下,数据中心PUE甚至可以降到1.03左右。

 

尽管如此,液冷技术在大规模推广方面仍存有不少挑战。对于冷板式液冷来说,成本依然很高,供应链、生产链并不是非常健全,如何去推动行业标准、健全产业链是当前挑战;对于浸没式液冷来说,如何找到既满足性能要求,又符合环保标准,同时做有效的产品验证工作也是非常重要的验证领域。

 

陈葆立表示,冷板技术比较成熟,当前最主要的问题是价格,而根本原因还是用户少、用量规模小,英特尔现在就是希望能发动生态力量,去推动产品和技术的普及化。而浸没式液冷还在早期阶段,大家还在摸索过程中。至于两三年之后究竟是冷板还是浸没式液冷更好用,还要取决于当时的技术成熟度和成本,目前英特尔在这两方面都在推进,希望和生态伙伴继续深度合作,共同推动行业标准的设定和推广,共同加速成熟设计的落地。

 

据阿里云首席架构师钟杨帆回顾,英特尔和阿里巴巴从2015年开始在浸没式液冷领域展开合作,当时双方看到,浸没式液冷不仅能解决IT设备散热问题,同时能够将PUE做到极致。2015年,全球数据中心PUE约为1.8左右,通过浸没式液冷技术可以把PUE降到1.09,同时服务器本身也能实现散热能耗全部消除,真正做到IT能耗用于计算,PUE也能达到趋于1的理想值。

 

钟杨帆表示,“我们证实了浸没式液冷技术是未来绿色计算技术跃迁式的革命,所以2020年我们进一步扩大规模,实现了首个5A级的绿色液冷数据中心的大规模投产,目前可以做到2-3万台服务器的规模。在未来持续演进的过程中,我们将持续投入做到更大规模。”


数据中心的全栈布局

 

数据中心基础设施方面,英特尔注重全栈硬件产品组合,基于XPU战略,打造了跨CPU、GPU、FPGA、IPU等多种架构的算力资源,为多元化业务和应用场景需求提供定制化算力服务。

 

对于数据中心来说,至强可扩展处理器是一款具有重要意义的产品。从2017年推出第一代至强可扩展处理器到现在,出货已经超过5千万颗,可以说是全球的算力底座。去年第二季度发布的第三代至强可扩展处理器Ice Lake,目前全球已经出货600万片,中国市场占据大约三分之一左右。他透露,第四代至强可扩展处理器Sapphire Rapids即将推出,不仅提供更多的内核、更高的算力,也内附了AI加速和安全加速等升级。

 

陈葆立介绍,通过在传统CPU中加入AI加速指令,目前,最新一代至强可扩展处理器运行AI训练或推理应用,已经比3年前快了30倍以上。未来几代至强系列处理器,英特尔也制定了全新的架构策略并推出性能核(P-core)和能效核(E-core)并进的双轨产品路线图,旨在将两个优化的平台整合为一个通用的、定义行业发展的平台,并极大限度地增强了产品的每瓦性能和细分功能。

 

不过,面向千行百业不同的算力需求,除了硬件层面的升级,还需搭配丰富的软件方案。从硬件接口软件到操作系统到虚拟化再到底层的函数库、中间件、平台软件、应用软件,以及为最终用户提供最后一公里部署的服务和完整解决方案,软件的类型纷繁复杂,且每一层都非常重要。陈葆立表示,为了帮助软件开发商充分挖掘英特尔XPU平台的性能和价值,英特尔主要从三方面进行推进:

 

第一,通过提供OneAPI软件工具帮助开发者能够跨平台,用行业标准统一工具来开发软件,避免了不同底层硬件需要不同的软件开发环境,降低了复杂度,从而充分发挥硬件的能力。

 

第二,通过对开源软件的贡献,缩短软件开发周期、降低开发成本。英特尔是众多开源社区的重要贡献者之一,包括操作系统、开源云解决方案、面向大数据和AI的开源项目,以及开源优化管理工具等。

 

第三,英特尔和行业头部应用开发商合作,针对最终用户进行了大量的软硬件适配和优化。工作。特别是对于运行国产软件、操作系统的应用,使得国产软件在英特尔架构上能够跑得更快更好。

 

未来,服务器将不只是在数据中心,也可能在边缘或其他地方。如何让合作伙伴能快速、高效地打造不同方案,满足各种不同需求?陈葆立谈到,这就需要制定行业标准,提高投资报酬率。通过行业标准和模块化的设计,能够更好地求同存异,在快速开发过程当中,降低基本服务器研发的成本,同时还可以基于开放、通用的平台进行创新,来满足差异化需求。

 

支持算力网络统筹建设

 

当前,国内正在大力推进算力网络建设,在这一过程中,越来越多的玩家都开始参与了,包括运营商、互联网厂商等。如何看待未来的生态格局?如何更有效地推进我国算力网络的建设?

 

在庄秉翰看来,运营商、互联网厂商会在“东数西算”部署中占据重要地位。在全国的算力网络中,除了布局新的骨干型传输网络之外,还要加入智能机制,这样才能更实时、更安全地处理更复杂的负载,才能把整体的云网资源使用起来。同时,运营商、互联网厂商的参与还带来一个好处,就是不会发生太多的资源重复建设的问题。

 

他指出,运营商其实拥有很多算力资源,在中国,60%以上的IDC其实是运营商拥有的,网络也是他们铺设的,可以说运营商发展公有云是必然之路。

 

此外,边缘计算现在越来越受到重视,而运营商本身就有很多机房布局在各个省、城市、乡镇,只要对这些机房进行改造升级,就可以把机房变成边缘服务器,再加上它的网络资源,可以把以前的通信网络变成包括中央和边缘云的基础架构。“目前,运营商和主流的互联网公司已经在商业和技术层面都展开合作了,这个趋势在国内将会继续延续下去”, 庄秉翰表示,“英特尔乐于看到运营商的转型,并支持他们建立公有云的能力。


写在最后

 

算力正在成为基本的生产力,今天,一部手机的算力可能就相当于几十年前一个超算中心的算力。而数据中心作为5G、人工智能、云计算等新一代数据技术的重要载体,已经成为数字经济时代的底座,其产生、带动的直接和间接经济效益也将逐渐增加。

 

数据中心不是“能耗怪兽”,它在耗能的同时也贡献了重要的算力支撑。当前的重中之重,是构建布局合理、技术先进、绿色低碳、算力规模与数字经济增长相适应的新型数据中心,并持续向算力多元、算网协同、绿色低碳、智能敏捷等方向发展。

 

在新时代,英特尔如何重新思考算力底层建设、如何发挥生态优势和价值,去推进数据中心的转型和升级,对于“双碳战略”、“新基建”、“东数西算”布局下的算力升级具有重要意义。广泛的生态系统是英特尔的核心竞争力之一,不过,今天的产业链比以往更复杂、分工更细致、合作更紧密。在可预见的未来,英特尔如何携生态之力,探索创新,推动产业的发展与升级,是值得关注的发展方向。