从钱德沛院士的《从网格到东数西算：构建国家计算基础设施》报告，看澎峰科技2.0的战略愿景

第四届中国超级算力大会ChinaSC2022期间，中国科学院钱德沛院士作了题为《从网格到东数西算：构建国家计算基础设施》的演讲报告。

该报告回顾了计算应用模式的变迁，国家高性能计算环境的变迁，以及高瞻远瞩指出了东数西算背景下的三个趋势：算力需求不断上升、计算机异构化、算力中心多样化，和八大待解决的问题：异构算力中心的透明调度、异构并行编程、数据在分布算力中心的合理放置、公共算力中心的数据安全和隐私、适应异构的新型并行算法、应用生态环境、新的运行模式、应用软件开发新机制。

本文先聚焦到其中的2大趋势和2个待解决问题上“计算机异构化趋势和异构并行编程问题”，并结合澎峰科技的战略方向分享一些我的理解和看法。

钱院士的演讲

我们的观察是：

异构的趋势，包含片内异构和整机系统异构两大类，可以简单描述为“CPU + 加速卡（GPU、TPU、NPU...）”，CPU指令集架构主要也就是x86、ARM、RISC-V三种和其他小众化方向，各自生态圈相对统一。但各加速卡芯片企业设计的指令集和微架构(Micro Architecture)基本都不同，也存在一些内在近似性情况，原因是：基于同一供应商提供的IP（Intellectual Property）；或借鉴自NVIDIA，也是为了软件生态便于向CUDA兼容；或借鉴自TPU（Google，Tensor Processing Unit）等成熟架构的总体设计思想。

异构计算单看理论算力的提升很令人振奋，但CPU通用算力、GPU算力和AI算力的运用存在巨大的差异。在具体的图像渲染领域得益于DirectX、OpenCL和Vulkan的开放API标准，后来者的基本还有据可循；但涉及科学计算、AI加速、物理仿真等领域的计算需求，开放/开源的标准化推广一直较为缺乏，类似OpenCL标准缺乏强力的推动者和建设者，还包括技术实现能力和投入。于是使得加速计算的异构并行编程和应用迁移的情况很复杂，这也是NVIDIA早年推动CUDA生态发展的原因，也成就了今天CUDA生态令人叹畏的结果。具体到我国，如何建立统一的计算中间层、统一的编程环境，以及培养优秀的并行优化工程师，对于我国自主算力生态建设和整个计算行业的繁荣是一个迫切需要解决的问题，越早进行成本越低。

在整机异构层面，CPU和GPU/DSA多数情况不是同一企业设计，那么谁来主导异构计算的软件集成呢？历史上，GPU企业NVIDIA凭一己之力已经构建起了一个加速计算生态并且持续进化，Intel正在通过推动OneAPI开源项目来构建一个围绕Intel CPU的加速计算生态。那么在我国，如何以更低成本、更高效率、更快速度构建起一个我国算力行业的加速计算生态呢？对于这个问题，显而易见难以实现的是每家企业各自发起一个异构计算生态！澎峰科技的PerfXAPI给了行业另外一种选择：独立第三方的异构计算软件栈企业，如果能获得政府的支持则更佳。这里要强调一点的是，标准是标准，标准需要具有前瞻性和国际化眼光；技术实现是技术实现，技术需要领域各层次高水平人才和研发投入。

国内当前参与高性能处理器设计的CPU、GPU、NPU企业总共超过30家，如果按照“CPU+加速卡”的全组合计算，将达到上百种组合。在最底层计算基础软件层面无法统一的情况，整个行业将需要投入大量资源，也将造成不公平的竞争，从而导致巨大浪费。PerfMPL数学计算库基础软件将实现底层的统一，为建立中国算力软件生态奠定基础。

钱院士的演讲

钱院士明确指出我国的算力中心已经呈现出多样化趋势。背后原因既有因为各芯片和硬件企业的区域销售渠道优势原因而形成各“区域算力中心多样性”，也有因为应用多样性需求造成的算力中心多样性。我们提出了大致的总体思路，实现的难度具有挑战性：

需要建立一套高效和自动化工具软件体系，提升存量软件迁移的可能性和作业效率，包括迁移依赖库、自动代码生成、优化、正确性测试、性能测试等工具。在这方面澎峰科技已经有了自己较为丰富的技术储备，例如：如何支持x86应用软件往ARM或RISC-V生态迁移。

如何让科学家、算法工程师在进行科研和算法设计阶段就使用统一的国产自主的科学计算工具软件，由此直接打通从算法模型-->算法设计-->算法部署的全流程体系，以及支撑AI for Science这种新研究范式的需求。PerfXPy怀有这样的愿景，由此PerfXPy将具有三大特性：1. 追求极致优化的计算性能。2. 强调支持科学计算和AI计算的易用性。3. 支持异构计算，尤其是国产算力平台。4. 采用Python语言。

实际上，Intel、AMD这样的国际巨头和中国芯，都面临着如下图所示的问题。（下图为本次大会张先轶博士的《异构计算软件栈的国产自主和国际化愿景》主题演讲截图）

澎峰科技创始人兼CEO张先轶

在这里，我想简单评论一下在我国缺乏统一算力软件生态的情况下，“中国芯”企业的实践方法：

借力NVIDIA CUDA。短期而言这无疑是最高效的，并且从商业逻辑而言也无可厚非。但从长期来看，这也同样助长了CUDA应用生态的发展。弊端还在于可能永远落后于NVIDIA至少一代，也无法借力CUDA-X构建的更深垂直生态，同时兼容风险永远存在，包括NVIDIA埋雷的不公平手段。

企业各自建独立的软件生态。姑且不论我国是否有存在如此实力的企业，但从AMD和Intel近年的战略布局来看，作为追赶者的传统巨头都已经发现只有通过推动开源生态，才可能挑战NVIDIA的垄断地位。

最后一个问题，我国的计算生态应该如何建立国际化影响力呢？中国的计算机产品和技术是否需要通过出口为国家创造财富呢？

本人给行业的建议是：既要短期实现计算芯片的技术突破，也需要参与中国自主可控算力软件生态的构建，共同建设长期和未来的竞争力。由此，澎峰科技的PerfXAPI发展理念是“开源成就你我，生态释放算力”，PefXAPI追踪ONNX RT、OneAPI、OpenCL/Sycl这种国际开源标准并进行技术实现，强调开源基础上的创新，并以参与国际化竞争为最终目标。

综上所述，我们给出了解决这两个关键问题的方案选项，也正在通过商业化方式进行了积极实践。澎峰科技在本次大会获得了“算力软件基建领军企业”和“中国智能计算卓越贡献奖”双项殊荣！荣誉是肯定，更是一种动力。澎峰科技通过不断的自主研发与科技创新，为推动我国自主算力软件生态建设贡献力量。

澎峰科技成立六年以来，灵活的合作方式使我们获得一些国内知名芯片企业、算法企业、工业软件企业、科研院所的大力支持，在这里表示诚挚的感谢和敬意。我们期待未来能与更多行业伙伴加强技术交流，携手开启属于中国的算力时代，并参与到国际化竞争中去。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
SM712.TCT	1	Semtech Corporation	Trans Voltage Suppressor Diode, 400W, 12V V(RWM), Unidirectional, 4 Element, Silicon, LEAD FREE PACKAGE-3	ECAD模型下载ECAD模型	$0.83	查看
C106MG	1	onsemi	Sensitive Gate Silicon Controlled Rectifier - SCR 600 V, TO-225, 500-BLKBX	ECAD模型下载ECAD模型	$0.8	查看
PJ-102AH	1	CUI Devices	2.0 x 6.5 mm, 5.0 A, Horizontal, Through Hole, Tapered Pins, Dc Power Jack Connector	ECAD模型下载ECAD模型	$0.89	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

SM712.TCT

Semtech Corporation

Trans Voltage Suppressor Diode, 400W, 12V V(RWM), Unidirectional, 4 Element, Silicon, LEAD FREE PACKAGE-3

$0.83

查看

C106MG

onsemi

Sensitive Gate Silicon Controlled Rectifier - SCR 600 V, TO-225, 500-BLKBX

$0.8

查看

PJ-102AH

CUI Devices

2.0 x 6.5 mm, 5.0 A, Horizontal, Through Hole, Tapered Pins, Dc Power Jack Connector

$0.89

查看

从钱德沛院士的《从网格到东数西算：构建国家计算基础设施》报告，看澎峰科技2.0的战略愿景

推荐器件

相关推荐