华为AI存储「求解」大模型

作者 | 南书编辑 | 余快

存储厂商谁能抢先解耦大模型训练的痛点，谁就能占据高地，成为第一个吃螃蟹的人。

比起大模型前台的火热，人们的注意力很少关注到产业链上游。

毕竟，相较于ChatGPT流利的回答、丰富的趣味性，带来工作效率的提升，芯片、存储等硬件并不性感甚至略显枯燥。

但人们不能忽视这样一个问题：在产业分工极度明确的时代，行业进步从来不是某家厂商推动的结果，而是整条产业链的协同驱动。

ChatGPT惊艳全世界的背后，并非只有OpenAI 无数天才工程师日夜的技术攻坚。Nvidia的GPU、Samsung的存储器、Intel 的 CPU等硬件亦不可或缺。

从更底层的逻辑看，以ChatGPT为代表的大模型，本质上离不开两个要素：海量有效的数据，和强大的算力。

在人工智能的三架马车中，数据是生产原料，算力是基础设施，算法则是大模型的逻辑表示，三者的关系逐层递进，水乳交融。

毫无疑问，大模型的高楼，建立在数据和算力的基底之上。

如今，国内千行百业涌起大模型热潮，进入“群魔共舞”时代，谁能做出中国版的ChatGPT尚且未知。

但训练大模型所需要的GPU和存储器，却迎来了一次新的扩容机会。

今年5月底，GPU头部玩家 Nvidia 的市值突破万亿美金，昭示着大模型这场火，首先蔓延至产业链上游，让企业吃到了第一波技术红利。

与数据相伴相生的存储器，在大模型的推动下，也正迎来一次技术革命和市场跃迁。

一、大模型热潮下的数据：总量大、种类杂、多噪音

肇始于数据大爆炸，当前的数据量正在极速增长，从TB到PB再到惊人的ZB，如何存储海量的数据，是诸多数据中心、企业必须要解决的问题。

另一方面，以大模型为代表的多模态AI，数据结构、类型远比单模态AI复杂，数据量也更加庞大。

两大趋势相互叠加，市场对于存储的增量需求呼之欲出。

站在微观角度，企业研发大模型要经过以下几个阶段：数据归集、数据预处理、模型训练、推理应用，每个阶段都离不开存储。

在数据归集阶段，大模型所需要的数据量大且种类繁多。对于存储而言，除了要扩容装下数据，更重要的是把各种非结构化的数据整合在一起，并且安全地流转，才能为企业所用。

这并非一件易事，因为数据格式、种类以及协议各不相同，企业需要花大量人力物力来打通壁垒，甚至建立起标准和生态，技术优势和商业地位缺一不可。

而到了模型训练阶段，数据的质量决定着模型的上限。

换句话说，大模型依赖数据并不严谨，更准确的说法，应该是依赖有效数据。

以往的训练模式，XPU通常直接调用所有数据进行训练。

但在海量数据中，并非所有数据都能用得上，一些数据的存在反而会降低模型训练效果，延长训练周期。

因此，在预训练阶段，可以事先做数据预处理和归集，排除这些数据“噪音”，留下干净有效的数据，以减少模型的“幻觉”。

更进一步，由于网络波动、XPU故障，许多大模型在训练时会中断，即Checkpoint时刻，然后重启训练。恢复过程中，训练会退回到此前的一个节点，相当于有一部分会重新训练一次，这既延长了时间，又增加了XPU功耗。

该问题的关键点在于，如何快速地接触到Checkpoint的数据，恢复训练，缩短时间，这对存储的并发性、带宽传输等要求极高。

最后一关是推理应用，大模型将直接与客户面对面，是展现模型效果最有效的窗口。

这个窗口关系着用户体验，因此对于大模型的响应时间要求非常之高。

以ChatGPT为例，在一些简单的问题上，用户提问得到回答的平均时间在10s以内。如果时间太长，用户体验将会很糟糕，并且丧失对模型的信任，乃至给予差评。

这反应的是大模型推理的时延现象。通常来说，模型精度相近，时延越长，体验越差。因而缩短时延，对于大模型厂商而言至关重要，类似问题其实可以在存储上做创新，进行模型优化。

回归第一性原理，训练大模型的几个难点，本质上都是围绕如何利用好数据这一核心命题展开。

存储作为数据的基础硬件，并非仅仅只是简单地记录数据，而是深刻参与到了数据归集、流转、利用等大模型训练的全流程。

国内大模型百家争鸣，率先胜出的却是GPU厂商Nvidia。那么，按照XPU的增长逻辑，存储也理所应当能够复制Nvidia的造富奇迹。

这一制胜的法门在于，存储厂商谁能抢先解耦大模型训练的痛点，谁就能占据高地，成为第一个吃螃蟹的人。

二、AI存储三要素：精度、效率、能耗

以往，训练模型的方法简单而粗暴：大量的数据加上人工，以及强大的算力，不断调优，提高模型精度。

这种大力出奇迹的方法有用，但成本极高，一度成为许多AI公司脱不掉的旧长衫。

事实上，在AI的三架马车之中，对任何一个环节的优化，都能降本增效。而此前的训练方法，将侧重点放在了算力方面，一些公司买了强大的XPU，训练效率确实提高了，但模型训练效果仍然较差，效率低、功耗大、精度低等问题层出不穷。

根本原因在于，算力只是工具，而数据才是生产要素，只提升工具而不优化数据的做法，抓错了重点。

这就好比，巧妇难为无米之炊，一个再精干的厨师，没有好的食材，也很难做出一道精美可口的菜肴。

在类似大力出奇迹的模式下，过去几年，国内的公司积累了大量的算力资源。现在面临的问题是：如何把这些算力用上，而不至于冗余、闲置，造成浪费，并且创造价值。

华为苏黎世研究所存储首席科学家张霁认为，在算力足够的情况下，模型训练的效率已经达到极致，如果要进一步提高效率和模型效果，需要在数据上下功夫；更进一步，则是在数据依附的存储器上做技术创新。

以前文提及的数据预处理为例，过去的训练方式是XPU直接调用所有的数据训练，用完之后放回存储器，这种方式存在几个问题。

首先，XPU调动的是所有数据，这些数据存在噪音，会影响训练效果；其次，XPU在调用、放回数据时，会增加能耗及时间；最后，由于数据量过于庞大，单靠内存远远不够，因此必须加载外存的方式来存储数据，那么数据在流转时，面临安全风险。

举个简单例子：

假设手机里有一万张照片，如何快速、准确地找到其中一张？

传统的方式是，打开手机文件夹，里面会显示一万张照片，如果照片分辨率过高，手机加载图片还需要时间，然后由用户一张一张比对、查找，低效而且容易出错。

目前比较常见的是，在手机存入照片时，存储器便已经提取照片的特征值，做好数据归集。那么当用户想要查找照片时，只需输入图片的标签，就能找到符合特征的图片，缩小了查找范围。

从存储的角度看，这里面的逻辑，其实是存储器做了数据预处理，当CPU在查找图片时，根据特征值，调用的是一万张图片里的一个小的数据集，因此速度快、能耗低，准确度高，并且不占用更多的计算资源。

对于大模型而言，上面的逻辑依然成立。

在存储器端，企业可以先做数据预处理，剔除无效数据（噪音），并将数据做归集整理，那么XPU在调用数据时，则只调用需要用到的数据，速度更快，效率更高，并且XPU的利用率，也得到提升。

并且，存储器本身直接与数据接触，是数据安全的第一关。因此在存储器上对数据进行加密、保护，也能最大限度地保证数据的安全流转。

如果说大力出奇迹是靠铺算力来提升模型训练效果，那么在存储器上对数据做预处理，则是从整个模型的训练流程来缩减存算成本、提高效率和精度。

很明显，前一种方式被广泛使用并达到了极限，后一种方式正呈星火燎原之势，开始席卷整个AI行业。

三、AI存储如何让企业用上大模型？

翻开ChatGPT的发展史，从1.0迭代到4.0，OpenAI投入了数以亿计的资金，即便是当下，训练一次的成本也高达数百万美元。

说到底，现阶段大模型还是一门烧钱的生意，没有强大的资金实力和人才梯队，根本上不了牌桌。

业界存在一个观点：通用大模型只能是大厂的游戏。但这并不意味着，非大厂企业不能够拥有自身的模型。

当前，在基础大模型之上，建立行业大模型，成为普遍的商业范式。

对于缺少AI能力的企业而言，站在巨人肩膀上，无疑是一条省时省力且省钱的捷径。

这些企业的比较优势在于，靠近数据，而且这些数据真实有效。

这一优势恰恰也是劣势：很多企业不会用这些数据。

为此，企业不得不与基础大模型厂商合作，将数据开放，训练模型。

但对于部分企业，数据安全的重要性或许更甚于数据的价值。

那么，如何在保证数据安全流转的情况下，又能利用好数据，激活数据价值，扩展业务？

答案呼之欲出：在存储器上，把企业数据，通过向量的方式，转化为模型所需要的数据。并且，基于存储器本身的安全管理，可实现数据的安全流转。

这样一来，企业不但可以训练行业模型，并且只需要维护这一小部分数据，入住门槛降低了；还能将数据的所有权掌握在自身手中，安全系数也升高了。

基于此，华为推出了两款AI存储产品：OceanStor A310 ，FusionCube A3000。

OceanStor A310 是一款深度学习数据湖存储产品，可以为企业训练大模型提供从“数据归集、预处理到模型训练、推理”的存储支撑。

具体参数方面，OceanStor A310满足多协议无损融合互通，支持96闪存盘，其带宽达到400G/秒，IOPS达到1200万，最高支持4096个节点的横向扩展。

同时，OceanStor A310具备存内计算能力，内置的算力可以支持AI大模型接入分散在各个地方的原始数据，并实现跨系统、跨地域、跨多云的全局统一数据视图和调度，简化数据的归集流程。

FusionCube A3000则是一款训/推超融合一体机，集存储、网络、计算、模型开发平台于一体，内置了OceanStor A300的存储节点，面向百亿级模型应用，并支持一站式安装部署，2小时即可部署应用，并通过蓝鲸应用商城提供业界主流大模型服务。

目前，华为FusionCube A3000产品既可以一站式交付，也支持集成其他的AI大模型软件，并开发算力平台、网络等。在其内置的OceanStor
A300存储节点上，厂商可以集成第三方GPU、软件平台，构建适合自身的超融合节点。

简而言之，OceanStor A310 和 FusionCube A3000，本质上是为了解决许多企业在构建行业模型时缺乏技术支撑的难题。

而且，这两款产品本身适用于不同的客户，前者适用于“存”，具备通用的能力；后者提供一站式交付能力，为企业实施大模型应用降低门槛。

AI存储的未来

从工业社会到信息社会，伴随着新技术的发展，数据的总量呈几何级数增长。

如何利用好数据成为关键，而这又与存储技术息息相关，两者相互影响、互相作用。

当大模型这类技术开始“涌现”，市场对于新的存储架构、技术的需求骤然加快。

华为苏黎世研究所存储首席科学家张霁认为，在传统以XPU为计算中心的体系下，所有的数据都围绕XPU展开，在这个过程中，数据的流转会带来能耗、效率、安全等诸多问题。

这些问题实际上可以通过数据和控制分离，利用技术创新，让一些数据绕过CPU，直接“投喂”给GPU，一方面减少CPU负荷，另一方面提高GPU利用率，缩减整个训练过程中的流程成本。

“模型训练应该回归到数据本身。”

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATXMEGA64A4U-CU	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 49VFBGA		$4.53	查看
STM32F030C8T6	1	STMicroelectronics	Mainstream Arm Cortex-M0 Value line MCU with 64 Kbytes of Flash memory, 48 MHz CPU	ECAD模型下载ECAD模型	$3.22	查看
STM32H743XIH6TR	1	STMicroelectronics	High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals	ECAD模型下载ECAD模型	暂无数据	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ATXMEGA64A4U-CU

Microchip Technology Inc

IC MCU 8BIT 64KB FLASH 49VFBGA

$4.53

查看

STM32F030C8T6

STMicroelectronics

Mainstream Arm Cortex-M0 Value line MCU with 64 Kbytes of Flash memory, 48 MHz CPU

$3.22

查看

STM32H743XIH6TR

STMicroelectronics

High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals