火山的“方舟”驶入大模型

作者｜油醋
邮箱｜zhuzheng@pingwest.com

国产大模型的阵营中，智谱AI是最受瞩目的公司之一。

智谱AI自研的千亿大模型GLM-130B早在去年8月就已经上线，并在MMLU、LAMBADA等测试中部分指标超过了GPT-3和PaLM。基于这个模型，今年3月打造了ChatGLM并开源了另一个可在单张消费级显卡部署的62亿参数模型ChatGLM-6B。

几个月内ChatGLM全球下载量超过三百万次，此时国内外申请使用GLM-130B的团队和机构累计已超过1000家。

不久前，硅谷科技媒体The Information将智谱AI列入其认为有可能成为“中国OpenAI”的五个候选之中。

近日，智谱AI推出的ChatGLM2系列模型有多种规格，在60亿和1300亿两种参数模型的基础上，新增120亿、320亿和660亿三款新参数规模的大模型。随着基座模型的性能提升，ChatGLM2在上下文支持和推理性能上都有大幅加强。在中文C-Eval的测试中，ChatGLM2以71.1分压过GPT-4位居榜首。

智谱AI——包括MiniMax和澜舟科技——都是火山引擎未来即将建立的大模型生态蓝图中的早期合作方，这场发布会则是这个计划面向公众的一个起手式。

火山引擎想要为这些顶尖的大模型团队回答一个问题：好的大模型做出来了，下一步呢？

大模型落地之困

2020年GPT-3出现后，全球学界和产界的意见趋于一致——大模型开始进入“可用阶段”。到2023年GPT-4出现后，没有人再怀疑大模型将会在未来广泛的进入行业。需求上升也从侧面推动大模型应用的门槛下降，但困扰AI领域多年的普世化问题并不会凭空消失的，而是很大程度上转嫁给了模型训练本身。

大模型训练的核心问题显然是模型调试的高门槛。

这首先是一个数据困境，一个对于行业或企业能够产生效用的大模型需要大量精准的专业知识与行业数据投入训练，而复杂的数据清洗过程又会进一步影响数据本身的质量，高质量数据缺乏会直接导致模型在行业针对性与精准度上的缺失。

并且模型微调本身的技术门槛也极高。这从Anthropic用17.5万到33.5万美元的年薪，悬赏提示词工程师的粗暴做法中可见一斑。一位AI行业人士曾向品玩表示，其服务过的一家全球顶尖传统公司，IT团队只有五人。大部分企业不会建立一支庞大的IT队伍，而具备模型调试素质的模型工程师或提示词工程师显然更难驾驭，这使得对于企业来说要完全自建大模型举步维艰。

当模型从训练到走向产品化，精调与推理过程的安全可控是企业无法回避的顾虑。

企业只有将自己多年在行业中积累的知识与数据给到训练环节，才能得到一个能够完美契合自己客户的大模型。但另一方面，这很大程度上是企业竞争力的壁垒，企业也并不想因此冒着完全将自己的行业沉淀对外界暴露出来的风险。他们需要训练过程的完全密封性，和对自己的大模型完全的掌控权。

除了技术门槛和安全风险之外，性价比的问题也是决定性的。大模型训练需要大量GPU算力，并且在带宽上要求GPU服务器集群有极高的网速，网络稍有拥塞就会影响整个运行流程的速度和效率。出于性价比考量，企业也很难自己完成大模型的训练过程。

训练大模型有三个核心问题：

成本问题，一个1750亿参数的GPT-3就烧掉了1200万美元。

人才问题，一个谷歌PaLM-530B的作者列表有68人，国内的大模型人才甚至不到100人。

算法与工程学问题，大训练量和长训练周期让千亿大模型训练过程极其不稳定，成本和性能都面临许多风险。

大模型需要尽可能的渗透进已有场景，接近大众，在普世化的过程中确定更具体的进化方向。这是一场工程的艺术，拆分开来却全是困难。如果我们把大模型分成模型提供方和模型使用方两个阵营，像智谱AI一样的模型提供方可以稳定的为使用方提供推理、精调以及评估和部署能力——一种稳定的大模型生产机制；而以企业为代表的模型使用方为提供方带来营收动力和反馈方向。两者之间亟需一个稳定而通畅的联结机制。

这也是火山引擎对自己的定位。

6月28日，火山引擎发布大模型服务平台“火山方舟”。火山引擎总裁谭待表示，不止是停留在MaaS这样一个略显粗糙的开放概念上，“火山方舟”是一个产品。但“火山方舟”想要做的是一个开放的生态，尽可能将优质的大模型客户都容纳进来，企业客户可以选择适合自己的一个或多个模型，并用一致的工作流来提供模型精调、评测、推理等全方位的平台服务。

这其中营造一个丰富的“模型广场”是第一步。

“1 + N”的预期

“百模大战”并非假说。截至目前，国内已发布的参数模型超过10亿的大模型数量已经达到79个。据中信所等机构发布的报告，目前现有大模型项目中，从学界和产业界发起的数量相当，聚焦NLP领域的占据多数。

对于模型使用者来说首先要了解这些模型的特性，火山引擎首先在“火山方舟”中设计了一个意在展示和初步了解模型的模型广场。

在模型广场中，模型供应方可以在模型广场进行模型创建、上传、部署等操作，而模型使用方可以在模型广场查看模型并快捷体验，目前第一批进入“火山方舟”的大模型合作方已经公布，有智谱AI、MiniMax、百川智能、澜舟科技、复旦大学MOSS、IDEA研究院以及出门问问七家。

在选定了基础模型之后，“火山方舟”为模型使用方提供了极简的精调流程。在简单的场景需求下，客户只需要上传标注数据集后即可精调。如果客户的目标场景更加复杂，平台也提供了更多微调方式，可以实现以设置高级参数、验证集、测试集等方式来更自由的使用模型精调功能。

在模型推理阶段，“火山方舟”提供了安全互信的推理方案，保障模型提供方与模型使用者的模型与数据安全，客户可直接使用模型供应方已部署的在线服务或便捷地将精调模型部署为在线服务。

对于已经训练好的个性化模型，“火山方舟”提供了一套测评工具，可以帮助客户系统化的感知模型表现，为后续进一步的模型优化积累数据。

从模型选择、训练、推理到模型评估以及后期的运营干预，一个统一的workflow（工作流）将会统领“火山方舟”上所有大模型相关的操作过程。以相同的workflow为基础，用户在“火山方舟”上可以实现多个大模型之间的切换，对于企业来说，一个为自己服务的个性化大模型生态变得可行。

这是火山引擎以产品化的标准来塑造“火山方舟”的一面，也透露出火山引擎对于未来大模型发展的观点。

“在未来，企业自身对于大模型的应用，将会是一个“1 + N”的应用模式，即一个主力模型和N个外部模型协作的模式。”谭待表示。相比于调用成本高昂的通用大模型，选择多个经过良好调试的小参数模型来分别对应各自不同的场景，对于企业来说是更有性价比的选择。

当大模型向产业下沉，统一的workflow将成为“火山方舟”为客户提供的最简单的编程语言。但除此之外，“火山方舟”需要先向客户交出一个扎实的信任机制。

英伟达的助力

会场大屏幕上，火山引擎图标在左上角，另一侧则是英伟达，后者在“火山方舟”安全可信的实现过程中承担了重要角色。

“火山方舟”的信任机制从三个维度实现：安全沙箱、联邦学习以及可信硬件。

“火山方舟”的安全沙箱机制以可信执行环境为核心，为训练/推理容器和MaaS SDK建立了一个独立的作业环境，保证企业数据集的隐私安全；基于联邦学习的数据资产分离方案，配合基于英伟达新一代硬件支持的可信计算环境，进一步为大模型在不同业务场景的数据安全要求提供保护。

而另一方面，对于在加速计算产业顶端的英伟达，火山引擎提供了一个必须的观察视角。

“下一代硬件的设计，要去加什么样的Feature，哪些参数要调整，它必须要有真实的使用案例来支撑，（与火山引擎的合作）我们从中可以看到真实的用户需求，这点非常非常重要。”英伟达开发与技术部亚太区总经理李曦鹏表示，“而只有把这大模型能力普惠化了，才能触及更多的客户。但这个事情不是英伟达独自可以做的。”

当大模型的进展逐渐从基础性研究转向更具体的应用端，推理层面的算力需求会逐渐超过模型训练的算力需求，英伟达正在关注这样的趋势变化，而对于火山引擎来说，它有一条大模型产业落地的时间线。

“大模型的训练进展会在2024年中从高速进入一个平缓期——与此同时，模型应用和调优作为第二条增长曲线将会进入高速增长期。”

吴迪判断这条增长曲线会在2024下半年靠近大模型训练的IT支撑，至少达到后者的六成，并且在2025年的某个时候点，其支出会超过前者。

图源：火山引擎

“一个健康和蓬勃的生态，在推理和微调应用上面的IT支出应该是远高于模型训练的。如果应用端的这条曲线起不来，第一条线就会滑落，就意味着现在有很多投身到大模型里的企业和创业者会面临一个比较艰难的局面。”

两条增长曲线更迭的过程也就是大模型能力渗入行业的过程。火山引擎希望作为一个推动者尽量缩短这个时间轴，就需要将这条产业链条中的上下游环节尽可能彼此靠近。与英伟达的合作，引入优质大模型客户，为这条产业链上的所有人建立“火山方舟”这样一个开放中立的平台，原因也在这里。

李曦鹏表示，英伟达与火山引擎将会在NVIDIA Hopper GPU架构以及NeMo Framework的适配和优化以及机密计算、重点模型合作优化等方面继续新的合作。而在此之前，火山引擎与英伟达在软硬协同领域的多个层面合作已经走向深入。

包括目前已开源的高性能图像处理加速库CV-CUDA，以及在IEEE国际并行和分布式处理大会（IPDPS 2023）上获得最佳论文奖的GPU推理库ByteTransformer都是火山引擎与英伟达瞩目的合作成果。除此之外，英伟达与火山引擎在大规模稳定计算、多模型混部等方面已经积累了很多经验，两者在算力上的合作早已走入平台底层。“火山方舟”之下，算力配置能力和机器学习框架这样的底层设施是云厂商做MaaS的基本功，火山引擎的大模型能力根源，来自字节跳动内部。

把自己作为样本

2020年抖音用户超过6亿，与爆发式的业务增长同时进行的是推荐场景基础特征生产的体系迭代。字节跳动开始在抖音、头条等自有推荐场景的特征生产中引入Flink SQL、Flink State的技术体系，探索新的特征生产方案思路。

也在那一年，抖音推荐广告系统开始技术架构的升级。在抖音内部，所有的模型训练几乎都跑GPU上，包括推荐广告，甚至包括流式训练。

“火山方舟”上的首批大模型合作方之一，MiniMax从去年与火山引擎开始合作，为大模型训练搭建了高性能计算集群，保证了千卡以上训练稳定运行数周。背后是火山引擎能够支持数千卡GPU训练的能力，其中厚实的系统工程优化经验来自字节跳动内部抖音等业务的长时间验证。

MiniMax借助火山引擎的机器学习平台研发了超大规模的大模型训练平台，这个机器学习平台也是“火山方舟”核心的基础设施之一，抖音则是它在字节跳动内部的“客户”。

“火山引擎的产品内外统一，对内对外是同样的技术团队和产品，这是火山引擎与其他做云的互联网公司相比很大的区别。”谭待在去年的一场发布会上表示。抛开产品层面的讨论，“火山方舟”独特的优势之一就是背后字节跳动拥有一个丰富的多模态语料库，能为自己云平台的算力调度、机器学习平台以及各种模型训练提供更有价值的迭代方向和不可复制的压力尺度。

“推荐广告核心能力必须把模型做得很深，才可以对很多事物之间的关联有好的理解，就好像人们今天看到ChatGPT发生的事情一样。”吴迪表示。火山引擎自身在对内对外服务中形成的平台特质也成为“火山方舟”所追求的基本素质。以吴迪的描述来说就是“开放、加速、信任”。

这艘船是一个载着一整条产业链上很多人的事业和梦想的具象产品。它天生带着亲近生态的本能，也得是敏捷和安全的。它已经升空，虽然路还远。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
MK60DN512VMC10	1	Freescale Semiconductor	Kinetis K 32-bit MCU, ARM Cortex-M4 core, 512KB Flash, 100MHz, Ethernet, MAPBGA 121		$10.69	查看
ATXMEGA256A3U-MH	1	Microchip Technology Inc	IC MCU 8BIT 256KB FLASH 64QFN	ECAD模型下载ECAD模型	$5.86	查看
ATMEGA328P-AU	1	Atmel Corporation	RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQFP32, 7 X 7 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ABA, TQFP-32	ECAD模型下载ECAD模型	$2.05	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

MK60DN512VMC10

Freescale Semiconductor

Kinetis K 32-bit MCU, ARM Cortex-M4 core, 512KB Flash, 100MHz, Ethernet, MAPBGA 121