对话智源林咏华：有些大模型的评测基准已经失去意义

作者｜油醋，邮箱｜zhuzheng@pingwest.com

智源研究院理事长张宏江在为图灵奖获得者Yann LeCun的自传《科学之路》作序时有这样一句话：“历史上多数突破性研究成果的出现都是偶然事件，而研究机构所有努力都是为了提升这类偶然事件发生的概率。”

Yann LeCun在1980年代末第一次走进AT＆T贝尔实验室，等到他完全告别这座美国最大的业界研究机构已经是2002年。之后进入纽约大学创立数据科学中心，以及加入Facebook领导扎克伯格重注的AI研究部门，都建立在那开发出了LeNet的黄金十年上。‍‍

而对于智源研究院来说，这个非盈利组织所建立的目的与这句话如出一辙。这是一个汇聚人工智能创新要素的平台，更是一个集结最优秀同行，为未来可能产生原始创新与长期影响的领域提供空间的社区，以期能让中国出现突破性成果的概率增加。

成立五年后，生成式AI的智力水平突然有了ChatGPT这样一个大幅超过人类预期的样本，突破性的时间节点呼之欲出。

朝着ChatGPT追赶，修炼基础大模型，成了从去年年末开始全球AI领域最直觉性的奋斗路径。

智源研究院是国内最早开始着手大模型研究的团队。2021年一份《On the Opportunities and Risk of Foundation Models》的研究报告统一了Foundation Models（基础模型）的概念，而在这份报告出现的半年前，智源研究院院长黄铁军开始提出中文的“大模型”概念，随着黄铁军提出“人工智能的发展已经从‘大炼模型’逐步迈向了‘炼大模型’的阶段”，智源研究院拿出了悟道1.0，项目负责人是唐杰。

2个月后悟道2.0出现，1.75万亿的参数量扩展到当时GPT-3的10倍。现在智源研究院正在基础大模型的开源路径上走深。两周前发布的中英双语大模型AquilaChat2-34B在22项评测基准中拿到领先身位，AquilaChat2-34B以及AquilaChat2-34B V1.2 版本的权重也在昨天进一步开放了。

现在是ChatGPT出现的11个月之后，几乎一年。智源研究院拿出最新开源模型的时候，闭源的GPT-4在相当多的任务类型上一骑绝尘，Claude-2在身后紧追，全球围绕开源模型Llama 2所建立的上下游生态在迅速丰富，而国内冒出的大模型厂商已经几乎达到100家。

大模型的发展跑的太快了，最直白的参照是模型能力评价方法的严重滞后。

“如果我们根本不能预测这个模型它能做什么，那我们又该用什么题去考它呢？”智能研究院副院长兼总工程师林咏华提出了这样的问题。

10月26日，2023界面REAL科技大会后，我们有机会和这位智源研究院内部，语言大模型、大模型技术栈、AI系统研发的负责人有一次对话的机会。现在将其中一些关于大模型评测方式现状，以及中国开发者该如何看待开源这件事的讨论整理出来（为阅读方便做了一些文本处理）：

C-Eval、MMLU以及CMMLU，这三个榜已经被打的太多了

问：度量大模型能力的榜单是不是太泛滥了？

林咏华：我们之前模型发布后，也有国外的一些的用户在推特上讨论为什么在MMLU（Massive Multitask Language Understanding）上评分没有那么高。大家有时候过分的关注一些指标，但是实际上有一些测评榜单完全是可以靠定向的训练数据来拔高分数的，所以也大家会看到，甚至是一些7B 、十几B的模型，它都能够考出很高的分数。

到现在确实仍然没有一个被公认的测评集，但至少C-Eval、MMLU以及CMMLU，这几个类似的测评集已经有点被各个模型过度训练。所以，时至今日观察大模型能力时，我建议大家不用过度关注这几个测试集的评分。

另外，我一直觉得，如果模型为了拉这些榜单的分数而去训练的话，容易损失模型在之后的一些能力的。

问：那要如何从测评集中辨别大模型的能力？

林咏华：如果需要从现有市面上的各种评测集中去辨别的话，目前只能尽量扩充测评集的差异化。第一就是要看哪些评测结果囊括的评测集数量较多，第二就是囊括的测评集不要都是评测类似能力的，比如把各种推理能力、生成能力、甚至数学和代码能力等等不同侧重的评测集都包括，让对大模型的评价更多元一些。

此外很重要的一点是，要保证这些评测的对比结果是在同一个环境下获得。不同评测代码和设置，对不同模型的评测结果会有影响，如果不能做到在同一个环境下获得不同模型的评测结果，很难保证公平公正。智源研究院做的大模型评测系统FlagEval，就是严格对所有开源模型进行一致的评测，这样才能保证评测结果的公平、可信。

但另一方面，大模型进入具体行业是要在基础模型上去做微调，好不好用其实并不在于这些基础模型打榜时候的分数高低。这一点对评估基础模型的能力十分重要。

问：也就是说最好越过评测基准，来衡量一个基础模型的能力？

林咏华：我认为基础模型更重要的衡量，在于它在下游任务上经过微调之后的表现。给后续使用者提供强大的模型能力“后劲”，这是我个人觉得基础模型最重要的能力。

问：如何衡量这种“后劲”？

林咏华：比如，一个好的基础模型和一个欠优的基础模型，用同样的数据去微调这两个基础模型，最后在一个相同任务上的表现差异是比较能够反映两个基础模型之间的能力差异的。我们自己做了7B、34B等等一些不同能力的模型，很明显的能够看出来这一点。

这就像是天赋不同的学生，给定一样的时间，学一样的东西，最后学到的东西会有差异。

但这样的评估方式，每一次都涉及微调的训练成本。对于内部研发没有问题，但如果作为外部的评测，往往需要考虑评测代价、微调数据的选择等等众多因素。我们自己也在做这方面的探索，但目前市面上还没有从这个逻辑出发的高效评测方法和体系出现。

只要能对一部分人有用，就值得开源

问：谈谈开源这件事吧，国内开发者对开源社区的依赖程度很高，但好像并不太承担主导的角色？

林咏华：这是个有趣的现象。

中国并不缺乏参与开源的开发者或者企业，所谓“参与开源”，就是参与到别人的开源项目里。这些开源项目往往是全球性的，就像当初的OpenStack，其中有很多中国的开发者和公司做了贡献。但它们中大多数项目不是由中国的程序员或公司发起的，而是由中国以外的开发者或公司发起。

我们衡量一个开源项目是否成功，其中有一个维度就是有多少不同的团队或组织在其中有所贡献。其实由中国公司或团队发起的开源项目一点都不少。但是项目最终做大的很少，尤其是做到像OpenStack这样，由多个公司和组织一起来贡献的更少。

问：怎么理解这个“一点都不少”？

林咏华：如果把GitHub等等开源社区中所有开源了的项目都算上，其实中国开发者发起的开源项目很多。但其中更多是活跃了1~2个月，然后就没有坚持下来。

问：为什么这些项目留不下？

林咏华：开源项目的成功需要持之以恒的投入，一个开源项目发布之后马上就火了只是极个别的案例。坚持更新、不断的迭代才能够让开源的项目变得更优质。但很多时候国内的企业和个人开发者并没有坚持下去，一旦他们的项目开源后，发现star寥寥无几，可能就十几个或一百多个，可能就不再去坚持，不再投入了。然后就变成僵尸的开源项目。

这里面有客观因素，中国的科技企业与全球其他地域的科技企业相比，要面临更大的竞争压力。坦白说无论是初创企业所面临的资金压力，还是企业在同一个赛道上所面临的竞争对手数量，都会导致它能够投入到开源项目上的精力或资源有限。

问：开源这件事需要等待时机吗？

林咏华：智源研究院在几个月前开源了中英文语义向量模型BGE（BAAI General Embedding），很多用户在社区里提建议、提需求，包括更多国家语言的支持、包括更多能力的期待。这些反馈都是开源使用者对我们下一个版本的迭代的很好建议。我们在这些反馈的基础上，在10月中旬又发布了BGE-V1.5。

开源本身也是收集需求，帮助我们更好决定下一步技术发展的一个路径。

一个项目的第一个开源版本，那个“1.0”，往往并不需要完全是一个完美的版本。一个项目，可能一年后才能做到完美，但有可能今天的这个版本就已经能够满足一部分人的需求了。我会建议在这个时候就开源出来，然后在过程中不断的增加能力，然后再不断的更新，这样可以让外面需要这个功能或代码的用户能尽快用起来。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATMEGA1284P-AUR	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 44TQFP	ECAD模型下载ECAD模型	$7.15	查看
MK66FN2M0VLQ18	1	NXP Semiconductors	FLASH, 180MHz, RISC MICROCONTROLLER, PQFP144	ECAD模型下载ECAD模型	$48.66	查看
STM32F405RGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator	ECAD模型下载ECAD模型	$16.63	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ATMEGA1284P-AUR

Microchip Technology Inc

IC MCU 8BIT 128KB FLASH 44TQFP