百家企业调研，大模型市场核心进展与未来趋势总结

对话式数据分析、LLM+客户、AI Agent……大模型落地应用在市场当中的关注程度正在日益增长。但从现状来看，大模型在企业用户侧的落地方式与路径，依然存在诸多挑战和疑虑。

本次分享将围绕最近一段时间以来大模型市场核心进展与未来趋势展开。

分享嘉宾｜李喆爱分析合伙人兼首席分析师

01、大模型市场全景概览

1.1 大模型在企业内的应用场景

当前市场中，大家对于大模型这一概念已经有许多探讨和认知。基于企业内部的使用场景和整个大模型的能力边界，我们总结出了三类具体应用。

第一类是生成类应用，这一点比较为大众所知。

第二类是决策类应用，让企业用户更好地作出决策，例如像Copilot这样的辅助决策，以及Agent这种去帮助企业做一些预测性和指导性的决策。

第三类是多模态应用。我们最近与企业用户交流时发现，虽然大模型理解和生成能力方面尚良好，但推理能力仍存在一些缺陷，主要体现在准确度和稳定性上。

准确度方面，即使使用GPT-4进行数据分析且自动生成SQL语句，其精确度在广义使用场景下也只有大约80％，同时这里面最大的问题在于不确定这部分误差在什么情况下产生，这使得80％的精确度基本上是不可用的。

稳定性方面，大模型在某些场景下会“飘忽不定”，这导致在许多大家关注的生成类和决策类应用中，仅靠大模型本身很难实现推进。所以，我们目前看到的在许多企业内部实施的方案通常是将规则引擎与小模型、图分析和知识库相结合。一旦结合起来，就可以在常见的知识库问答、数据分析、流程自动化领域中显著提高准确性和业务效果，这是我们目前看到的趋势。

换言之，目前大模型推理能力不及预期的时候，很大一部分是要依靠于小模型等其他方式，去实现现在大家比较关注的决策类应用。

1.2 自助式分析可落地方式

下面举一个具体的例子，是大模型跟数据分析的一个比较典型的结合场景——自助式分析或者叫对话式分析。

在企业内部，业务部门往往有大量的取数做自助式分析的需求，但如果通过都是IT部门去支撑的话，其实很多时候人力是不足够的。因为业务部门的需求可能是当天或者尽快就要有数据给到，如果这个数据在IT部门现成的数据报表中没有，而是再去做开发的话，整个周期就无法满足业务部门的需求。

在接触了非常多的央国企和一些品牌企业、制造企业后我们了解到，这个问题中最亟需解决的，其实就是刚刚提到的通过大模型进行SQL语句的生成，它的准确度是比较难保证的。

因此，在自助式分析场景中，目前我们看到主要应用有三个方面。

第一个是使用指标平台，通过底层的数据报表之上先生成常用的几百个、上千甚至上万个指标，每一次业务人员去查询时就只是在这些指标里面去做查询，完成后自动生成报告，这种方式的准确度是很高的。如果这查询结果是跳出指标平台之外的，也会自动回复信息无法查到。这是一种比较好的能够实现交互式分析的方式，而且它的投入相对比较低，因为不需要太多的微调和预训练，只要用到GPT-3.5或者GPT-4的能力，基本上就能满足自助式分析的需求。

第二个是使用图计算引擎，因为大模型本身在做整个查询的链路时稳定性不强，那么就可以把原来宽表里面的数据导成一个图模型，继而自动建立起完整的关系。这样在做查询时是通过图模型的去进行，能够一定程度上让准确度和可靠性得到比较大的提升。

第三个是外挂知识库，让所有搜索都基于该知识库进行理解和相关查询，基本上可以提高15-20%准确性，最终实现80-90%的准确率。而且，在很多情况下如果结果错误，系统会自动提醒该结果不存在或无法查询。

总的来看，在企业应用场景下，我们认为更多的是采用阶段性解决方案，结合规则模型、小模型、图引擎和知识库等途径。

02、国产大模型市场机会

2.1 国产大模型发展现状

从技术大模型的角度来看，上图展示了开源和闭源两类模型，这些都是我们定义的基础模型。一般来说，百亿参数的基础模型大多数是开源的，而千亿级参数的基础模型大多数是闭源的。即使像百川这样的模型，虽然把7B和13B做成了开源，但它最新的53B模型还是纯闭源的。

另一个大家比较关注的是通用大模型，在应用方向基本上分为三类。

第一类是云资源售卖。以云计算商为主，将其作为一种基础模型，提供云计算资源。最终是通过基础模型、通用模型来销售云资源。像阿里云、百度、腾讯、甚至字节等都是朝着这个方向发展的。

第二类开发超级应用。像Mini Max、百川这样的通用大模型，它们的方向很明确，是要做超级应用。比如百川就非常明确地定位，要在2024年实现完整的大型超级应用。

第三类是打造大型企业专属大模型。基于通用大模型之上去做大型企业的专属模型，这里的专属模型包括行业、领域、企业和任务等模型。例如国网的思极大模型，既是为便利行业而设计的行业模型，也是国网专用的企业模型。

2.2 大模型市场全景地图

从整个大模型市场的角度来看，基本可以划分为四个层次：基础层，模型层，中间层，应用层。当前大家的关注主要放在模型层和应用层，主要是因为我们目前处于大模型的探索和验证阶段。

从模型层角度讲，我们首先需要考虑的是，基于GPT-4和通用大模型，模型本身的能力边界以及能够达到什么程度。然后基于这个能力边界，再去研究国产大模型将会取得什么的成果。因此，模型层肯定是我们重点关注的。

再从应用层角度讲，除了像国网、银行这样的超大型企业有明确的预算以外，大多数企业，例如年收入几十亿到小几百亿的这种规模，更关注大模型的应用价值。在应用价值方面，目前更加需要看的是实际应用效果。这些企业基本上在当前市场环境下做出任何大模型预算时都需要与业务部门强绑定，而且必须要业务部门对于业务效果的认可，才能更好地实现应用落地。

目前大家更加关注的是应用层和模型层，但我们认为中间层的价值其实是被忽略了的，特别是当企业内部用户真正开始使用大模型时，中间层的价值一定会大幅提升。

以知识工程为例，中间层能够显著提高大模型的准确度。尽管目前还处于可研阶段，市场尚不成熟，但是当大模型真正落地时，中间层的价值将会被充分体现。

另一个不同于其他AI应用的特点在于，大模型是一种广泛适用的应用场景。例如，人力资源可以用到大模型的能力，而这些能力未来也可以复用到财务、办公自动化等其他场景。因此，许多大型企业将会把大模型能力作为通用的AI能力建设重点考虑。在整个能力建设过程中，各种中间层工具都需要作为支撑，因为不可能所有工具都由自己从零开发。

2.3 国产大模型发展方向

因此，针对大模型市场，我们总结了当前的重点和未来需要关注的方向。

在模型层方面，到今年年底，会有几家成熟的头部通用大模型厂商的能力可以达到GPT-3.5到水平。到2024年，应该会进入到大规模商用的阶段。例如国家电网正在进行大量的大模型可研项目，调研结果显示，可能有二三十个项目正在研究，同时也明确计划在明年将这些项目落地到各个场景。因此我们认为，基本上明年将是一个大规模落地的一个时间节点。

到达GPT-3.5水平之后，虽然基本上已经可用，但是与海外仍有两年左右的差距。而达到GPT-4水平可能还需要两年左右的时间，但是基本上从2024年开始就要进入到大规模商用的阶段。

从企业用户的选型角度来看，开源大模型仍然值得关注，这其中主要有三个原因。

第一，部署成本较低。从整个部署成本的角度来看，如果使用闭源大模型进行部署，成本会很高。就像百亿级别的部署，包括硬件和软件投入在一起，大公司可能需要投入三五百万，创业公司可能是一两百万级别。相比之下，如果使用开源大模型，企业用户在探索和尝试一些试点应用方面，部署成本就会相对较低。

第二，良好的开发者生态。许多应用厂商都是基于开源大模型构建应用，这对于企业用户的而言，整合应用的成本和应用管理成本都相对较低。同时，开源模型上有许多开发者生态，有着许多开源工具和中间层工具，这些工具使企业用户可以更好地使用和落地大模型。

第三，海外开源大模型能力弱。虽然关于LLaMA2的讨论很多，但近期基于用户实际调查发现，它大致是一个GPT-3.0的水平，与3.5的要求还有很大的差距。这意味着，第一，海外开源模型的发展并不那么迅速，离企业用户的需求还有很大差距，国内市场存在机会。第二，LLaMA模型对中文场景的支持力度还远远不够，如果仅仅依靠社区力量，特别是国内的开发者去实现，将会比较困难，也无法满足企业用户的需求，因为毕竟它不是核心推动力。这些原因都表明，在中文场景下，海外开源大模型的能力相对较弱，反观国产更值得关注和探讨。

第四，多模型共用趋势。未来很多的企业用户一定是多模型共用，不太可能完全依赖于单个模型。

以上是我们从选型角度来说，开源模型值得大家去重点去关注和做相关探索的几个点。

03、大模型未来发展趋势

在模型层面以外，还应该重点关注智能计算中心。此外，在中间层中，知识工程也是值得关注的方向。我们可以通过更好的方法进行模型训练和微调，而不是仅仅简单地将文档输入模型进行微调，这样的效果显然是比较不理想的。

我们注意到一些企业基于文档之后去做FAQ的生成，并进行人工审核以形成一个知识库。基于这个知识库，可以训练整个模型以提高效果。我们认为接下来将是对知识进行系统构建，然后进行人工审核和知识标识，最终应用于大模型的训练，这样做可以显著提高整个大模型的准确性。

3.1 知识工程

与一些大模型厂商交流时发现，由于一些企业用户在建设大型模型时对效果要求非常明确，因此在采购和立项时项目目标中往往会明确要求某种准确度，例如85％或90％，这也通常会成为验收标准。

但在实践中，即便经验丰富的微调团队对准确度的影响也是有限的。例如，如果现有的文档知识图谱水平只能支持70％的准确度，哪怕很有经验的微调团队，也很难提高到75%或80％。因此，在实现整个模型效果时，通常依赖于知识库的建设。我们也认为，知识工程是接下来训练大型模型整体准确度和可靠性的重要阶段之一。

在推理环节中，通过前期构建的知识库进行外挂，可以有效减少大模型产生幻觉的情况，从而使应用更加合理和可控。因此，我们认为知识工程是需要关注的中间层工具之一。另一个中间层工具是LLMOps，因为从大模型到解决业务问题，整个过程中存在很多环节，包括数据集管理、标注、微调评估和反馈。

最后一个模型路由实际上旨在解决业务问题，将多个模型串联起来。现实中的许多业务问题往往无法仅依靠一个大模型解决，通常需要进行多个模型路由。因此，我们认为整个LLMOps平台能够提升企业用户在微调和管理模型方面的能力。

对于许多企业用户来说，他们自身缺乏微调经验和模型开发能力。通过这项工具，他们可以较好地提升这方面的能力，最终能够将大型模型应用于业务场景并落地。

3.2 LLMOps工具类厂商

目前从LLMOps厂商的角度看，我们可以将其分为四类。

第一类是大模型厂商，例如国内的百度、百川等，它们都提供相关的LLMOps工具。

第二类是云平台，例如火山引擎、腾讯等。

第三类是直接提供应用的厂商，例如许多以NLP和知识图谱为主的厂商。

第四类是开源或专业的LLMOps厂商。

大模型厂商提供的LLMOps工具比较单一但性能较强，适合那些具备深度学习团队和微调经验的企业使用以充分发挥模型的价值。当然，这些工具也存在一些问题，例如使用门槛相对较高，需要企业用户具备比较强的规划、架构和解决技能才能处理模型与底层及上层应用之间的大量运维和管理集成问题。

针对大模型厂商，考虑到模型路由问题，如果要采用大模型厂商供的这种能力，就需要考虑到其应用范围可能比较狭窄，对于其他同类厂商的支持力度相对不够，就类似于多云管理平台和云厂商之间的关系。我们认为这种云平台厂商提供额LLMOps比较适合中小型企业，或对数据隐私要求不高的泛互联网企业以及零售企业，其优势在于整个训练成本相对较低，而且云平台本身功能更加丰富，适用范围更广。针对云平台厂商，它本身的功能会相对更加丰富，因此适用的范围会更广。

我们认为这是大多数能力相对较弱的中大型企业需要重点考虑的，因为应用厂商实质上将底层大模型能力、LLMOps工具等集成在一起，通过与应用厂商合作，能够解决大部分问题，运维管理性价比也相对较高。当然，应用厂商本身不是以大模型研发为主营业务，所以其在单一场景下性能提升的能力相对较弱，因此也更适合对此类大模型应用较为关注，但自身能力相对较弱的大型企业。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATMEGA88PA-AU	1	Atmel Corporation	RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQFP32, 7 X 7 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ABA, TQFP-32	ECAD模型下载ECAD模型	$1.5	查看
ATTINY85-20SUR	1	Atmel Corporation	RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PDSO8, 0.208 INCH, GREEN, EIAJ, PLASTIC, SOIC-8	ECAD模型下载ECAD模型	$1.43	查看
ATXMEGA256D3-AU	1	Atmel Corporation	RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM HEIGHT, 0.80 MM HEIGHT, GREEN, PLASTIC, MS-026AEB, TQFP-64		$7.78	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ATMEGA88PA-AU

Atmel Corporation

RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQFP32, 7 X 7 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ABA, TQFP-32