垂直领域ChatGPT——“曹植”来了！张江小巨人的AI大语言模型即将诞生

今年3月，达观数据公布正在开发曹植系统，这是一个专注于金融、政务、制造等垂直领域的大语言模型，也是国内为数不多的垂直GPT大模型。

作为国家级专精特新“小巨人”企业，达观数据获得了一系列知名投资机构的认可。去年3月，达观数据对外公布获得5.8亿元的C轮融资。本次投资方包括中信、招商、广发和中信建投在内的四家中国头部券商，以及知名投资机构深创投、弘卓资本、襄禾资本、尚珹资本、众麟资本、联想之星和阳光保险集团。

近日，张通社走进位于张江浦东软件园的达观数据，与CTO纪达麒进行了一场深入聊天，了解到这款立足垂直领域的曹植系统是如何在张江产生的。

和中国字打了十几年交道的程序员

电梯上到5楼，门一开就进入达观数据的办公区。映入眼帘的是一堵高3米，长10米的深灰色企业文化墙。上面是有关中国文字及AI发展的历史知识，白色与金色的文字相间，印着“中国字的发展历史”、“语言文字的知识”、“现代文字的编码与处理”等信息。

达观数据的创始团队都是与中国文字打过十几年交道的程序老兵，他们都深耕于自然语言处理领域（Natural Language Processing，简称NLP），CTO纪达麒就是其中一位。

时间倒退回13年前，从北京邮电大学硕士毕业后，纪达麒进入位于张江的盛大创新院，正巧加入达观数据创始人陈运文的团队，为盛大集团提供文本挖掘与处理服务。

当时，盛大集团旗下的盛大文学有着很多网络文学作者，他们需要每天连载小说，并且当天写完，当天12点就要发表。这让负责人工审核的编辑承受着巨大的压力，几乎天天加班到深夜，尤其碰到涉黄涉政问题的时候。既然NLP具备自动化文本处理的能力，纪达麒就与同事运用这项技术，花了一年多时间，开发出一套协助编辑审稿的系统，还堵上了90%以上的审查漏洞。

此后，纪达麒加入盛大文学，统筹负责技术工作，多年的工作经历让他深刻地意识到NLP不仅能解决审稿问题，而且能在文字识别、分析、生成等领域大有可为，有着更广阔的商业价值。

2015年，看到盛大创新院的老同事们纷纷创办了UCloud、七牛云、亮风台等知名企业，纪达麒很受触动。于是，他、陈运文和其余几位同事放弃了待遇优渥的高管待遇，在张江创办了达观数据，干的是他们非常擅长的NLP文本智能处理领域。

深挖办公文档的应用场景

创办之初，纪达麒和团队一起，从最熟悉的领域入手，为不少互联网客户开发资讯推荐系统。随着项目经验不断累积，越来越多的互联网圈外的客户开始找上门来，他们需要达观数据为自己的APP平台开发一套推荐系统。

从互联网拓宽至更广泛行业，纪达麒和来自银行、政务、制造等行业的客户进行了广泛的交流。他逐渐发现NLP技术在办公文档方面有着很强的应用前景，它能够帮助白领们高效地完成重复而繁重的文档处理工作。

比如，他发现公司上市的高管调查就是一个典型的应用场景。证监会要求查阅董事、监事和高管的3年银行流水，而其中每一位人士的银行对账单，叠在桌上都能有10cm高。如果投行员工进行人工审核，那么核对和分析数据所耗费的时间和人力不可想象，错漏之处时有发生。

对此，纪达麒和研发团队运用知识图谱、文字识别等技术开发出一套IDP智能文档审阅系统，并不断迭代升级产品。

在技术方面，为降低训练模型成本，他们率先运用零样本学习算法，避免标注学习样本带来的额外成本；为克服印刷不清晰、印章遮挡、表格线残缺等扫描问题，他们创新了版面还原的文字识别算法。

从技术到产品，还要跨越理解客户需要的鸿沟。对此，达观数据还聘请数十名行业专家，充当客户与程序员之间的“翻译员”，让团队成员更好地了解需求，实现需求。“我们要去理解客户需要，然后转化为应用场景，进而翻译为技术问题，最后实现相关的功能模块。”纪达麒表示。

鉴于本身的技术和业务实力，达观数据2021年还被授予国家级专精特新“小巨人”称号，以及中国AI最高奖吴文俊科学技术奖。

从一家客户到另一家客户，从一个项目到下一个项目，达观数据的项目经验越来越丰富，而且技术迭代也不断加速。目前，它已经服务了银行、保险、制造、政务等行业的100多位大客户，覆盖了数百个文档处理场景。

项目经验的积累，就意味着对行业的理解更加深刻，而且还能积累大量的行业数据。这不仅构成达观数据的独特技术壁垒，并且还为开发大语言模型：曹植系统，打下基础。

不做通用大模型，就做垂直行业的Chat GPT

NLP被誉为AI皇冠上的明珠，而处于AI圈子的人都知道，2017年谷歌发表的那篇论文《Attention is all you need》开启了NLP的新篇章。那篇论文提出了NLP的两个技术路线，一条是关于“理解”方向，另一条关于“生成”方向。

与所有AI企业一样，达观数据一开始选择了第一条技术路线，“2017年，包括谷歌在内的科技巨头都采用第一条路线，并认为第二条路线难以实现”。可是，情况的转变就发生在2022年末，Chat GPT3.5引爆网络，“人们才发现第二条路可以实现，而且更有前景。”

结合企业的优势禀赋和未来发展，达观数据投入到紧锣密鼓的大语言模型（Large Language Model，简称LLM）开发工作中，并将这LLM起名为曹植系统，而纪达麒则是该项目总负责人。不同于Chat GPT4为代表的通用LLM，曹植系统专注于金融、政务、制造等行业，只为这些特定垂直行业提供LLM服务。

达观研发的曹植系统

由于长期为金融、政务、制造等行业的客户服务，并且经过8年多运营，达观数据已经积累了垂直领域的大量数据，这为它训练垂直LLM提供了充分数据资源。

同时，“曹植系统的参数规模可以缩小到Chat GPT3的十分之一”纪达麒表示。参数更小相当于算力需求更小，那么算力成本也就越小。结合精准数据和低算力成本，曹植系统反而可以达成更好的效果。

一般而言，训练ChatGPT需要数千张价值万元的顶级GPU同时运行，才能训练完毕，非常昂贵。相较之下，参数更少的曹植系统仅需要数百张，甚至数十张GPU就能达成训练目标。

因此，曹植系统可以用来生成垂直领域的专业内容，比如法律文书、红头文件和研究报告。纪达麟举了个券商研报的案例，“生成券商研报对于Chat GPT4来说是困难的，生成结果可能是乱七八糟的，而对于曹植系统来说，这件事情可能并不困难。”

更重要的是，企业采用曹植系统，能够更加容易地进行私有化部署。众所周知，专利、合同、客户等数据属于商业机密，放到公共服务器会有隐私泄露风险。为了保护隐私，企业更需要进行本地的私有化部署。“曹植系统所需的参数少，私有化部署需要的显卡资源就少，因此，相比通用大模型，曹植系统有着明显的成本优势。”

总之，在垂直行业内，曹植系统或许能完胜ChatGPT。

大语言模型的未来

对于大语言模型的未来，纪达麒表示，AI大模型领域会出现三种角色，第一种是通用大模型，包括OpenAI的chat GPT、百度的文心一言；第二种是垂直类大模型，就像达观数据的曹植系统；第三种是上层应用模型，它们没有规模庞大的参数，而是借用通用大模型和垂直大模型，并进行改进，从而完善特定产品。

对于达观数据的未来，纪达麒表示一定会做两件事：

其一，不断打磨垂直领域大模型，让它拥有更好的性能和效果，“我们预计今年6月底正式推出曹植系统。”

其二，达观数据会根据实际的办公应用场景，把大模型设计成一个个解决办公痛点的产品，打破目前单一的对话式产品形态，更好地提升日常办公的效率。同时，大模型还能赋能原有产品，让已有产品的效能再上一个台阶。

谈到曹植系统的名字由来，纪达麒表示它其实来自一个典故，“曹植七步成诗，我们想让大语言模型和曹植一样，才思敏捷，知识渊博，‘培养’出人工智能版的‘曹植’来。”

垂直领域ChatGPT——“曹植”来了！张江小巨人的AI大语言模型即将诞生

和中国字打了十几年交道的程序员

深挖办公文档的应用场景

不做通用大模型，就做垂直行业的Chat GPT

大语言模型的未来

相关推荐