如果说大数据是人工智能时代的石油,你想好如何提炼了吗?

 
人工智能时代,全球每天产生的数据量呈指数级增长。据 IDC 统计,到 2020 年,全球数据总量将达到 44ZB(十万亿亿字节),中国的数据量将达到 8060EB,占全球总量的 18%。同时,企业希望通过数据分析的结果增强自身的运营能力,这就要求数据分析速度更快、更高效。
 
尽管市面上现有的大多数基于 CPU 的大数据解决方案已经能处理海量数据,但由于 CPU 处理器更新迭代的速度未能呈现如摩尔定律预测的定期翻倍,不能完全满足企业实时分析、高性价比的数据处理需求。
 
“各行各业日益增长的 AI 数据处理需求与陈旧的数据库软硬件体系之间的矛盾,成为人工智能时代的主要矛盾。”常年与数据打交道的星爵(Zilliz 创始人兼 CEO 谢超)发现,GPU 性能改进的速度曲线,跟爆炸式数据增长的曲线非常吻合。他判断,基于 GPU 的大数据加速器的创业时机到了。
 
2016 年,星爵离开工作 6 年的数据系统行业巨头甲骨文(Oracle)公司,创办 Zilliz。公司基于众核处理器硬件(如 GPU)研发加速的、面向人工智能的新一代 OLAP(联机分析处理)数据库系统。简单来说,Zilliz 要将数据库从 CPU 上搬到 GPU 上。
 
把数据库搬到 GPU 上,效率提高 100 倍
在星爵看来,Zilliz 的优势之一,是选择切入 GPU 数据库市场的时间节点恰到好处。
 
“如何运用 GPU 加速数据处理速度,在 2006 年的时候就是学术热点。但根据技术成熟度曲线,技术萌芽期并不是一个好的进入时期。”星爵补充道,之后经过近十年的工业探索,GPU 数据库才真正具备了工业化实力。
 
在过去数十年间,人工智能技术曾因 CPU 架构下计算能力的限制,裹足不前;OLAP(联机分析处理)数据库技术也由于同样的原因,发展缓慢。
 
相较于 CPU 的十几核来说,GPU 上可以承载数千个处理单元。随着深度学习技术在 2012 年的突破,GPU 这种大规模并行计算能力开始在人工智能时代彰显价值,GPU 旋即成为主流处理器之一。
 
任何硬件的普及都需要杀手级应用的推动,比如微信之于智能手机、深度学习之于 GPU。“上层软件受下层硬件的约束。”星爵解释,GPU 最早用于图像渲染,多应用在游戏领域,使用范围较窄。
 
作为 CPU 的协处理器,GPU 市场普及程度不佳,导致多年来基于 GPU 的数据库也一直没有发展起来。而如今,英伟达等芯片厂商已经把 GPU 的生态搭建起来,帮助开发者把门槛降低。“任何人都可以在上面开发应用,就像当初的安卓系统普及一样,现在也有了实现 GPU 数据库的苗头。”
 
而之所以选择做分析型 OLAP 数据库,是因为交易型 OLTP(on-line transaction processing)数据库多用于银行交易等场景,对于安全性要求较高,这块市场相对饱和。而 OLAP 侧重于决策支持,是 AI 应用的底层支撑,还处于高速增长阶段。
 
并且计算密集型的 OLAP 需要分析大量数据,与 GPU 计算力的结合更为成熟。据统计,OLAP 的全球市场规模在 200 亿美元左右,而目前,全球范围内获得大宗投资的 GPU 数据库玩家,包括 Zilliz 在内只有 4 个(美国的 Kinetica、MapD,以色列的 SQream)。
 
2016 年,星爵创办 Zilliz,目前已经组建起一个包含数据库领域、存储领域、异构计算领域、算法优化领域人才的技术团队,2017 年 12 月,Zilliz 联合 IBM 发布了国内首台 GPU 硬件加速数据库一体机 MegaWise。
 
据星爵介绍,与传统的 CPU 数据库相比,Zilliz 基于 GPU 的 OLAP 数据库系统,可以将数据处理效率提高 30-100 倍,同时降低 10 倍硬件成本、20 倍计算能耗。
 
“过去互联网公司做 BI 报表需要 30 分钟到一小时,工作人员点击操作按钮后就可以去吃饭喝咖啡了。而 Zilliz 系统可以将时间缩短为 3-5 秒,提升整个工作流程。”
 
用无感迁移解决部署障碍痛点
美国公司统治了数据库市场若干年,已经建立起了自己的 CPU 数据库生态,Zilliz 作为一个初创公司,如何打破客户的心里顾虑,在巨头口中抢蛋糕?
 
除了成本和性能,部署的便捷性也是客户在上线新的数据库系统时,重点考量的因素之一。为此,Zilliz 提出了一个“无感迁移”的概念。在产品设计之初,研发团队就有针对性地将 ETL 工具做了相应的兼容,并提供标准的 SQL 接口。
 
“一个技术应用本质上要服务于业务需求,我们希望用户在接入我们的新数据库时,他的业务层面不会发生改变。”
 
针对私有部署,Zilliz 推出搭载英伟达 GPU 芯片的一体机方案。该一体机采用 IBM 与英伟达合作开发的 NVLink 技术作为支撑,提升了数据在 CPU 与 GPU 处理器之间的传输速度。
 
另外,针对将数据部署在云端的客户,Zilliz 也可以为其提供 PaaS 服务,在云端为客户提供服务,从而使客户无需采购 GPU 硬件设备便可以使用。
 
不仅仅是数据库系统本身,Zilliz 还提供数据库系统和人工智能计算框架(Tensorflow 和 MXNet 等)之间的直接数据通道,将人工智能处理引擎融合进数据库执行引擎,提供集数据存储、管理、分析和人工智能处理于一体的 OLAP 数据库系统。
 
“数据的存储和处理与人工智能处理之间相互分离,是人工智能时代数据处理的痛点之一。分析师和数据科学家有将近 80%的工作时间被浪费在数据 ETL 上。”Zilliz 打通了数据库系统和人工智能计算框架之间的数据通道,提高了 AI 端到端的处理性能。
 
数据库的未来在中国
“我坚信,数据库的未来一定是在中国。”
 
上个世纪,美国是全球数据产生速度最快、最早实现信息化的国家,星爵认为,这也是为什么甲骨文、微软等公司得以诞生在美国的原因。
 
而人工智能时代,得益于人口基数、基础架构,中国拥有世界范围内最大的数据体量、最复杂的使用场景、最多的数据分析需求。“这必然会倒推技术的进步。”
 
Zilliz 瞄准金融、政府、电信、游戏、电商、物联网、零售、物流、能源、医疗等应用领域,已经与金融、电信、公安、互联网头部机构经历了一年的 POC(Proof of Concept),产品迭代到 2.0。
 
2017 年 8 月,Zilliz 完成完成云启资本领投,靖亚资本、华岩资本跟投的数千万元人民币天使轮融资;2018 年 1 月完成晨兴资本领投,松禾资本、云启资本、靖亚资本跟投的 1000 万美金 A 轮融资,并即将开放下一轮融资。