与非网 11 月 19 日讯,近日,华为在深圳举办 2019 全球数据基础设施论坛,在论坛上华为开源了数据虚拟化引擎 HetuEngine。

 

面向鲲鹏计算产业,华为 Cloud&AI 产品与服务总裁侯金龙 19 日宣布启动数据基础设施战略并开源数据虚拟化引擎 HetuEngine(河图引擎),希望让合作伙伴像使用“数据库”一样使用“大数据”,让数据治理、使用更简单。

 

“开源版本的河图引擎叫 openHetu,将于 2020 年 6 月上线。华为将开源内核,开发者可以基于开源代码进行定制,包括数据源扩展、SQL 执行策略等,实现应用快速对接,提升开发效率。”这是继今年 9 月基于“鲲鹏+昇腾”双引擎全面启航计算战略后,华为从数据角度对计算战略的再度阐述。

 

 

据侯金龙介绍,华为数据基础设施战略围绕数据“采 - 存 - 算 - 管 - 用”的全生命周期,诠释了华为通过提供融合、智能、开放的数据基础设施,使能各行各业客户释放数据价值,让智能无所不及。

 

侯金龙称,随着 5G、AI 和云的普及,数据量正以惊人的速度增长。如从 1080P 到 4K、8K,视频数据量将提升 40 倍,从 4K 到 4KVR 要增加 6 倍以上;未来每辆自动驾驶汽车每天就会产生高达 64TB 数据,等等。这些海量数据增长背后需要海量存储和计算的资源,数据增长是无限的,而存储资源却是有限的。

 

根据预测,全球数据量将从 2018 年的 33ZB 快速增长到 2025 年的 180ZB。但是,产生的数据中仅有不到 2%被保存,而被保存的数据中仅有不到 10%被应用。

 

据介绍,华为数据基础设施包括数据存储、数据处理、数据管理系统、数据虚拟化引擎等,包含以下三大特征:

 

融合:基于在存储、数据库、大数据等技术领域的突破,打破“存储内部系统墙”、“数据库与存储链路墙”、“大数据与存储配置墙”、“数据库与大数据协同墙”四堵墙。这四堵墙的打破,让数据融合更彻底,帮助客户实现 TCO 降低 30%以上、据访问和处理性能提升 2 倍、分析效率提升 100%。

 

智能:基于 AI 芯片、存储和华为云的三层架构,通过云上云下结合,云上训练和云下推理,让系统越用越快、越用越省。其中,依托昇腾处理器的 AI 能力,自动学习和识别 IO 流,提升 Cache 预取命中率,系统整体性能提升 20%;依托鲲鹏处理器的多核算力,根据不同的数据类型,实时优化数据缩减算法,TCO 降低 25%;结合华为云自身运大规模维运营经验,当前可以实现提前 14 天预测硬盘故障,提前 60 天预测性能瓶颈,提前 365 天预测容量不足,其中 30%的故障可以自我修复。

 

开放:针对找数难、取数难、用数难的问题,推出数据虚拟化引擎 HetuEngine,屏蔽数据类型差异、地域差异、语法差异,让数据治理、使用简单。HetuEngine 拥有“一个入口、一个目录、一份数据、统一安全”四大核心能力,通过屏蔽数据基础设施的复杂度,让伙伴像使用“数据库”一样使用“大数据”,复用现有的生态、工具和技能,提升开发效率 2 到 10 倍。