大数据平台安全的特点及数据采集传输的安全防护

2019-01-11 09:26:33 来源:elecfans
标签:

关于大数据安全的思考

中移软件多年来一直致力于大数据平台建设,为中国移动提供大数据平台建设和服务能力。

 

在建设实践过程中,我们一直在思考大数据平台安全与传统数据安全的区别。从本身特征来看,大数据平台数据量大、数据涉敏,同时大数据平台底层为开源组件。从外部环境来看,GDPR和网络安全法都关注个人隐私数据,最近频发的安全事件也注意是数据泄露事件。

 

此前平台建设实践更多的关注于平台本身,我们做了漏洞扫描工具等,但是都是独立于数据采集、存储、处理、共享过程之外的,要真正保障大数据平台数据的安全,必须关注数据本身,关注数据生命周期,也就必须与数据采集、存储、处理、共享完全结合,不能游离在大数据处理流程之外。

 

全生命周期数据安全防护平台

我们将数据全生命周期精简定义为“采集传输-存储处理-数据共享”三大部分流程,其中数据采集过程涉及平台外与平台内之间的数据交互,存储处理为平台内处理过程,数据共享为平台内与平台外之间的数据交互。同时对全过程通过安全态势感知平台进行检测和预警。

 

图1 数据全生命周期

 

数据采集传输安全防护

采集过程主要包括:

配置采集数据源、配置采集流程(含建目标表)、调度监控采集流程、采集数据传输四步。

 

配置采集数据源过程:

主要通过采集白名单配置、数据源操作权限管理等手段进行安全防护

 

配置采集流程(含建目标表):

主要通过事前敏感字段标注、安全级别设置、静态脱敏等方式进行安全防护

 

调度监控采集流程:

通过应用程序账号认证、流程监控告警、资源相互隔离等方式保障

 

采集数据传输流程:

通过传输加密等方式保障

 

图2 数据采集传输过程-静态脱敏

 

数据存储处理安全防护

敏感数据存储是大数据安全的难题。全生命周数据安全防护平台提供透明加密和数据完整性检查两种解决方案,加固数据存储环节,提高数据存储安全性。但是加密存储对平台性能影响大,同时对使用造成较大影响,因此一般敏感级别的数据不建议加密存储。

 

中移软件全生命周期数据安全防护平台更重视使用过程的安全,使用过程分4种不同场景进行防护。以数据使用场景 “用户ABC对A表X字段进行查询操作”为例,通过不同的技术手段,实现4种不同层级的使用防护。

 

场景1:

对不起,您对A表的访问权限仅限访问Y字段,无权访问X字段。该场景使用行列细粒度权限管控技术实现细粒度数据权限管控。

 

场景2:

对不起,您对A表的操作权限仅限插入数据,无法查询数据。该场景使用操作细粒度权限管控技术实现细粒度操作权限管控。

 

场景3:

对不起,该操作涉敏,需要XXX审批,审批后可执行。该场景将传统数据安全手段移植至大数据平台,实现敏感重要操作的多人协同。

 

场景4:

对不起,该操作涉敏,查询结果已自动脱敏为“188****9672”。该场景通过动态脱敏技术,使得不同使用者对涉敏数据操作得到不同结果。

 

图3 数据存储使用过程-金库模式

 

数据共享安全防护

数据对外共享一般包括两种方式:

接口方式和文件方式。

 

接口方式

包括接口数据(JSON/XML)、流式数据(Kafka)等多种数据访问方式。我们通过API操作权限管理、API流量管控、API认证管理等手段实现接口管控。

 

文件方式

主要指通过FTP、SFTP、邮件等对外共享数据,数据类型包括TXT、CSV、Word、PPT、Excel、网页等,平台通过数字暗水印进行安全防护。数字水印通过对文本(TXT、CSV、Word、PPT、Excel、网页等)嵌入暗水印作为标记一起传输,保障数据在发生泄漏时,能够提取水印信息并追踪至责任人,达到事后安全保护的目的。企业安全管理员、文档管理员等可以通过水印嵌入、水印提取功能,有效追溯外泄源头,实现共享数据泄露的事后追踪。解决了数据泄露后无法追踪、难以定责、难以避免再发生的问题。

 

图4 数据共享过程-数字水印

 

全流程安全态势感知

安全态势感知依托于对大数据平台操作行为的审计,对Hadoop集群业务进行安全监控,重点对用户的内部违规行为进行采集分析、监控和画像,是一种企业业务型的态势感知。通过“采集-分析-感知-告警”实现安全事件的有效感知,利用数据可视化技术实现整体风险态势的直观化呈现。

 

图5 全过程-安全态势感知

 

核心技术解析

在全生命周期数据安全防护平台中,使用到大数据技术、传输数据安全技术以及AI技术,具体包括以下方面:

 

 

结语

从产品可用到安全有效之间,还存在很大的鸿沟,例如库表敏感级别定义、字段敏感标注、对应的安全策略设置(动态脱敏、静态脱敏、金库、存储周期、加密算法)等,均暂无可直接借鉴的案例。这些实际的落地需要更多的业务人员参与进来细化,使得大数据平台真正实现数据全生命周期安全防护。 

 
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
 

 

继续阅读
工业互联网平台大乱斗,数据安全成难题

数据显示,中国国内至少已涌现出269个工业互联网平台,全国近20个省市出台了推动企业上云的政策;工业互联网发展势头迅猛。然而,国内不少平台在核心能力与生态建设上与国际巨头存在着较大的差距。

云计算中有哪些数据安全问题?

越来越多的企业将业务迁移到云计算平台,这意味着其对数据安全的责任显著增加。具有各种敏感度的数据正在超出企业防火墙的范围。企业将不再拥有控制权,其数据可能位于世界任何地方,并可能取决于其合作的云计算供应商。

数据安全的未来在哪里?

从媒体及研究机构关于数据安全市场空间的预计看,2020年数据安全的市场大约有12亿,以此为基础稍作延展,到2023年估计会有20亿的市场空间,这个数据想吸引更多资本进入,显然十分悲观。

医疗大数据兴起的背后,谁来为数据安全买单?
医疗大数据兴起的背后,谁来为数据安全买单?

在数字经济的大潮下,网络环境更加变化莫测,数字资产成为医疗行业的核心资产,传统安全的防护模式遇到越来越大的挑战。那么如何在有限的认知、资源、时间去对抗无限的对手和可能呢?

隐私变公开透明,你的数据正在被倒卖

美国佛蒙特州刚刚通过法令,要求所有购买和出售第三方个人信息的公司进行注册备案。已知的涉及这个行业的公司有121家,这毕竟是个灰色行业,因此,需要一些规则来约束。

更多资讯
偏光片市场为何如此紧缺?状况将持续到2020年

近几年,伴随着全球显示面板产能快速扩充,上游材料的供应问题也更加凸显,特别是具备一定技术门槛的材料,国产配套水平低,上游产能高度垄断的材料。

Qualcomm、vivo、腾讯王者荣耀和腾讯AI Lab是怎么搭上关系的?

Qualcomm Technologies, Inc.与vivo、腾讯王者荣耀和腾讯AI Lab今日宣布,四方正利用第四代Qualcomm?人工智能引擎AI Engine,共同推动和探索终端侧人工智能应用的全新体验。

汇顶科技下半年将推LCD量产方案?

汇顶科技CEO张帆透露,今年光学指纹芯片在OLED产品上的渗透将进一步加速,另外,汇顶也正针对LCD屏幕指纹进行研发,希望在今年可以让屏下技术能够适应LCD的屏幕。

当BAT巨头战场伸向学界,能否啃下“AI人才短缺”这块硬骨头?

百度的悄然发力,其实并不意外。在中国“智能+”赛道上,AI技术的外溢效应越发明显,在高校这段跑道上,巨头正各展所长,激烈交锋。

人工智能和大数据赋能银行,将带来哪些提升?

人工智能和机器学习是否可以检测消费者刷付银行卡?很多银行正在开发防止欺诈交易的系统和业务,以便银行可以在损害消费者利益之前通知并让其取得控制权。

Moore8直播课堂
开发板测评
技术讨论
电路方案

1970-01-01 08:00:00