当AI遇上SIEM,会碰撞怎样的火花

2018-04-16 13:21:40 来源:安全内参
标签:
SIEM   AI

 

摘要
SIEM是企业安全的核心中枢,负责收集汇总所有的数据,并结合威胁情报对危险进行准确的判断和预警。但传统的SIEM过度依靠人工定制安全策略,不仅仅增加了人力成本,而且整个SIEM的识别准确率和使用效果也都大打折扣。而目前附带AI功能的SIEM系统也只是把AI当成算法插件作为集成,无法在没有安全人员介入的情况下独立的智能工作。
 
本文将从传统SIEM组件构成入手,介绍AI对于下一代SIEM的适用性和重要性,并重点阐述当前主流SIEM&AI平台和全新一代SIEM@AI平台的区别;随后将结合实际案例深入讨论SIEM@AI的两个核心技术原理:数据分析和数据关联;在最后的篇幅,文章会探讨SIEM@AI的发展和研究方向。
 
一、SIEM简史
SIEM是Security Information Event Management的缩写,又名安全信息事件管理平台,作为企业的安全大脑,它可以为企业提供安全数据的收集、整合、分析、关联、处置和展现等功能,是企业业务安全运营的核心和基础。
 
早在10年前,SIEM的概念就已经被提出。SIEM作为企业内部涉及安全的日志管理平台,提供日志的采集、存储、分析查询功能。经过十多年的发展,如今SIEM的产品形态已得到丰富拓展,包括支持多维数据源输入、威胁情报中心(Threat Intelligence)、策略脚本库(Playbook)等,同时外部威胁数据的共享和获取也使得SIEM系统不断被完善。
 
图1:SIEM市场规模预测(来自Gartner 2017年报告)
 
SIEM在美国一直保持着较快发展,根据Gartner相关市场报告,SIEM在全球(主要是美国)最近每年都保持着10%的增长速度,预计在2020年市场规模可达200亿人民币。然而在中国,SIEM还处于比较初级的阶段,很多企业对自身安全问题并没有系统性的管理。2017年整个中国市场只有3.17亿人民币的规模,这个数字相比中国经济对全球经济的占比是不相符的。不过可喜的是,SIEM中国市场最近每年都保持着近20%的增长速度,说明越来越多的中国企业已经意识到了SIEM的重要性。
 
但并非所有企业都需要SIEM,处于初期发展阶段的企业数据流和业务量单一,面临的安全威胁较少,安全设备和软件的需求也相对较小,依靠独立的安全产品即可满足基本需求。当企业发展到中大型规模时,业务线增多,内外网安全环境变得复杂,同时前期使用的安全产品也达到了一定数量,这时就有必要接入SIEM来实现统一的安全运营管理。
 
二、解构SIEM
 
图2:SIEM整体架构图
 
SIEM平台的主要架构由5个层次组成:
采集层
系统数据入口。SIEM大多支持多种数据输入,这些数据从来源划分,包括终端用户设备、网络设备、服务器、存储设备等;从OSI模型划分,包括了数据链路层、网络层、传输层、应用层的网络流量;从系统角色划分,包括不同的业务系统、中间件系统、负载均衡系统等。这些数据或以推送的方式或以拉取的方式向SIEM平台输送,供SIEM进行后续的分析计算。
 
采集层使用的技术主要分为两类:“侵入式”和“无侵入式”。“侵入式”一般采用部署Agent程序,或者用户在自身代码逻辑中添加程序探针等方式采集数据;“无侵入式”一般则采用旁路镜像流量或者输入日志等方式采集数据。两种模式各有优缺点,“侵入式”有利于企业增加定制化功能,并结合SIEM平台的多维特性深入贴合业务,但弊端在于外挂式的Agent一旦不稳定,就会影响用户自身业务,甚至导致系统宕机,我自己就遇到过好几个客户向我抱怨自身的服务被厂商的嵌入SDK搞的不稳定。“无侵入式”则可以完全避免对业务系统的影响,一方面提升系统稳定性,另一方面保护系统数据安全。在技术成熟的情况下,对用户来说,“无入侵式”采集方式显然更加友好。
 
存储层
采集后的数据除了供给后面的计算分析外,还会进行存储。存储层有两个目的:一是对原始采集数据进行存储,二是对计算分析完成的结果进行存储。
 
存储可选择的技术栈一般包括数据管道(中间数据传输),热存储(存储常用数据查询、更新),冷存储(存储不常用的数据)。严格说,数据管道不算是存储,但在实际上为了防范后端数据丢失或堆积,一般也会将经过管道的数据进行临时存储,比如互联网公司最常用的Kafka队列就是将中间数据落地在磁盘上。
 
冷热分级存储的目的在于,保证热数据操作速度的同时,在一定程度上降低企业存储成本。对于冷存储而言,比性能更大的技术挑战是可靠性和可用性,支持多IDC、甚至多Zone的大型分布式存储技术系统是企业首选;而对于热存储,更关注的是读写速度以及如何被计算单元使用,所以一般会选择带有Sharding能力的分布式存储。
 
计算层
SIEM平台的核心。分析准不准、全不全、快不快都依赖这层的计算单元。目前主流的计算模式包括实时计算平台和离线计算平台。
 
海量数据的离线计算平台起源较早,早在10多年前就出现在Google的MapReduce系统中,MapReduce底层先利用GFS将海量数据分片存储,解决了单点设备的IO吞吐瓶颈。每个计算节点再依赖调度器或执行Map任务或执行Reduce任务,不断将海量计算任务分解、归并,最终输出期望的计算结果。实时计算平台算是海量数据计算的后起之秀,包括了以Storm为代表的实时流处理和以Spark steaming为代表的微批次处理两种技术实现方式。
 
在实时性上,实时流处理模式的处理速度更快,但从实际的使用经验来看,这种模式也要求更高的技术运维经验。无论是实时计算平台还是离线计算平台,都要求支持任务的Partition,这样可以在某些主机宕机的情况下,仍然保证计算顺利完成。
 
计算平台最核心的并不是计算框架,而是算法部分的计算逻辑。计算逻辑对流量、用户请求、系统交互信息等不同类型的数据进行计算。目前绝大部分SIEM平台的实现都是基于规则引擎,如Drools,这就需要依赖使用者制定大量的规则,一旦使用者制定的规则有错误或者有遗漏,就会造成错判漏判。
 
输出层
计算层分析的结果最终传导至输出层。传统SIEM的输出方式有很多,包括展现层面、报表层面、报警通知层面、实时阻断层面等,企业可以根据不同业务部门的不同需求选择合适的输出方式。SIEM的输出结果不仅仅和安全部门或业务部门有关,还可能涉及到其他业务单元,比如资产管理、组织管理等。
 
从事件处理的生命周期来看,处理方式可以分成自动方式和手动方式,自动方式可以对计算层分析出的安全威胁事件进行自动处理,包括通知、预警、上报甚至阻断,而对于不能自动处理的情况,就需要手动方式,这时可以借助工单系统进行后续处理跟踪,最终保证安全威胁被处理。
 
情报中心
情报中心为SIEM计算层提供额外的数据支撑,从而提高威胁和异常行为识别的准确率。情报中心的数据来源一般有三种渠道,第一种是来自公开输出的威胁情报,如X-Force Exchange、ThreatBook、Shodan等;第二种是来自自身搜集的威胁情报数据,如通过蜜罐采集、API调取或者交换购买等方式取得有价值的威胁情报;第三种就是来自跟业务自身相关的辅助数据,如用户注册信息,企业资产信息、组织信息等等,这些信息看似和安全威胁关联不大,但是当多种数据联合分析时,就可以为最终的结果输出提供有效参考。
 
情报中心数据的内容包含多种形式,常用的如IP库、设备指纹库、黑卡库、漏洞库等。使用或依赖情报中心要注意情报的实时性,因为目前云化和共(zu)享(yong)经济的普及,很多资源并不是独占的,而是在一定时间后就被回收,并交由其他用途,这样的话如果情报更新不及时就会适得其反。
 
三、SIEM、态势感知和SOC安全运营中心
SIEM、态势感知和SOC安全运营中心有着紧密关系。其中态势感知范围很广,主要聚焦在感知过去、理解现在、预测未来三个层面,这和SIEM的采集并计算分析给出结果进而感知预测是高度吻合的。一些企业发布的态势感知系统其实就是简化的SIEM或者是SIEM的超集。SOC安全运营中心则在SIEM的基础上突出了人的作用,强调了人和平台以及软件之间的联动,通过类似Ticket系统的任务追踪机制,配合SIEM提供的数据分析结果,用人对业务和资产进行全面的安全管理。
 
总之,SIEM对于企业的整体安全分析是非常重要的,通过SIEM可以打通多种数据流的信息,形成对于安全威胁的事前、事中、事后处理,最终保证企业的整体资产及业务安全。
 
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
 

 

继续阅读
从“智能”变“自能”,英特尔让实体经济有无限创新和探索的可能

近几年,物联网设备爆发式增长,数据如洪流一般涌入网络,每天呈TB级增长,如此巨量的数据到底对我们有什么作用?英特尔公司全球副总裁兼中国区总裁杨旭在“数造未来·IN无止境”发布会上表示,“数据是未来的石油。数据的价值和怎样挖掘它的潜力才是未来推动整个产业转型、实体经济发展的重要原动力,所以数据在重新塑造着我们的世界。”

装上摄像头的冰箱,到底智能在什么地方?

说起人脸识别,大家会很熟悉,这是人工智能领域较为火热的技术之一,而商品识别是什么?简而言之,就是通过摄像头识别商品图片或者包装二维码等,来识别这是什么商品以及商品背后各种各样的属性和场景。

从感知到交互,多模态协同到底离我们有多远

技术这个事情,很多时候不是一蹴而就的。

没有“高帽”人才,这家小公司怎么把AI技术搞进软银的系统?

在广州,有一家13人的小型人工智能高科技公司,没有“千人计划”专家,没有名校教授,没有海归硅谷IT人,但是他们的“人工大脑”技术也运用于软银机器人、小米AI音箱等,成为Intel推荐的NLP (自然语言处理)商用技术。

苹果HomePod投入市场无半点水花,只能靠这招挽救惨淡的市场?

据报道,HomePod出现大规模库存积压情况,部分地区苹果店日销量不足10台。一向狂吹苹果的分析师郭明錤也对HomePod不再看好,并预计HomePod今年全年的出货量大概只有200到250万台。

更多资讯
“人工智能+X”新模式,高校都怎么玩?
“人工智能+X”新模式,高校都怎么玩?

日前,教育部印发《高等学校人工智能创新行动计划》(简称《计划》),要求推进“新工科”建设。

第十三届中国电子信息技术年会在苏州隆重开幕

4月21日,由中国电子学会主办的第十三届中国电子信息技术年会在苏州隆重开幕。大会设有主论坛、专题论坛和展览展示等环节,并发布了《中国电子学会会士观点(2018)》等内容。

帝斯曼亮相2018国际橡塑展,为中国市场打造顶尖材料解决方案

活跃于健康、营养和材料领域的全球科学公司荷兰皇家帝斯曼集团将亮相于4月24日至27日在中国上海举办的第32届中国国际塑料橡胶工业展览会,并携可持续创新型解决方案,助力全球性关键问题的解决。

STRADA Whisper背板连接器赢得媒体2017年度编辑选择奖

全球连接与传感领域领军企业TE Connectivity (TE)近日宣布,其行业领先的STRADA Whisper背板连接器获得了《中国电子商情》杂志“2017年度编辑选择奖”。

移动屏幕对于直播电视服务至关重要

显示屏尺寸的不断增大,更快的数据传输速度,专门的数据套餐和改进的视频显示,为像Sling TV这样的直播电视流媒体服务提供了真正的移动市场机会。

Moore8直播课堂
电路方案