爱奇艺SOAR探索与实践

引言

SOAR 全称Security Orchestration, Automation and Response,即安全编排自动化与响应,最早由Gartner在2015年提出。 安全团队注重威胁检测,往往购买了各种安全设备,同时自研安全产品,试图通过增加检测功能,追求更小的MTTD(平均威胁检测时间),以及更大的威胁检出率。但面对外部日新月异的攻击手法,频频爆出的高危漏洞,不断增加的安全服务,企业安全运营面临巨大的压力,一方面出现安全人力不足,另一方面,对安全运营的专业能力要求过高。这个时候,急需一个系统来提升安全运营的标准化和自动化水平。 SOAR提出了通过事件智能分析、事件编排、安全工具整合的方式,加快事件的快速预警和响应,从“人到安全工具”交互转变为“机器到安全工具”交互,应急响应转换为持续自动化响应,从而降低人工成本、降低MTTR、提高安全运营生产力。近来SOAR产品备受关注,目前国内比较知名的厂商有雾帜智能,绿盟,盛华安,360等,阿里云-云安全中心也上线了SOAR相关功能,如自动化溯源等。国外有Rapid7/Splunk也很早在SOAR领域开始了布局。 SOAR作为安全编排与自动化,情报和事件响应平台融合的新兴安全解决方案,可以帮助企业在有限的人力下,处置更多的威胁,降低MTTR(平均威胁处置时间)。爱奇艺内部引入SOAR之后,通过开发安全组件拉通各个安全服务,一方面安全剧本自动化执行降低了人工运营的压力,另一方面,MTTR(平均威胁处置时间)也降低75%左右。 笔者总结了爱奇艺内部SOAR实践的一些经验,欢迎各位读者一起探讨交流。

SOAR架构

下图是爱奇艺SOAR系统的整体架构,其中,核心的组件有:工作流引擎、图形编排组件、安全组件和剧本、IM机器人和小程序。

调度引擎

目前市面上开源的工作流引擎不少,如Flowable,Oozie等。经过综合评估,我们选用StackStorm作为底层的编排调度引擎。业内如Netflix公司也使用了StackStorm作为监控自动化处置的底层引擎 [1] StackStorm采用模块化的架构,由多个松耦合的能水平扩展的服务组成,这些服务之间通过消息总线(message bug)进行通信,提供Web UI,CLI以及完整的REST API。StackStorm的优势: 工作流引擎可使用yaml编排,方便运营人员编写,及二次集成开发; 支持webhook触发器及Sensor,支持python,方便安全服务集成; 支持条件语条,fork/join等,满足安全工作流基本需求; StackStorm工作流程: Sensor感应并触发事件; Rules Engine对事件进行规则匹配,如果匹配,产生任务; Worker执行任务,一般是调用到外部系统; StackStorm记录审计任务执行的细节; 任务执行结果返回给Rules Engine进行进一步处理。

图形编排

Stackstorm附带的图形编排引擎需要单独收费,不太适合二次开发,我们集成了NSA开源的Walkoff系统的前端,作为图形编排界面。 Walkoff优势:有良好的拖放工作流编辑器

安全剧本/安全组件

安全组件对应Stackstorm的action,使用python对现有安全服务的接口进行包装后集成。 安全剧本对应Stackstorm的workflow,并尽可能地复用现有的安全组件,提高开发效率。目前我们的组件和剧本对接了gitlab,方便版本存储及回滚,实现标准的SOP。

落地场景

对于SOAR,我们主要在两大安全场景落地使用。一种是高频场景,主要是日常运维,安全等级一般较低,但重复程度较高;另一种是低频场景,主要是高危安全事件响应,紧急程度较高,需要快速响应。

高频场景

场景示例: 漏洞单自动验证,由扫描器发现的漏洞,业务处理后标记"已修复"的,自动完成验证,关闭或重新打开工单 安全价值: 降低重复劳动,节省人力成本 评估指标: 节省人力时间(人/天) 统计指标如下图所示

低频场景

场景示例: 服务入侵自动溯源调查;高危漏洞通报(如Struts,Fastjson)自动关联威胁情报;主机jar包/代码jar包进行通报整改响应 安全价值: 实现无人值守,快速、标准化、自动化应急响应,减少安全损失 评价指标: 流程处置时间MTTR(平均威胁响应时间) 以高危jar包漏洞通报为例,通常这类漏洞危害较大,且在短时间内推动所有业务完全修复较为困难。我们通过SOAR及相关资产清点,优先处置对外及重点业务的高危jar包,保证企业相关业务安全。

ROADMAP

当前进展 实现了安全组件、安全剧本的代码编排以及图形化编排, 实现标准化的事件调查及响应流程,并有效缩短了MTTR。 运行效果如图 (部分内部敏感组件已隐藏)

针对移动端开发了对应小程序及群聊机器人,方便安全人员在移动端可以通过公司内部聊天软件实现ChatOPS及快速安全应急响应。群聊机器人,方便安全人员进行ChatOps。

完成移动端小程序开发,方便安全人员远程处置安全事件

评价指标包含以下三类 编排能力指标:实现了35个安全组件,11个安全剧本,17个安全服务联动; 自动化能力指标: 评估每个安全剧本执行次数及人工触发执行次数; 能效指标: 目前包含自动化确认及协助调查节省的时间。 部分运营指标如下图所示

未来目标 短期目标 支持更多SOAR组件,连接更多服务,保证组件复用率 形成案件库及知识库,以便支持后续的智能分析预警,沉淀安全人员的处置经验 更准确丰富度量指标,数据驱动决策 长期愿景: 通过安全编排自动化,提高事件响应和安全运营效率,并从根本上遏制和消除安全威胁

参考

Introducing Winston — Event driven Diagnostic and Remediation Platform 傅奎: 争分夺秒——基于SOAR的应急响应加速解决方案 安全运营持续优化之路—— 基于ATT&CK+SOAR的运营实践 CyberSky-SOAR安全编排自动化与响应系统 https://github.com/nsacyber/WALKOFF Workflow Processing Engine Overview 2018: Airflow vs Azkaban vs Conductor vs Oozie vs Amazon Step Functions Introducing Winston — Event driven Diagnostic and Remediation Platform 自动化响应技术如何提升事件响应效率 SOAR,为SOC插上一对隐形翅膀

标签: