大数据安全分析08_大数据处理框架介绍

大数据安全分析需要支持对接分布式数据库进行离线批处理分析,来实现长周期的网络安全、用户行为、业务安全分析,所以大数据平台首先需要支持批处理模式。
网络流量产生的实时数据往往是高吞吐量的,一个小型Mbps的企业网络,每秒都能产生几千条数据。所以大数据平台必须要能在高吞吐量下做得低延迟的数据分析能力。
无论是离线分析,还是在线分析,使用的方法都会覆盖:黑白名单、规则(CEP)、机器学习算法这三大类。所以大数据平台必须从API层面,就能支持关联分析、CEP规则定义和机器学习算法整合。
▼▼批处理框架Hadoop
Hadoop以及其MapReduce处理引擎提供了一套久经考验的批处理模型,最适合处理对时间要求不高的非常大规模数据集。
通过非常低成本的组件即可搭建完整功能的Hadoop集群,使得这一廉价且高效的处理技术可以灵活应用在很多案例中。
与其他框架和引擎的兼容与集成能力使得Hadoop可以成为使用不同技术的多种工作负载处理平台的底层基础。
对于仅需要批处理的工作负载,如果对时间不敏感,比其他解决方案实现成本更低的Hadoop将会是一个好选择。
▼▼流处理框架Storm
目前来说Storm可能是近实时处理领域的最佳解决方案。该技术可以用极低延迟处理数据,可用于希望获得最低延迟的工作负载。
对于仅需要流处理的工作负载,Storm可支持更广泛的语言并实现极低延迟的处理,但默认配置可能产生重复结果并且无法保证顺序。
由于Storm无法进行批处理,如果需要这些能力可能还需要使用其他软件,不过这种情况下其他流处理框架也许更适合。

▼▼混合处理框架 Spark

使用Spark而非Hadoop MapReduce的主要原因是速度。在内存计算策略和先进的DAG调度等机制的帮助下,Spark可以用更快速度处理相同的数据集。
Spark的另一个重要优势在于多样性。该产品可作为独立集群部署,或与现有Hadoop集群集成。该产品可运行批处理和流处理,运行一个集群即可处理不同类型的任务。
除了引擎自身的能力外,围绕Spark还建立了包含各种库的生态系统,可为机器学习、交互式查询等任务提供更好的支持。相比MapReduce,Spark任务更是“众所周知”地易于编写,因此可大幅提高生产力。
流处理系统采用批处理的方法,需要对进入系统的数据进行缓冲。缓冲机制使得该技术可以处理非常大量的传入数据,提高整体吞吐率,但等待缓冲区清空也会导致延迟增高。这意味着Spark Streaming可能不适合处理对延迟有较高要求的工作负载。
▼▼混合处理框架 Flink
Flink目前是处理框架领域一个独特的技术。Flink是一种可以处理批处理任务的流处理框架。该技术可将批处理数据视作具备有限边界的数据流,借此将批处理任务作为流处理的子集加以处理。
虽然Spark也可以执行批处理和流处理,但Spark的流处理采取的微批架构使其无法适用于很多用例。Flink流处理为先的方法可提供低延迟,高吞吐率,近乎逐项处理的能力。
Flink提供了低延迟流处理,同时可支持传统的批处理任务。Flink也许最适合有极高流处理需求,并有少量批处理任务的组织。该技术可兼容原生Storm和Hadoop程序,可在YARN管理的集群上运行,因此可以很方便地进行评估。快速进展的开发工作使其值得被大家关注。

扩展  ·  本文相关链接

· 大数据安全分析07_大数据存储技术介绍

· 大数据安全分析06_数据解析技术

· 大数据安全分析05_数据采集技术

· 大数据安全分析04_数据传输方式

· 大数据安全分析03_数据采集对象与数据类型

· 大数据安全分析02_大数据安全分析技术框架

· 大数据安全分析01_为什么要用大数据技术进行安全分析?

(0)

相关推荐

  • 分布式计算框架状态与容错的设计

    对于一个分布式计算引擎(尤其是7*24小时不断运行的流处理系统)来说,由于机器故障.数据异常等原因导致作业失败的情况是时常发生的,因此一般的分布式计算引擎如Hadoop.Spark都会设计状态容错机制 ...

  • 大数据安全分析07_大数据存储技术介绍

    鉴于网络安全数据组成的复杂性.规模,以及对实时搜索响应的需求,需要通过大数据存储集群快速实现空间的扩容,在PB级的安全数据中做到安全分析查询的秒级响应,同时需要为数据提供了冗余机制,保障数据的安全. ...

  • 大数据安全分析02_大数据安全分析技术框架与关键技术

    大数据分析通过对安全告警.系统日志以及网络流量等海量多源异构数据进行采集.存储与分析,打破原有网络安全烟囱式防护模式,将所有安全防护措施与安全数据打通,解决网络安全防护孤岛和数据孤岛问题. 大数据分析 ...

  • 大数据安全分析09_关联分析简介

    大数据关联分析提供了基于规则.基于统计的关联分析功能,能够实现对于安全事件的误报排除.事件源推论.安全事件级别重新定义等效能. ▼▼关联分析简介 关联分析是在大规模数据集中寻找有趣关系的任务.这些关系 ...

  • 大数据安全分析06_数据解析技术

    由于网络空间态势感知的数据来自众多的网络设备,其数据格式.数据内容.数据质量千差万别,存储形式各异,表达的语义也不尽相同. 如果能够将这些使用不同途径.来源于不同网络位置.具有不同格式的数据进行预处理 ...

  • 大数据安全分析05_数据采集技术

    大数据分析中的数据采集方式包括Logstash.Flume.Fluentd.Logtail等,本文对这几种数据采集技术进行简要介绍. Logstash Logstash是一个具备实时处理能力的开源的数 ...

  • 大数据安全分析10:复杂事件处理(CEP)简介

    复合事件架构是由史丹佛大学的David Luckham与Brian Fraseca所提出,使用模式比对.事件的相互关系.事件间的聚合关系,目的从事件云(event cloud)中找出有意义的事件,使得 ...

  • 大数据安全分析04_数据传输方式

    大数据分析中数据传输方式包括SYSLOG.kafka.JDBC/ODBC.文件或FTP.Agent等方式,本文对数据传输方式进行简要介绍. SYSLOG syslog日志消息既可以记录在本地文件中,也 ...

  • 大数据安全分析11:复杂事件处理(CEP)引擎简介

    目前已有的CEP引擎根据事件处理语言可以分为两大类:面向流和面向规则的CEP引擎. 面向流的CEP引擎有Microsoft Streamlnsight.Oracle CEP.IBM SPADE.Esp ...

  • 大数据安全分析03_数据采集对象与数据类型

    安全告警.系统与应用日志.网络流量以及资产漏洞.威胁情报等数据中,都包含大量有价值的安全信息,对这些分离的多源异构数据进行统一的采集与预处理,能够为网络安全大数据分析提供重要的数据基础. 日志数据 日 ...