【行业译文】僵尸网络攻击预测:实验与结论
|
|
|
|
|
|
表1描述了评估中使用的数据集。整个数据集有大约10个月的324693个数据点。真实数据和虚假数据的数量不平衡,因此随机抽取虚假数据,使其与真实数据的数量对齐进行实验。C2有774个唯一的IP地址,垃圾邮件发送者有154个唯一的IP地址,它们可以相互关联。
首先,有14 309个数据点需要与16周的数据交叉验证,以评估所提方法的性能。这些数据也被用来分析每个度量对预测决策的贡献。接下来,作为应用性领域的评估,研究者准备了20组数据来评估测试数据比训练数据晚的预测性能。每个集合将其周期转换为一周,由16周的训练数据和50天的测试数据组成。通过平均20个集合的结果,一个独立于训练数据的时间的一般化结果是可用的。
尽管之前在僵尸网络测量和检测方面进行了很多尝试,但很少有人关注攻击预测。有许多不同的动机攻击预测,如预测下一个预期的DDoS开始时间从一个特定的僵尸网络攻击的家庭,在未来阻止恶意流量通过测量的指标的可能性有多大,网络将包含主机妥协,或确定的概率不同的攻击类型可能发生在一个特定的时间。
类似的研究也被考虑作为比较。一种方法是基于监控多台主机在操作阶段的同步,例如传入攻击、二进制下载、C2通信和传出攻击。它在攻击发起前检测到77%的攻击,但在攻击发生前只有20%的预测能力。另一种方法应用马尔可夫模型来训练感染细菌的主机状态之间的潜在转换,并提出了一种基于当前观察到的行为来预测未来状态的方法。它能以98%的准确率预测攻击。然而,对于其他数据集的适用性存在疑问,因为本研究中使用的数据集从C2通信到攻击的状态转移概率非常高。这两项研究使用了应用层的检测日志来跟踪数据包,处理负载可能太高,无法将所提出的方法应用到每台主机上。
相比之下,本研究提出的方法是一种新颖的攻击预测方法,它关注描述C2流量的各种指标,自动将指标的时间序列数据与攻击数据关联起来,并预测僵尸网络攻击。在一个大规模的、真实的、长期的数据集上,本研究的预测精度达到了0.767。虽然这些结果不能简单地与之前的研究进行比较,但这一结果可以作为未来研究的基准。此外,由于使用了网络服务提供商在正常网络操作中收集的流量数据,因此该模型易于在真实网络中进行再训练。
本研究通过测量C2流量的综合指标,并结合攻击数据自动标注指标的时间序列数据,对僵尸网络攻击预测进行了一种新颖的实证分析。该方法对僵尸网络垃圾邮件数量的预测准确率为0.767。研究还表明,指标及其类别和时间步长对预测是有用的。虽然模型和参数可以进一步改进以适应概念漂移问题,但如果将bots与C2关联的数据是可用的,那么本文提出的方法也适用于预测各种攻击,比如DDoS。
这种方法的主要局限性在于数据的质量。解决超出本研究范围的网络资源和技术难题,如数据采集流量率采样、C2流量与合法流量分离等,对C2的准确识别和跟踪至关重要。为了验证这一概念,本文利用垃圾邮件信誉数据作为攻击数据。然而,垃圾邮件的监控点被认为与收集的网络流数据不同,这意味着与C2关联的垃圾邮件发送者数量将不足。与其他局限性一样,该方法在对等僵尸网络和使用多级C2s的僵尸网络中不可避免地会受到影响。不同的流量模式需要为每个僵尸网络及其网络配置建立一个或多个更复杂的模型。此外,这里讨论的所有限制仍是未来的工作,包括多个isp和安全供应商的合作,以同样的方式采取整体的方法。