写给攻击者的机器学习：利用人工神经网络识别沙箱

丝绸之路资讯 2020-02-24 10:31:13

571350

导语：对于攻击者来说，暴力的收集数据通常会暴露基础设施和初始访问技术，他们使用的恶意软件也会被安全分析师轻松地分解掉。

引言

对于攻击者来说，暴力的收集数据通常会暴露基础设施和初始访问技术，他们使用的恶意软件也会被安全分析师轻松地分解掉。机器学习在防御空间中的应用不仅增加了攻击者的成本，而且严重地限制了技术的使用寿命。在攻击者目前所处的世界中：

· 大量的数据收集和分析对于防御软件是可以访问的，通过扩展，安全防御分析师也可以访问；

· 机器学习正在被广泛的用于加速安全防御的成熟；

· 攻击者总是处于劣势，因为我们人类试图击败自动学习系统，而自动学习系统利用每一个绕过尝试来了解更多关于我们的信息，并预测未来的绕过尝试。对于公开的研究和静态绕过来说尤其如此。

然而，正如我们将在本文中所展示的，机器学习不仅仅是为了防御。这篇文章将探讨攻击者如何利用他们拥有的少量数据来执行他们自己的机器学习。我们将介绍一个侧重于初始访问的案例研究。在这篇文章的最后，我们希望你能更好地理解机器学习，以及我们作为攻击者该如何为了自己的利益应用机器学习。

进程列表作为机器学习的数据

在讨论机器学习之前，我们需要仔细研究攻击者是如何处理信息的。我认为，攻击者在任何一台主机或网络上收集到的可用信息不到1% ，并使用不到 3% 的收集到的信息来做出明智的决定(不要过分在意百分比)。以机器学习的名义增加数据收集的努力将会付出隐形的代价，没有可预见的好处。对于攻击者来说，收集更多的数据并不是最好的解决方案; 攻击者需要提高他们搜集到的数据的利用率。但是，由于命令输出的文本性质，提升数据利用率是有困难的。例如，除了显示特定的进程、体系结构和用户，下面的进程列表还能提供什么？这个问题的解决方案已经存在——我们可以用数字来描述一个进程列表。看看上面的进程列表，我们可以推导出一些简单的数值数据：文本数据也使得描述两个进程列表之间的差异变得困难——所以，问题来了，你如何描述不同主机上的进程列表之间的差异？

· 上面共有33个过程

· 进程与用户的比率为8.25

· 有4个可观察的用户

通过对项目进行数字化描述，我们可以开始分析项目的差异、排列和分类。让我们添加第二个进程列表。

查看并排的数字描述，显示了每个进程列表之间的明显差异。我们现在可以得出任何给定主机上的进程列表，而不需要确切知道正在运行的进程是什么。到目前为止，这似乎没有什么用处，但是了解到进程列表 a 是沙箱中的，而进程列表 b 不是，我们可以检查下面的四个新的进程列表。看看哪些是沙箱？

我们该怎么解决这个问题呢？我们的解决方案是对每个列的值求和，然后计算主机总数的平均值。对于每个主机总数，低于平均值的标记为沙箱也就是1，高于平均值的标记为正常主机也就是0。

我们的解决方案似乎效果不错，然而，这完全是武断的。很可能在使用我们的解决方案之前，你已经可以指出哪些是沙箱的进程列表。你不仅正确地对进程列表进行了分类，而且还根据你从未见过的四个进程列表在没有文本数据的情况下进行了分类！使用相同的数据点，我们可以使用机器学习来正确地对进程列表进行分类。

机器学习简明科普

机器学习中使用的数学技术试图复制人类的学习。就像人类的大脑有神经元、突触和电脉冲，这些都是相互连接的; 人工神经网络有节点、权重和激活函数，这些都是相互连接的。通过重复和在每次迭代之间做一些小的调整，人类和人工神经网络都能够进行调整，以便更接近预期的输出。实际上，机器学习试图用数学复制你的大脑。这两个网络也以类似的方式运作。

在生物学中，电脉冲被引入到神经网络中，电脉冲穿过突触，并被神经元处理。来自突触的电脉冲的强度决定了神经元是否被激活。

在机器学习中，输入被引入到人工神经网络中。输入沿着一个链接权重传递到一个节点，在那里它被传递到一个激活函数。激活函数的输出决定了节点是否被激活。通过迭代检查相对于目标值的输出，可以调整链接权重以减少误差。

人工神经网络(ANN)可以有任意大小。这篇文章探讨的网络有3个输入，3个隐藏层和一个单一的输出。关于较大的人工神经网络，需要注意的一点是每个节点之间的连接数量。每个连接都代表我们可以执行的额外计算，这既提高了网络的效率，也提高了网络的准确性。此外，随着人工神经网络规模的增加，数学计算并没有改变(除非你想变得复杂) ，只是计算的数量增加了。

收集和准备数据

收集进程列表的数据集相对比较容易。任何带有宏的文档都会在沙箱中被任何一个像样的邮件过滤器执行，其余的都是普通的主机。要从沙箱或远程系统获取进程列表，宏需要收集并提交进程列表，以便进行收集和处理。为了进行处理，需要解析数据集。需要计算和保存进程数量、进程与用户的比率和唯一进程数。最后，数据集中的每个项目都需要正确地标记为0或1。或者，宏可以从进程列表中收集数字数据并将结果提交回来。你可以选择你自己的方式。为了便于操作，我们更喜欢使用原始进程列表。

我们还需要对进程列表数据集进行一个转换。前面我们将每个进程列表的总和与每个进程列表总和的平均值进行比较。以这种方式使用平均值是有问题的，因为非常大或非常小的进程列表结果可以显著地影响到平均值。较大的变化将重新分类潜在的大量主机，所以，我们在我们的预测中引入波动性。为了帮助实现这一点，我们对数据集进行缩放(标准化)。有一些技巧可以做到这一点。我们测试了 skiket-learn 中的所有缩放函数，并选择了 StandardScalar 转换。这里有个重要的好处是，过大或过小的值不会再对分类产生如此不稳定的影响。