如何在网络安全解决方案中使用数据挖掘技术

walker 技术 2023-02-15 11:00:00

83529

导语：在本文中，我们研究了关键数据挖掘技术以及网络和端点安全中数据挖掘的五个用例。

仅在 2021 年，人类就创建、复制和使用了大约74 泽字节（万亿千兆字节）的数据。看起来我们拥有所需的所有数据，但实际上每年都越来越难找到相关信息。幸运的是，数据挖掘等技术可以帮助我们恢复数据的秩序，并利用它来提高我们的网络安全。

使用数据挖掘技术分析您的数据库和安全日志可以帮助您改进对恶意软件、系统和网络入侵、内部攻击以及许多其他安全威胁的检测。有些技术甚至可以准确预测攻击并检测零日威胁。

在本文中，我们研究了关键数据挖掘技术以及网络和端点安全中数据挖掘的五个用例。这篇文章对于开发网络安全软件并希望提高其威胁检测能力的团队很有用。

网络安全中的数据挖掘：过程、优点和缺点

什么是数据挖掘？数据挖掘是分析信息、发现新模式和数据以及预测未来趋势的过程。它经常用于科学研究、业务开发、客户关系和其他领域。

虽然术语数据挖掘通常被视为数据库中知识发现(KDD)的同义词，但它实际上只是 KDD 过程中的步骤之一。KDD 的主要目标是从大量数据中获取有用且通常是以前未知的信息。整个KDD流程包括四个步骤：

数据库中知识发现的 4 个步骤

KDD 广泛应用于任何可以从海量数据分析中获益的领域：科学研究、商业分析、营销研究等。它还被网络犯罪分子用来寻找新的攻击方式，并被网络安全专业人员用来检测和阻止这些新的攻击。

结合数据挖掘和网络安全可以确定网络攻击的特征并改进攻击检测过程。为了获得有价值的知识，数据挖掘使用了来自统计学、机器学习(ML)、人工智能(AI) 和数据库系统的方法。

数据挖掘可帮助您快速分析庞大的数据集并自动发现隐藏的模式，这对于创建能够检测以前未知威胁的有效反恶意软件解决方案至关重要。但是，使用数据挖掘方法的最终结果始终取决于您使用的数据质量。

依靠数据挖掘来改进保护有其自身的优点和缺点。让我们来看看它们：

这些是出于网络安全目的而挖掘数据的一般利弊。除此之外，每种数据挖掘技术都有自己的优势、局限性和特定的用例。让我们来看看网络安全的六种关键数据挖掘方法。

6 大关键数据挖掘技术

您可以使用预测或描述技术来挖掘数据库。说明性技术根据过去的事件进行预测，而描述性技术侧重于对现有数据库的分析和构建。

让我们来看看网络安全的六种关键数据挖掘技术：

挖掘网络安全数据的技术

分类

此技术通过将大型数据集分解为预定义的类、概念和变量组来创建数据库模型。您还可以使用它来分析构建模型后添加到数据库中的变量，并为它们分配相应的类。为了实现准确的实时分类，您需要非常注意算法的监督训练以及测试其工作原理。在网络安全中，分类通常用于检测垃圾邮件和网络钓鱼电子邮件。

回归分析

这些算法根据数据集中其他变量的已知平均值来预测一个变量的变化值。使用此技术，您可以在数据库中建立因变量和自变量之间的关系模型。分析变量的变化并将这些变化与因变量进行比较可以帮助您确定变化的原因以及一个变量对另一个变量的影响。回归分析广泛用于预测趋势和事件，包括可能的网络攻击。

时间序列分析

这些算法通过分析数据库中任何数据条目更改的时间来发现和预测基于时间的模式。这种技术对于通过挖掘多年数据库来深入了解各种周期性活动特别有用。您可以依靠时间序列分析来预测在特定事件、季节甚至一天中的某个时间发生的安全漏洞和攻击。

关联规则分析

这是最广泛的数据挖掘算法之一。关联规则分析可以帮助您发现数据库中频繁一起出现的变量之间可能存在的关系，并发现隐藏的模式。您可以应用此技术来分析和预测用户行为、检查网络流量以及定义网络攻击模式。安全人员经常使用关联规则分析来研究攻击者的行为和思维方式。

聚类

聚类有助于识别具有共同特征的数据项并了解变量的异同。它类似于分类，但聚类不能实时对变量进行排序。此技术只能帮助您构建和分析现有数据库。与分类相比，聚类允许在模型中进行更改并创建子集群，而无需重新设计所有算法。

总结

这种数据挖掘技术侧重于编译数据集、类和集群的简要描述。摘要可以帮助您更好地了解数据集的内容和数据挖掘过程的结果，因为它可以掌握数据的本质并消除手动挖掘数据的需要。在网络安全解决方案中，汇总主要用于生成报告和可视化日志。

请记住，这些数据挖掘技术中的每一种都可以通过 ML 和 AI 算法得到增强。这些尖端技术可以帮助您发现更多隐藏的模式并提高预测的准确性。然而，将 ML 和 AI 添加到网络安全解决方案中肯定会增加其开发和维护的复杂性。

接下来，我们将仔细研究特定用例，展示如何将数据挖掘用于网络安全解决方案。

网络安全中的数据挖掘用例

您可以将数据挖掘应用于任何数据库，并根据您想要实现的任何目标对其进行调整。在网络安全领域，挖掘算法通常有助于发现可能表明安全事件的异常数据记录和事件。

以下是数据挖掘在计算机安全领域最常见的五种应用：

1.恶意软件检测

在构建安全软件时，开发人员使用数据挖掘方法来提高恶意软件检测的速度和质量，以及检测零日攻击。

检测恶意软件的策略有以下三种：

恶意软件检测策略

异常检测涉及对系统或网络的正常行为进行建模，以识别与正常活动模式的偏差。基于异常的技术甚至可以检测到以前未知的攻击，并可用于定义滥用检测器的签名。

但是，异常检测甚至可以报告偏离规范的合法活动，从而产生误报。

误用检测，也称为基于签名的检测，仅根据签名示例识别已知攻击。这种技术的误报率较低，但无法检测到零日攻击。

混合方法结合了异常和滥用检测技术，以增加检测到的入侵数量，同时减少误报数量。混合检测算法不构建任何模型。相反，他们使用来自恶意软件和合法程序的信息来创建分类器，这是一组规则或由数据挖掘算法生成的检测模型。然后系统的异常检测部分搜索与正常配置文件的偏差，系统的误用检测部分查找代码中的恶意软件签名。

无论您选择哪种策略，恶意软件检测系统的开发都包括两个步骤：

恶意软件检测过程

首先，数据挖掘算法从 API 调用、n-gram、二进制字符串、程序行为和其他事件的记录中提取恶意软件特征。您可以应用静态、动态或混合分析来从可能不安全的文件中提取恶意软件特征。

在分类聚类的过程中，可以使用相应的技术，根据特征分析对文件样本进行分组。此时，您需要使用RIPPER、决策树、人工神经网络、朴素贝叶斯或支持向量机等分类算法构建分类器。

使用 ML 技术，每个分类算法都会构建一个模型来表示良性和恶意类。使用此类文件样本集合训练分类器使您甚至可以检测新发布的恶意软件。

2.入侵检测

攻击者可以通过组织的网络、数据库、服务器、Web 客户端和操作系统执行恶意入侵。使用数据挖掘技术，您可以分析审计结果并识别异常模式。因此，您可以检测入侵、网络和系统扫描、拒绝服务和渗透攻击。

数据挖掘方法对于检测这些类型的入侵特别有效：

通过数据挖掘检测入侵

要检测基于主机的攻击，您的网络安全软件需要分析从程序中提取的特征。检测基于网络的攻击需要这样的解决方案来分析网络流量。与恶意软件检测一样，您可以查找异常行为或滥用案例。

入侵检测系统通常基于分类、聚类和关联规则技术。这些技术允许从数据库中提取攻击特征，将它们系统化，并标记任何具有相同特征的新记录。您可以在此处使用的一些算法包括回归和决策树、贝叶斯网络、k 最近邻、学习自动机和层次聚类。

您还可以向入侵检测系统添加预测功能。分类和时间序列分析等技术可以计算未来入侵的可能性。使用 AI 算法可以更轻松地检测隐藏的或以前未知的可疑活动。

3.欺诈检测

检测欺诈具有挑战性，因为欺诈活动通常很隐蔽，而且网络犯罪分子不断发明新的欺诈模式。

利用机器学习的数据挖掘技术可以发现多种类型的欺诈行为，从金融欺诈到电信欺诈和计算机入侵。ML 对于欺诈检测特别有用，因为它可以：

扩展以考虑数据库数量和复杂性的变化
学习检测和预测新型欺诈
准确计算欺诈活动的概率

您可以使用监督和非监督 ML 算法来检测欺诈。

通过监督学习，所有可用记录都被归类为欺诈或非欺诈。然后使用此分类来训练模型以检测可能的欺诈行为。这种方法的主要缺点是无法检测新型攻击。

无监督学习方法从未标记的记录中学习欺诈模式。他们为欺诈活动创建自己的分类和特征描述。无监督学习有助于在不使用统计分析的情况下识别数据中的隐私和安全问题。它还能够分析和检测新型欺诈。

4.威胁情报收集

有关网络安全威胁的证据通常分散在组织的网络中。这些记录可用于形成训练数据集、构建挖掘模型并提高预测准确性。但挑战在于在数 TB 的记录中找到相关数据。

数据挖掘算法有助于发现此类隐藏数据并将其转换为结构化的威胁情报数据库。您可以使用聚类、关联规则和汇总技术来发现这些类型的智能：

安全威胁情报的类型

数据挖掘通常仅用于威胁情报的第一阶段：发现和构建数据。之后，网络安全专家必须手动审查发现的数据并决定如何对其采取行动。但是，您也可以使用数据挖掘技术构建一个基于机器学习的框架来收集和处理数据。

5. 内部威胁检测与预测

内部威胁是可能对组织造成伤害的合法用户的活动。检测内部威胁活动通常是一项棘手的任务，因为这些行为通常看起来与普通用户活动相似，或者它们可以被故意隐藏在威胁检测机制之外。

由于大数据算法可以检测机器和人类用户的异常行为，因此它们被广泛用于检测和预测内部威胁。与入侵检测系统类似，内部威胁检测系统基于识别合法和威胁行为的特征。

有多种基于机器学习的分类和聚类算法，包括有监督和无监督的，有助于检测内部威胁。此外，您还可以根据数据挖掘原理训练深度神经网络，以检查网络安全日志并实时检测可能的内部活动。

结论

可靠、相关且结构良好的数据是几乎所有网络安全解决方案的基础。虽然组织每天都会生成大量数据，但手动收集和处理所有这些数据以应对网络安全威胁是不可能的。

数据挖掘技术可以帮助您识别任何恶意活动的特征，甚至可以预测可能的攻击。它们在收集威胁情报和检测恶意软件、入侵、欺诈和内部攻击方面特别有效。通过数据挖掘增强保护的主要好处是能够识别已知攻击和零日攻击。

本文翻译自：https://www.apriorit.com/dev-blog/527-data-mining-cyber-security如若转载，请注明原文地址

分享至

感谢您的支持，我会继续努力的!

打开微信扫一扫后点击右上角即可分享哟

如何在网络安全解决方案中使用数据挖掘技术

发表评论

你可能感兴趣的