深度学习网络入侵检测系统警报
大家读完觉得有帮助记得关注和点赞!!!
摘要
网络入侵检测系统(NIDS)监控网络中的网络攻击和其他不需要的活动。然而,NIDS解决方案通常每天产生大量的警报,这使得分析人员难以优先处理高优先级的威胁。虽然深度学习模型有望实现NIDS警报优先级排序的自动化,但这些模型缺乏透明度可能会削弱对其决策的信任。本研究强调了在NIDS警报分类中,可解释人工智能(XAI)对于提高信任度和可解释性的关键需求。我们采用了来自爱沙尼亚塔林理工大学(TalTech)安全运营中心(SOC)的真实NIDS警报数据集,开发了一个长短期记忆(LSTM)模型来优先处理警报。为了解释LSTM模型的警报优先级排序决策,我们实施并比较了四种XAI方法:局部可解释模型无关解释(LIME)、SHapley加性解释(SHAP)、积分梯度和DeepLIFT。这些XAI方法的质量是使用一个综合框架评估的,该框架评估了忠实性、复杂性、鲁棒性和可靠性。我们的结果表明,DeepLIFT始终优于其他XAI方法,提供了具有高忠实性、低复杂性、稳健性能和强大可靠性的解释。通过与SOC分析师的合作,我们确定了有效警报分类的关键特征。这些分析师识别的特征与XAI方法获得的特征之间的强一致性验证了它们的有效性,并增强了我们方法的实际适用性。
关键词 网络入侵检测系统 :NIDS 警报 、SOC 、可解释性评估
1 引言
许多组织使用开源(例如,Suricata 和 Snort)或商业(例如,Cisco NGIPS)的 NIDS 平台来识别恶意网络流量 [1]。最广泛使用的 NIDS 平台使用人工创建的签名来识别恶意网络流量。然而,这通常会导致大量的警报,但只有极小一部分值得安全分析师的密切关注
在一个典型的SOC运营中,安全分析师会根据警报对组织资产安全的影响来分析警报,并将其分为高优先级或低优先级。在这个阶段,分析师还会识别出误报,即良性的系统活动,但被NIDS标记为警报。安全分析师发现识别高优先级警报具有挑战性[8]。机器学习(ML)深度学习(DL)方法构成了自动化这些优先级排序任务的重要解决方案,从而减少了SOC工作负载,尤其是在相关文献中安全监控和事件处理流程的较低层级,方法分为监督、无监督和半自动化方法[20, 21, 2]。然而,尽管ML模型在警报优先级排序方面做出了重大贡献,但其可解释性或可理解性仍然是一个重要的关注点。
可解释人工智能(XAI 或 Explainable AI)对于专家验证警报分类以及行业遵守法规是必要的 [31]。在网络安全中,解释标记的网络活动作为潜在威胁至关重要。XAI 通过阐明 NIDS 警报分类并识别数据收集的关键特征,有助于满足合规性标准并改进系统。在发生安全漏洞时,XAI 为取证分析提供有价值的见解,帮助理解为什么特定警报被触发或未被触发,这对于重建时间线和攻击性质至关重要 [10]。NIDS 通常在高误报率方面存在困难。XAI 可以使安全分析师能够理解为什么特定的良性活动被错误地标记为威胁,从而实现更透明的系统调整并减少误报 [11]。
可解释人工智能(XAI)方法通过各种全局和局部解释方法来解决模型不透明性问题[5]。一些研究已经研究了入侵检测中的可解释人工智能方法[10, 32, 33, 11]。然而,至关重要的是要注意,这些研究并没有在各种入侵数据集和各种黑盒性质的AI模型集合下全面评估可解释人工智能方法。这种缺乏全面评估的情况严重影响了这些方法的一般性,突显了该领域进一步研究的迫切需要。尽管基于XAI的IDS工具预计将成为网络安全不可或缺的一部分,以帮助SOC中的安全分析师提高效率,并在网络防御和威胁缓解方面更加精确,但将基于XAI的模型部署到网络入侵检测中的一个关键挑战是评估这些工具,测试它们的质量,并评估相关的安全指标。这些挑战削弱了在网络IDS系统中实际部署XAI-IDS模型的可信度。
在本文中,我们提出了一种用于NIDS警报优先级排序的长短期记忆(LSTM)模型,以提高透明度和可靠性。本研究评估了各种XAI方法,旨在弥合复杂ML模型的高精度与网络安全问题领域对透明、可解释决策的需求之间的差距。本研究的目标包括:创建一个用于NIDS警报分类的可解释LSTM模型;比较四种先进的XAI方法;使用综合指标评估它们的性能;以及基于四个标准验证XAI生成的解释:忠实性、复杂性、鲁棒性和可靠性。
忠实度评估了解释反映模型行为的准确程度,确保局部解释代表模型的决策过程。稳健性评估了解释在小输入扰动下的稳定性,这对于建立对局部解释的信任至关重要。复杂性评估了解释的简洁性,因为更详细的解释通常更易于理解,对人类理解更有价值。可靠性保证了解释与既有知识相一致,例如本例中SOC分析师识别的特征。
我们提出,可解释人工智能方法可以为LSTM模型的决策过程提供解释,优先处理NIDS警报,并最终提高这些系统的信任度和实用性。本研究特别考察了使用LSTM的NIDS警报的真实世界数据集,解释了这些模型做出的输出决策,并通过定量和定性(专家)评估对其进行评估。本研究强调了高风险威胁检测环境中的人工智能(XAI)。我们的研究为现有文献提供了一个视角,因为可解释性方面尚未与NIDS警报的重要性联系起来进行探讨。这项研究表明,一个精心设计的基准研究可以识别出提供高质量解释的高性能检测模型。因此,在所涉及的ML研究中,安全专家可能不需要为了模型的可解释性而牺牲检测性能。
本文的结构如下:第2节回顾了关于NIDS和NIDS中XAI的相关工作,第3节概述了我们的方法,第4节展示了我们的结果和讨论,第5节提供了我们的结论。
2 相关工作
机器学习(ML)和深度学习(DL)已经推动了网络入侵检测系统(NIDS)警报的分析。本节回顾了NIDS警报处理中的关键贡献,重点关注分类、聚类和可解释人工智能方法。它深入研究了解决诸如警报优先级排序、误报减少以及网络安全中可解释模型等挑战的研究。
提出了一种用于NIDS警报分类的三阶段方法[13]。他们使用LSTM和潜在语义分析将文本警报转换为向量,使用DBSCAN算法对向量进行聚类,并根据传入警报与聚类核心点的相似性对其进行分类。[14] 开发了一种半自动方法,用于分类NIDS警报和其他安全事件,该方法涉及使用深度学习模型检测和分析事件序列,使用DBSCAN算法进行聚类,以及人工分析师标记生成的聚类[14]。然后,标记的数据库用于半自动分类其他事件序列,人工分析师手动审查未聚类的事件。
在一篇论文[3]中,作者利用SHAP、LIME、对比解释方法(CEM)、ProtoDash以及通过列生成实现的布尔决策规则(BRCG)在NSL-KDD数据集[4]上进行了入侵检测系统(IDS)的研究。他们展示了影响网络攻击预测的因素。
提出了一种使用基于IWSVM的分类器来检测关键NIDS警报的方法。该分类器为重复的数据点和关键警报的少数类分配了更高的权重。聚类算法根据IP地址、服务端口和警报发生时间等属性,将代表同一事件的警报进行分组。[16]开发了一个使用机器学习来分析NIDS警报数据的组织平台,支持二元SVM和单类SVM方法[16]。在一篇论文[17]中,作者描述了另一种用于处理NIDS警报和其他安全事件以识别高危用户的组织实现。[18]使用了一种基于图的方法来消除误报,并应用GBDT算法进行警报分类。[19]使用大型NIDS数据集来评估七种监督机器学习方法[19]。他们发现加权SVM、SVM和AB (Adaboost)产生了最好的结果,而两种基于隔离森林的无监督算法提供的精度低于评估的监督算法。
需要注意的是,大量的研究致力于用基于机器学习的系统取代NIDS [40]。然而,由于这项技术的广泛可用性以及围绕这些系统发展的复杂SOC流程,组织机构使用基于签名的NIDS。因此,在SOC中,确定NIDS警报的优先级是一个重要的现实挑战。各种研究已经探讨了基于机器学习的NIDS系统的可解释性。然而,据我们所知,文献中尚未研究用于NIDS警报优先级排序的机器学习模型的可解释性。
引入了混合 Oracle Explainer IDS,它结合了人工神经网络和决策树,以实现高精度,并为其决策提供人类可理解的解释 [32]。在一篇论文 [33] 中,作者们开发了一个基于 Oracle 的 Explainer 模块,该模块使用最近的聚类来为决策生成解释。一项研究探讨了如何在 5G 安全的背景下,使用脚手架技术来针对和削弱解释。作者们提出了一个在安全环境中执行脚手架攻击的框架,该框架涉及选择特征和通过结合可解释 AI 方法来训练模型。[38][38] 引入了一个名为 TRUST 的模型无关的 XAI 框架,用于数值应用。它使用因子分析来转换输入特征,使用互信息来对特征进行排序,并使用多模态高斯分布来为每个类标签生成新的样本。
其他一些研究已经探索了入侵检测中可解释的人工智能方法[10, 32, 37, 34, 12, 44, 30]。与基于机器学习的网络入侵检测系统(NIDS)的研究相比,我们的研究强调了通过模型透明性使NIDS警报易于理解的重要性。我们的方法结合了可解释人工智能(XAI)技术,以评估其在阐明NIDS警报分类方面的有效性。我们使用了来自真实环境的NIDS数据集,这使得我们的发现比基于旧数据集的发现更具相关性。我们的评估标准涵盖了诸如解释的可靠性、忠实性、鲁棒性和复杂性等方面,从而评估了该领域内的可解释性。通过让安全运营中心(SOC)分析师参与验证我们的XAI发现,我们弥合了机器学习模型与人类知识之间的差距。这一进展增强了网络安全领域中的XAI,为开发透明可靠的NIDS警报关键优先级排序系统提供了视角。
3 方法论
3.1 数据集
我们的研究使用了从塔林理工大学(Taltech)安全运营中心(SOC)部署的 Suricata NIDS 系统中获取的 NIDS 警报数据集。该数据集使用 Suricata 定制流聚类算法 (CSCAS) 收集,用于分析 TalTech SOC 中 Suricata NIDS 发出的警报。数据收集时间跨度为 60 天,从 2022 年 1 月到 3 月,在此期间 Suricata 生成了警报,涉及 45,339 个主机和 4401 个 TalTech 主机的网络活动。
在整个数据收集阶段,CSCAS按照以下设置运行:SessionLength = 300秒(5分钟),SessionTimeout = 60秒(1分钟),ClusterTimeout = 604,800秒(1周),CandTimeout = 36,000秒 • Timestamp – 警报组报告时间
(10小时)MaxCandAge = 864,000 秒(10天),且 α = 0
.
01。自2021年以来,这些配置已在环境中用于CSCAS,并被确定为最佳配置,如[20]中所述。NIDS警报被分类为“重要”或“不相关”。网络流量的数据点由SCAS(一种流聚类算法)的定制版本生成,并带有标签,指示它们是否被SCAS视为内点或外点。数据点由人工标记,以指示它们是否代表重要或不相关的警报组。在SOC安全监控过程中,重要警报会被优先处理。不相关的警报包括低优先级威胁(例如,频繁扫描旧漏洞)或误报(例如,与尝试解析并非来自受感染计算机而是来自特定安全应用程序的僵尸网络C&C服务器DNS名称相关的警报)。数据集[22]的描述如下:
• SignatureText – 人工可读的警报文本
• SignatureID – 数字签名ID
• SignatureMatchesPerDay – 触发签名的每日平均匹配次数(如果首次匹配发生在不到 24 小时前,则设置为 0)。
• AlertCount – 当前警报组中的警报数量
• 协议 – 数字协议 ID(例如,6 表示 TCP,17 表示 UDP)
• ExtIP – 外部主机的匿名化 IP 地址(extipN,其中 N 是标识给定 IP 地址的数字)
• ExtPort – 外部主机上的端口,如果警报涉及多个外部端口,则设置为 -1
• IntIP – 内部主机的匿名化IP地址(intipN),如果警报涉及多个内部IP地址,则设置为-1。
• IntPort – 内部主机上的端口,如果警报涉及多个内部端口,则设置为 -1。
• 相似度 – 此警报组与同一集群中其他警报组的总体相似度;如果它是异常值,则与其他异常值警报组的相似度。该值范围从 0 到 1,值越高表示相似度越高。
• SCAS – 由定制版SCAS分配的标签。此处,0表示内点,1表示外点。
• AttrSimilarity – 网络入侵检测系统警报属性Attr的相似度(总共有34个属性)。如果给定签名未设置属性Attr,则设置为-1,否则范围从0到1。该字段表示在同一集群的其他警报组中(如果当前警报组是异常值,则在其他异常值警报组中)观察到该属性值的频率。
我们与爱沙尼亚塔林理工大学(TalTech)的安全运营中心(SOC)分析师合作,以评估为黑盒模型决策生成的后验解释的可靠性,该黑盒模型是为本工作中警报分类而设计的深度学习(DL)模型。有关塔林理工大学安全运营中心的详细描述,请参见[21]。塔林理工大学的安全运营中心团队利用其在管理网络入侵检测系统(NIDS)警报方面的专业知识,确定了五个用于确定警报重要性的特征,如表1所示。在我们的研究中,这些特征作为基准参考特征,用于评估我们的可解释人工智能(XAI)算法的性能。
表1:Taltech SOC分析师确定的用于判断NIDS警报重要性的关键特征
在我们的工作中,数据集排除了“SignatureText”和“Timestamp”特征,并在模型训练之前排除了外部IP地址(“ExtIP”特征)和内部IP地址(“IntIP”特征)。
3.2 用于NIDS警报的长短期记忆网络
在本研究中,我们提出了长短期记忆网络(LSTM),用于分类给定的NIDS警报组是否需要立即关注(重要类别标签),或者可以评估为不太关键(不相关类别标签)。LSTM是一种神经网络,旨在解决传统循环神经网络中的长期依赖问题。它引入了遗忘门、输入门和输出门来控制信息的流动并维持长期记忆。图 1 显示了LSTM网络隐藏层的结构。遗忘门适应上下文,丢弃不必要的信息。它使用sigmoid函数产生一个介于0和1之间的值,然后乘以先前的细胞状态。值为0表示完全遗忘,而1表示完全保留。
我们在输出层使用 softmax 激活函数来预测类别标签,这为每个类别提供了预测概率,使我们能够理解模型的置信度和概率分布。根据第 3.4 节的讨论,基于诸如忠实性、单调性和最大敏感度等指标来评估 XAI 技术也至关重要。
3.3 可解释性人工智能方法
3.3.1 SHAP
3.3.2 LIME
3.3.3 集成梯度
3.3.4 DeepLIFT
3.4 可解释性人工智能方法评估
对可解释人工智能方法的评估至关重要,以确保它们提供的解释是透明、准确和可靠的。我们采用四个关键指标来评估基于LSTM模型的NIDS警报解释的质量:可靠性、忠实性、鲁棒性和复杂性。这些指标提供了一个全面的评估框架,涵盖了解释质量的不同方面。XAI评估分为三类[NT0][6]:以用户为中心的评估、以应用为中心的评估和以功能为中心的评估。前两类是以人为本的评估的一部分,并细分为主观和客观衡量标准。
3.4.1 可靠性
以下是由安全运营中心分析师识别的 topk特征。
3.4.2 忠实性
3.4.3 鲁棒性
3.4.4 复杂度
4 结果与讨论
在本节中,我们将展示我们的研究结果,包括对LSTM模型性能的分析,以及使用可解释人工智能方法对LSTM模型的解释,并基于四个标准对这些解释的质量进行评估:忠实性、复杂性、可靠性和鲁棒性。
图 2:最佳 LSTM 性能模型的损失和准确率
图3:混淆矩阵和分类报告
DeepLift是一种技术,通过比较神经元激活与参考激活,并根据方差分配贡献分数,将LSTM模型的输出归因于其输入特征。图4c说明了使用DeepLift解释器对标记为“重要”的NIDS警报数据点的10个特征的重要性。'SCAS'的负归因表明其对NIDS警报中分类为“重要”的影响。此外,'HttpMethodSimilarity'和'IntIP'显示出负归因,而HttpContentTypeSimilarity具有轻微的积极影响,抵消了“重要”分类。IG通过将模型输出相对于输入的梯度从基线积分到输入,从而将LSTM模型的预测归因于其输入特征。这种解释技术最适用于使用线性激活函数的模型。图4d展示了使用IG解释器对“重要”NIDS警报类标签中的数据点的特征重要性,该数据点包含10个特征。诸如'SignatureID'、'SCAS'和'HttpStatusSimilarity'等特征显示了归因。
我们的分析表明,TalTech SOC分析师识别的特征与我们LSTM模型中用于分类“重要”NIDS警报的解释器得出的特征高度一致。表1中SOC专家认可的5个特征在不同的解释器中均显示出显著性,尽管它们在特征重要性排序上有所不同。例如,
a)使用LSTM模型的重要NIDS警报的LIME解释
图 4:使用 LSTM 模型对重要的 NIDS 警报数据点进行解释
表2:可解释人工智能方法的评估结果:平均值 (μ) 和标准差 (σ) 值。
图5:可解释人工智能评估指标分布质量
我们评估了XAI方法对基于长短期记忆(LSTM)网络的NIDS警报分类所获得的解释质量,使用了基于四个标准的指标,包括:忠实性、鲁棒性、复杂性和可靠性,数据点为2000个。表5显示了XAI方法解释质量的结果。LSTM模型预测概率使用Softmax激活函数计算。为了评估解释的忠实性,我们采用了高忠实性相关性和单调性。XAI方法的高忠实性通过研究XAI方法分配的属性重要性及其对模型概率的影响之间的相关性来评估。高忠实性相关值表明解释有效地捕捉了模型的行为,可以被认为是忠实的。表格。2显示了xai方法的评估结果。计算了2000个测试数据点的XAI计算指标的测试数据的平均值(μ)和标准差(σ)值。对于测试数据点,Deep Lift实现了最高的忠实性平均值和标准差相关值,为0.7559 ± 0.2681。我们还分析了解释的单调性,以了解各个特征如何影响模型概率,方法是添加每个属性以增强其重要性,并观察其对模型概率的影响。通过评估解释器的单调性,我们可以衡量解释如何相对于输入特征单调变化。Deep LIFT实现了高单调性,为78% (μ)。
表 3:多种指标下解释器统计比较(p 值)
为了衡量复杂性,我们计算了解释中特征属性的熵。复杂性衡量了解释器得出的解释的简洁性。在通过低复杂性指标评估的 XAI 方法中,积分梯度 (IG) 实现了较低的复杂性 (2.174 ± 0.413),紧随其后的是 DeepLift (2.264 ± 0.330)。
灵敏度指标评估了解释器输出的一致性,确保模型输出特征空间中相似的输入在灵敏度较低时具有相似的解释。对于此指标,我们使用欧几里得距离,半径值为 0.1,以找到与解释的预测标签相关的最近邻点,这有助于识别特征空间中具有相似预测标签解释的数据点。Deep LIFT 通过最大灵敏度指标实现了较低的灵敏度 (0.0008 ± 0.0004)。
使用了两个指标,即相关性质量准确率(Relevance Mass Accuracy)和相关性排序准确率(Relevance Rank Accuracy),来评估解释的可靠性。这些指标通过将解释与基于SoC分析师合作确定的特征的真实掩码进行比较,从而验证了解释。对于相关性质量准确率(0.781 ± 25.281)和相关性排序准确率(0.6754 ± 0.089)这两个指标,Deep lift解释都是可靠的。如图。5 说明了2000个数据点的XAI指标结果分布,突出了DeepLIFT的解释表现出高保真度、低敏感度、低复杂度和更高的相关性排序准确率。DeepLIFT的保真度相关值表明其强烈偏向于更高的水平,通过单调性显示出高度的一致性。此外,与其它解释器相比,IG和DeepLIFT的特征重要性得分的熵值更均匀地分布在较低端。DeepLIFT解释器的敏感度值在最大敏感度指标中也更均匀地分布到较低的值。此外,使用相关性排序准确率,DeepLIFT始终如一地实现了高相关性排序准确率,且变异性较小,集中在0.8左右。
表3中的统计分析显示,所有指标的解释器之间存在显著差异,p值始终低于0.05,表明存在强有力的证据反对原假设。与其他解释器进行成对比较时,DeepLift解释器在忠实度、最大敏感度、RMA和RRA方面表现更好(所有比较的p < 0.001)。SHAP、LIME和IG的相对性能在不同指标之间有所不同,详见表3。
图 6:LSTM 模型的 SHAP 全局解释
我们还提供了使用SHAP值对LSTM模型所有测试数据的全局解释。较高的值对预测产生积极影响,而较低的值则产生负面影响。如图。6 显示了LSTM模型的全局解释。该图说明了每个特征对模型输出幅度对于类别标签“不相关”和“重要”分类的平均影响。SignatureIDSimilarity、SignatureMatchesPerDay、ProtoSimilarity和SCAS是对重要NIDS警报影响最大的特征。值得注意的是,这些最重要的特征与人类专家SOC分析师确定的特征相一致。排名较低的特征,如HTTP相关相似性(例如,HttpHostnameSimilarity、HttpUrlSimilarity)和IP相关特征(例如,ExtIPSimilarity)对模型决策的影响相对较小。
5 结论与未来工作
本研究提出了一种基于可解释人工智能 (XAI) 的网络入侵检测系统 (NIDS) 警报分类方法,该方法利用了长短期记忆 (LSTM) 模型。我们展示了如何通过四种 XAI 技术(LIME、SHAP、Integrated Gradients 和 DeepLIFT)阐明这些 LSTM 模型的输出预测,从而提高人工智能驱动的网络安全系统的可解释性和可信度。我们对 XAI 框架进行了彻底评估,考虑了忠实性、复杂性、稳健性和可靠性等方面,评估了这些 XAI 方法在解释 NIDS 警报方面的效果。DeepLIFT 在这些评估指标中的卓越性能突显了其作为解释 NIDS 警报分类的首选方法的潜力。值得注意的是,XAI 技术生成的解释与 SOC 分析师识别的特征之间的高度一致性验证了它们在捕获领域专业知识方面的有效性。本研究通过弥合不透明机器学习模型的高准确性与网络安全运营中透明决策的必要性之间的差距做出了贡献。通过提出一个解释黑盒模型决策并评估 NIDS 应用中 XAI 的框架,我们提供了全面的基准测试结果,包括用于在关键安全领域开发透明且可解释的 AI 系统的评估指标。