特征工程之加密流量安全检测

在经典的机器学习领域,特征工程始终占据着核心位置,特征工程的质量高低往往直接决定了机器学习效果的成败。本文概述我们在加密恶意流量检测实践中的特征工程方法流程并分析最终使用的流量特征集合。

[[271426]]

从广义的角度审视,特征工程的实践流程一般包含特征提取、特征选择、特征应用、特征迭代四个步骤。

一、特征提取

特征提取是特征工程初期的重要工作任务。如何设计待提取的候选特征集合,需要对恶意软件加密通信具有全面的领域知识积累。如何处理提取后的特征候选集合以得到适合机器学习模型输入的特征,需要对数据分析处理方法具有深入的实践经验。

初步特征抽取针对的候选特征集合分为协议无关特征与协议相关特征两类。协议无关特征是指流量数据传输过程中表现的通用特征,例如,数据包的大小、包时间间隔等。协议相关特征是指流量数据在加密传输协议层面表现的专有特征,例如,SSL 扩展种类、加密套件种类。通过对 SSL 协议标准和恶意流量数据的深入研究,并结合收集的数据集进行逐一验证,我们最终得出一组涵盖范围广且和恶意流量相关性高的候选特征集,然后开发专有特征提取系统,为后续的特征数据分析处理提供基础支持。

在已提取的候选特征集合基础上,进行进一步特征数据分析处理,对不适合直接作为机器学习模型输入的数据,进行深度特征抽取。例如,针对加密通信过程中可能出现的各类域名,传统方法是提取域名的数字个数、字母个数、非字母和数字个数等作为特征,我们基于深度学习技术训练 LSTM 模型直接提取其 DGA 域名概率值作为特征,能够给机器学习模型提供更有效的数据信息。后续实验表明,这类深度抽取特征在模型中起到了关键作用。上述 DGA 域名检测模型架构图如下图所示:

二、特征选择

特征选择是特征提取后的一项重要工作,直接决定了最终使用特征集的质量。我们共使用了四类特征选择方法:先验知识验证、降维可视化分析、启发式搜索分析、综合工程测试。前两类方法依靠数据统计分析,后两类方法结合分类模型。

先验知识验证,是指依靠专家先验知识直接对候选特征集合进行取舍。针对数据集上的特征统计结果表现出的差异,先验知识可以直接给出本质原因,指导特征选择。例如,SSL 扩展在 GREASE 扩展项上表现出的正常/恶意流量差别,是不能作为保留特征的,因为,GREASE 扩展项只是浏览器为保证协议可扩展性设计的特性,并不反映恶意流量特性。

降维可视化分析,是指对初步选择的一组特征集进行基于无监督学习的降维处理和可视化分析,直接判断这组特征集的质量。例如,我们使用 PCA 和 t-SNE 等降维方法对一组特征集进行降维,从对降维结果的可视化分析图可以看出,这组特征集在图中的数据集上的聚类和区分效果明显,具有较高的质量。降维可视化效果如下图所示:

启发式搜索分析,是指从一个较小的特征集出发,分批次逐步添加候选特征,使用机器学习模型进行分类效果测试,判断该批次特征的取舍。在特征集数量较大导致无法遍历测试每个特征集的场景下,基于随机选择和树搜索的分析方法可以较好地平衡效率和准确率。

综合工程测试,是指在基本确定的一组特征集基础上,结合机器学习模型进行进一步的综合工程测试。例如,决策树模型和随机森林模型都可以给出特征重要性数值和排序,在这两种模型上进行测试时就可以综合每一次的测试结果,淘汰一些排序低和数值低的特征,进一步精简特征集。

经过上述四步特征选择方法,得到一组相对比较准确的加密流量特征集。在此基础上,还要进行特征之间的相关性分析,去除相关性较大的重复特征,这可以通过计算相关系数、互信息等方法实现。虽然去除重复特征对模型的预测效果并无太大提高,但是其主要目的是精简特征集,减小模型复杂度,提高预测性能。

三、最终特征集

经过特征抽取和特征选择,最终得到四大类特征集:时空特征、握手特征、证书特征、背景特征。在这四大类基础上,又分为 54 个子类、超过 1000 种特征。这些特征足够细粒度地描述每一次加密会话,体现不同类加密流量的细微差别。

1. 时空特征

时空特征即前面提到的协议无关特征。“时” 指的是和时间相关的一组特征集,例如,流时长、包时间间隔等。“空” 指的是和包大小相关的一组特征集,例如,包大小转移矩阵、熵值等。下图分别是两个示例:

2. 握手特征

握手特征即前面提到的协议有关特征之一,主要是和 SSL 协议相关的一组特征集,刻画了客户端和服务端在握手阶段的一系列流量特征。例如,协议版本、支持的扩展项等。下图分别是两个示例:

3. 证书特征

证书特征即前面提到的协议有关特征之一,主要是和 x509 协议相关的一组特征集,刻画了双方使用的数字证书的一系列特征。例如,证书链长度、使用者正常度等。下图分别是两个示例:

4. 背景特征

背景特征是指从背景流量中提取并选择的一类特征,如 DNS、HTTP 等背景流量特征,其中,DNS 背景流量特征主要反映在域名特征,HTTP 背景流量特征主要反映在 HTTP 协议头内容特征。下图是一个 DNS 类特征的示例:

四、特征迭代

特征工程是一个不断迭代更新的过程,上述内容只是其中一个迭代的工作任务,当基础数据种类和内容发生变动时,需要及时对特征工程进行再次循环,不断修正和完善特征集,在 “特征” 这个关键点上持续下功夫。

经过以上四个步骤,加密恶意流量检测的特征工程可以取得初步成效。经过我们的实践经验总结,需要特别强调的是,不止要在实验室数据验证与特征迭代方面不断加以完善,更需要在多场景下的多数据源现网环境中充分验证和迭代,同时注意新出现的威胁流量数据的收集与验证,才有可能得到一个可投入实际应用的加密恶意流量检测机器学习模型。

【本文是IDC.NET专栏作者“李少鹏”的原创文章,转载请通过安全牛(微信公众号id:gooann-sectv)获取授权】

戳这里,看该作者更多好文

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/143790.html<

(0)
运维的头像运维
上一篇2025-03-09 20:58
下一篇 2025-03-09 20:59

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注