CAPTCHA识别器可识别94.4%的暗网CAPTCHA

研究人员提出基于机器学习的CAPTCHA识别器,可以识别94.4%的暗网CAPTCHA。

当前,网络攻击和数据泄露等网络犯罪数量指数级增长。因此,使暗网变得更加透明对于针对性的网络攻击防御具有重要意义。研究人员想要创建一个将网络威胁情报流水线化处理的系统,这就需要系统能够识别当前需要手动识别的CAPTCHA验证码。

CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart,全自动区分计算机和人类的图灵测试)的目的是区分计算机和人类的一种程序算法,是一种区分用户是计算机和人的计算程序,这种程序必须能生成并评价人类能很容易通过但计算机却通不过的测试。

DW-GAN

暗网CAPTCHAs

为了保护暗网网站免受DDoS攻击等的威胁,当前暗网网站在登录页都使用了CAPTCHA。而且这些CAPTCHA都是定制的,使得开发一个高准确率的CAPTCHA识别器非常困难。因此从暗网市场和论坛自动化地收集网络威胁情报都变得非常困难和昂贵。

DW-GAN方法

为解决这一问题,研究人员提出一种基于机器学习方法的CAPTCHA识别器——DW-GAN。与近年来基于人工智能方法的CAPTCHA识别器方法不同,DW-GAN 使用GAN来去除背景噪声,使用增强的字母分割算法来处理可变字符长度的CAPTCHA图像。

图 边界追踪与区间识别

识别器可以通过去除图像噪声、识别字母之间的边界、将内容分割为单个字母的形式来区分字母与数字。

图 去除CAPTCHA噪声和分割字母

因此,CAPTCHA的大小并不影响识别器的有效性,尤其是识别3次的累计性能方面。不同CAPTCHA大小的识别准确率如下图所示:

图 不同CAPTCHA大小的识别准确率

从字符识别方面来看,识别器使用多个本地区域提取的样本来识别线、边等精细化特征,因此不会受到字符旋转、字体大小变化、颜色混合等的影响。

图 不同字体的数据样本

现实场景测试

研究人员对DW-GAN方法在不同数据集上进行了测试,其中包括在现实场景Yellow Brick的测试。研究人员从Yellow Brick收集了1831个非法产品,其中有286个网络安全相关的项目,包括102个窃取的信用卡、131个窃取的账户、9个伪造的扫描文件、44个黑客工具和1223条毒品相关的信息。

图 在Yellow Brick市场对数据集进行测试

在DW-GAN的帮助下,对这1831个情报信息的数据花费; 5个小时。其中加载每个新页面的HTTP请求花费8.8秒,因此发起1831个页面花费了268.5秒,利用DW-GAN破解和识别CAPTCHA花费18.6秒/个。

总体来看,DW-GAN可以在不超过3次尝试的情况下破解CAPTCHA,破解1831个产品页面的CAPTCHA验证码花费了76分钟。

与其他基于机器学习的验证码识别器的性能对比如下:

图 其他基于机器学习的验证码识别器的性能对比

相关研究成果发表在期刊ACM Transactions on Management Information Systems上,DW-GAN代码也上传到了GitHub,参见:https://github.com/johnnyzn/DW-GAN

论文下载地址:https://arxiv.org/pdf/2201.02799.pdf

本文翻译自:https://www.bleepingcomputer.com/news/security/researchers-develop-captcha-solver-to-aid-dark-web-research/如若转载,请注明原文地址。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/127982.html<

(0)
运维的头像运维
上一篇2025-02-24 22:33
下一篇 2025-02-24 22:35

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注