字体反爬虫的原理和破解方法

[[429151]]

大家好,我是志斌~

之前给大家介绍了一种SVG映射反爬虫,今天在给大家介绍另外一种通过映射关系来进行反爬虫的方式。

不知道大家有没有遇到过这种情况,在写爬虫程序之前我们需要对目标数据进行观察,但是在我们观察时发现目标数据在网页中是以这种奇怪的方式出现的。

这种反爬虫就是字体反爬虫,今天志斌就来跟大家分享一下如何绕过这类反爬虫。

一、原理

在之前,网站开发者在设计网页时只能使用公用的字体来展示网页中的数据。

但是,随着CSS样式的深入开发,网站开发者可以将自己的字体放到服务器中。当用户在访问Web界面时,对应的字体就会被浏览器自动下载到用户的计算机中,然后通过CSS样式进行调用。

之后,通过一种映射关系,使得网页中的源数据变为真正的数据进行展示。

通过这种方式,使得这样就使得网站开发者进行网页设计时,只需要使用特殊字符进行占位即可,不需要将真正的数据放到页面中去。这样,爬虫程序如果不知道这种映射关系的话,就无法从字体中获取正确的数据,从而实现反爬虫。

二、破解

破解这类字体反爬虫有以下几步。

1.下载字体woff文件

从上面我们知道,字体是在服务器上进行存储,并通过浏览器下载到我们的电脑上的,那么我们就可以在网站上找到加载的字体文件,下载下来。

下载下来之后,打开它进行观察,这里给大家分享一个再点字体编译器网站,使用它可以很方便打开woff文件。网址:http://font.qqe2.com/index-en.html。

打开字体文件之后,我们发现,每个数字都对应一个字符串,如7对应的是$E9C7。

2.寻找映射关系

通过对源网页中的占位数据和字体进行比对,我们发现将源数据中的&#x替换成$,然后将字符串首字母大写,就变成了字体对应的字符串了。

3.构建映射算法

在上面我们已经找到了字体之间映射关系,那么我们现在就可以开始用Python来构建映射算法,从而使得爬虫可以获取一个正确的数据。

构建代码如下:

  1. data = { 
  2.    '&#xe9c7' : 7, 
  3.    '&#xf57b' : 1, 
  4.    '&#xe7df' : 2, 
  5.    '&#xe339' : 6, 
  6.    '&#xe624' : 9, 
  7.    '&#xea16' : 5, 
  8.    '&#xf19a' : 3, 
  9.    '&#xee76' : 0, 
  10.    '&#xf593' : 4, 
  11.    '&#xefd4' : 8, 

之后,我们即可对网页进行爬取,然后将对应的源数据与data进行比如,从而获得正确数据。

三、小结

1. 本文详细介绍了如何破解字体反爬虫,由于这种反爬虫是使用CSS进行加载和映射的,所以即使使用一些自动化软件或者渲染工具也无法获得真正的数据。

2. 这类反爬虫的破解只需要将woff文件中的字体与页面数据之间的对应关系找到,构建好即可。

3. 找到woff文件进行下载是关键。

4. 有兴趣的读者可以找志斌要一下网站自己尝试一下。 

5. 本文仅供学习参考,不做它用。

 

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/145964.html<

(0)
运维的头像运维
上一篇2025-03-10 21:08
下一篇 2025-03-10 21:09

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注