专门对付人工智能的AI黑客目测就要出现了

最近我发现个问题:

无论是在电影还是现实中,人工智能AI 都经常以碾压人类的姿态出现在公众面前。

电影里, T800 机器人光着屁股登场,第一件事就是暴揍一群人类,抢走他们的衣服、摩托和墨镜,全程一副“你瞅啥再瞅瞅试试”的样子。

[[247027]]

现实中,人工智能也经常以碾压人类的姿态出现在公众面前。

1997年“深蓝”战胜象棋大师卡斯帕罗,2017年前后“阿法狗”击败围世界级棋手李世乭、柯洁…… 每次都把人类选手逼到不得不认输。

(被 AI支配的恐惧三连发) 

[[247028]]

[[247029]]

[[247030]]

如此看来,“人工智能发展史”简直就是“人类一步步被自己发明的 AI 击败的历史”,真让人悲喜交加无以表达……

然鹅!

画风一转,幺哥今天给大家讲个人类调戏 AI 的趣事。

Let’s Rock !

图像识别大家都见识过,它是 AI 应用最热门的领域之一,人脸识别、物品识别、自动驾驶……应用十分广泛。

但其实早在2015年前后,就有人发表过一篇名为《深度神经网络真好骗》的论文。

他们发现,有一种骚操作能欺骗图像识别系统,分分钟让 AI 变傻子。

怎么做的呢?

这是一张熊猫侧身照,人类看着是熊猫,图像识别 AI 也把它认作熊猫。

研究人员对这张图里的的某些特定像素进行了一点点肉眼无法辨识的扰动。

(看不懂里头的公式没关系)

之后,虽然人看着还是熊猫,可 AI 却会把它识别成长臂猿,而且置信度高达 99.3%。

就这样,人类成功欺骗了AI。

根据这一原理,有人做了另一组更骚的实验。

他们对马路上的路标进行了艺术加工,在特定的位置贴了些小纸片,涂抹了些污渍。

照理说,路标每天在外面日晒雨淋,被弄脏或者贴个小广告也不奇怪,路人通常不会在意。

可就因为这些特殊处理,让国外某款自动驾驶汽车变成了傻子。

测试结果显示:左边三个“停止”路标被 AI 识别为“时速60码”,最右边的“右转”被 AI 识别成了“停止”。

一开始,人们以为这是某个特殊条件偶然触发了 BUG,可后来研究人员发现,这个问题在图像识别领域普遍存在。

甚至,除了图像识别,声音识别等其他领域的 AI 应用也出现了类似问题。这时人们才发现,原来这是所有机器学习的通病!

讲真,一开始我看到这项研究成果时,简直是身心愉悦喜闻乐见 —— 人类终于逆袭了一次 AI。

可等我冷静下来,却发现此事细思极恐。

人类可以欺骗 AI 图像识别 ,这不就意味着,坏人能用这种方法让自动驾驶汽车撞向护栏?

这不就意味着,下一次逃犯去听张学友的演唱会时可以欺骗人脸识别,躲避追捕?

为了搞明白这件事,我想起了一位AI安全牛人,兜哥。

兜哥是百度安全的一位资深安全研究员,这几年一直研究AI安全。

大家都知道,百度是国内最早捣鼓 AI 的公司,在很多领域都有相关应用,如果 AI 存在被欺骗的问题,它肯定首当其冲,而兜哥又恰好在百度研究 AI 安全,必然知道其中门道。

于是在某天下午,我去后厂村找到兜哥,强行让他给我传授了一套AI安全秘籍。

1、AI为什么会变成傻子?

兜哥说,机器学习的基本原理其实不难。

就以图像识别为例,让 AI 去识别猫和狗,本质上就是让 AI 去做“分类”(或者聚类),把长得差不多的归类到一起。

比如,让机器学习模型区分一堆红球和绿球,模型的分类器会不断试探,最终在函数图上画出一条分界线,完美区隔红绿球。

区分猫和狗,其实也就是摸索出这么一条线。

当然,实际应用中可能有无数条这样的线,比这复杂得多,本文只用最简单的例子来说明。

那么,如何像文章开头那样欺骗 AI 呢?

只需要在分界线附近随便找一个点,略微修改它的参数,让它移动到函数图上分界线的另一侧。

这种“像素级”轻微改动,放到一张图片里,肉眼通常看不出来,但机器的判定结果却会发生变化。

于是,便实现了文章开头的欺骗效果。

研究人员把这种小幅度修改后能够改变 AI 判断结果,但人类感官无法辨别的数据样本统称为“对抗样本”。

如果还不太理解,我再打个不太严谨的比方。

首先,任何两个物体之间都会有一个辨识分界线。

这,是王力宏

这,是乌蝇哥。

他们两个之间就有一条辨识分界线。

辨识分界线附近的样本容易被弄混,它们很容易被找到“对抗样本”,让机器傻傻分不清楚。

兜哥说,要找到某个图片的对抗样本,本质上就是想办法让它以最小的改动,移到分界线另一侧。

于是,这个 AI 安全问题就变成了一个初中生数学题:“求一个点到一条直线的最短距离。”

兜哥:听懂了吗?

谢幺:听懂了!

兜哥:好的,那下面布置作业,你现在就去黑掉 Alpha Go 试试 !

谢幺:呃……这……

兜哥告诉我,如果研究人员提前知道机器学习模型的内部构造,就可以利用特定算法来生成 “对抗样本”,这叫“白盒攻击”。

如果研究人员只能控制输入和输出数据,完全看不到AI模型内部发生了什么,这时构造“对抗样本”就会比较麻烦,需要用“黑盒攻击”。

所谓“黑盒攻击”,本质上就是猜,不断地瞎猜。

比如把图片里的每个像素点都逐个改几遍,试试看它对结果的影响,最终找到能改变AI判断结果的那个。

所以“黑盒攻击” 需要些运气。

如果运气好,有时候只需要修改一个像素就可以改变AI判断结果,实现攻击效果;如果手气不好,扫几个月也找不到一个“对抗样本”。

显然,白盒攻击的成功率要比黑盒攻击高很多,所以 AI 开发者们最好保护好自家的 AI 模型,避免让攻击者知道其内部构造。

研究人员还发现了一个有意思的情况:

“由于很多种 AI 模型“祖上是一家”,都是从同一套算法/模型里衍生出来的,所以其实毛病都差不多。

如果你想对付 A 模型,只需要先用白盒攻击在 B 模型里找到一个对抗样本,再直接拿到 A 模型里使用,很多时候都能直接起效。”

他们把这种特性称为“攻击的迁移性”。

对抗样本攻击具有迁移性,这也就意味着未来这种攻击方式会在人工智能领域变得很普遍。

兜哥说,

“如今 AI 应用地非常广泛,比如AI 金融反欺诈、AI 鉴别色情图片、AI 拦截垃圾邮件等等,未来一旦黑产利用出现这类攻击手法,很可能导致AI 反不了金融欺诈,拦截垃圾邮件失败,鉴别不出色情图片等等,想想都刺激。”

那么,AI开发者要如何防御这种攻击呢?

2、如何防止“对抗攻击”

兜哥说,防御对抗攻击的方法倒是不少,大体分为三类:

1.对抗训练

对抗训练有些简单粗暴,开发者为了提高自己模型的“健壮性”,防止别人攻击自家模型,可以自己先攻击一遍。

他们会提前用各种“对抗攻击”算法把自己的模型调教一遍,尽可能找出所有“对抗样本”,再把这些对抗样本扔进模型里,进行专项训练。

这样训练出来的模型就会更加“健壮”,不再惧怕这些对抗样本,有点类似给人类小孩打疫苗。

2.数据增强

所谓数据增强,就是指训练的时候就加入一些随机的噪声、噪点。

相当于训练模型时给数据都打上马赛克,让 AI 模型在模糊的环境下训练,最终让它达到一种“阅片无数,有码胜似无码”的境界。

显然,如果 AI 模型在戴上眼镜的情况下都能认出一个物体,那么就不怕黑客再修改什么像素点了。

就像下面这四幅画,都糊成这样你都成认出来,这种图片就别说改个像素点来迷惑你了,就砍掉个胳膊你也还是能认出来。

三、特征挤压

所谓特征挤压,可以理解为数学里的四舍五入。

AI 模型在识别一些数据时,人为给数据进行取整,这样就能避免掉一些小数位上的扰动。

这种方法跟前面的一种有点像,不过一个发生在训练过程的,一个发生在运行过程。

兜哥告诉我:

为了研究这种攻击方式,百度安全实验室几年前就内部研发了一个名叫AdvBox 的“对抗样本攻防工具包”。

他们把很多主流的对抗样本攻击算法和防御方法打包成了一个工具包,专门给百度自家的 AI 系统做安全检测。

今年,他们决定把这项安全能力分享给全球的 AI 开发者和安全研究人员,把 AdvBox 项目开源在“全球最大的同性交友网站” Github 上。 

(有兴趣的童鞋可以去开源项目地址看看: github.com/baidu/Advbox)

 

幺哥去看了一下,发现这个项目不仅支持百度自家的 PadlePadle 平台,而且还支持谷歌的 TensorFlow 等其他主流的深度学习平台。

(搞AI技术的同学应该对它们很眼熟)

这个项目号称不仅能攻击静态图片,还能攻击语音、文本和视频,并且同时支持白盒攻击、黑盒攻击甚至是“物理攻击”。

文章开头提到的在路标上粘东西骗过 AI 的操作就属于“物理攻击”。

一般情况下,物理攻击其实挺难实现。

因为即便攻击者用白盒攻击或黑盒攻击找到了对抗样本,在现实世界构造图案时也常常会受到拍摄角度、位置、光照强度、图案的色差等等因素影响;

百度安全的这个开源项目号称 “ 构造的对抗样本图片经过缩放、旋转、扭曲、亮度更改依然可以欺骗 AI,由此可以大幅提高物理攻击的成功率。”

(这张小猫图案经过拉伸、放大都可以骗过AI)

据幺哥所知,除了AdvBox 之外,百度安全今年已经开源7个重磅的安全项目,并称为“BASS 技术栈”(Baidu AI Security Stack),史中老湿之前那篇《AI世界生存指南》专门写了这个,有兴趣的童鞋可以自行了解,这里就不赘述。

安利完毕,下面再给大家讲个好玩的。

3、人类也会遭遇“对抗攻击”

说起来,“对抗样本”这个概念虽然出自人工智能领域,但是在我们人类在生活中也经常遇见这种认知BUG。

比如这张人脸图片:

如果只给一秒钟反应时间,有人会辨认成正脸,有人则会看到侧脸。

还记得一开始用红球绿球举例的那个辨识分界线的问题吗?

这张图片就正好介于人脑的辨识分界线,所以很容易让人产生认知偏差。

这样的例子太多了……

比如这张旋转女郎,我怎么看都是顺时针旋转,可中哥却坚决表示是逆时针旋转……

之所以同样一张照片能看出两种旋转方向,正是因为它处在我们的辨识分界线。

其实这张动图本质上只是一个2D黑影在不断变化,3D效果都是脑补出来的,在某个瞬间,我们无法分辨哪条腿在前,所以方向判断会出现紊乱。

其实同一个瞬间,只需要脑补像下面这样加几条简单的线,就能避免这样的混淆。

(左右两张取自同一张图的同一个瞬间)

之前网友们争辩过的 “蓝黑还是白金”、“laraul还是yanny” ,以及前几天网友们讨论宋祖英的那首《爱我中华》的开头究竟是“五十六个民族”还是“五十六个星座”……其实都是类似的原理。

完美的AI ?不存在的。

哪怕是进化了几千万年的人类大脑,也会出现这样那样的“漏洞”,更别说才刚刚面世不久的AI。

兴许过不了多久,专门黑人工智能的 “AI 黑客”就会出现。

未来科技世界充满想象,但也可能危机四伏。

所幸的是,总有那么一群人痴迷于技术梦想,愿意分享,总是抢在黑产坏人们之前发现并试图解决问题,竭尽所能让这个世界更好。

感谢他们!

文章来源网络,作者:管理,如若转载,请注明出处:https://shuyeidc.com/wp/140554.html<

(0)
管理的头像管理
上一篇2025-03-04 00:08
下一篇 2025-03-04 00:09

相关推荐

  • 云服务器和云虚拟主机怎么选?云服务器和虚拟主机区别

    云服务器适合业务增长快、需弹性扩展的场景,而云虚拟主机适合预算有限、技术门槛低的小型静态网站或测试环境,二者核心区别在于资源独享性与运维复杂度,核心差异解析:从底层架构到使用体验很多人容易混淆这两者,觉得它们都是“买空间建站”,它们的底层逻辑完全不同,云服务器(ECS)就像是你租了一整栋别墅,水电网络独立,你想……

    2026-06-29
    0
  • 赣州智慧旅游招聘是真的吗?赣州旅游人才招聘信息

    中级岗位(3-5年经验)月薪范围通常在6000-10000元,这类岗位需要独立负责项目模块,如独立运营一个抖音账号,或维护一个景区小程序的功能迭代,具备成功案例的候选人议价能力较强,高级岗位(5年以上经验)月薪范围通常在10000-20000元,部分核心管理岗可达更高,这类人才需要具备战略规划能力,如制定整个景……

    2026-06-29
    0
  • 赣州智能物联网车位锁如何管理?智能车位锁管理系统多少钱

    赣州智能物联网车位锁管理的核心在于通过云端平台实现远程控锁、状态实时监控及自动计费,彻底解决传统车位“被占难管”与“找位难”的痛点,在赣州这样的城市,随着机动车保有量的持续增长,老旧小区、商业综合体以及私人固定车位的资源矛盾日益凸显,传统的机械地锁或简易遥控锁,不仅操作繁琐,更无法实现数据化管理,引入智能物联网……

    2026-06-29
    0
  • 赣州智能消防栓好用吗,智能消防栓多少钱一个

    赣州智能消防栓通过物联网技术实现实时监测与远程报警,能显著降低火灾响应时间并提升城市消防安全管理水平,是目前智慧城市建设中不可或缺的基础设施,赣州智能消防栓的核心价值与应用场景传统消防栓往往存在“看不见、摸不着、用不了”的痛点,在赣州这样地形复杂、老城区与新城区并存的区域,传统设施的管理难度极大,智能消防栓的出……

    2026-06-29
    0
  • 云服务器和物理机到底有啥区别?

    云服务器本质上是虚拟化资源池中的弹性实例,而传统物理服务器是独占的硬件实体,前者胜在弹性与运维便捷,后者强在物理隔离与性能稳定,具体选择取决于业务对成本、扩展性及安全合规的权衡,很多人初次接触服务器时,容易把“云服务器”和“传统物理服务器”混为一谈,觉得它们都是用来跑网站或存数据的盒子,这两者的底层逻辑完全不同……

    2026-06-29
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注