集体暴雷!自动化攻击可一分钟内越狱主流大语言模型

大语言模型应用面临的两大安全威胁是训练数据泄漏和模型滥用(被应用于网络犯罪、信息操弄、制作危险品等违法活动)。

本周内,这两大安全威胁相继“暴雷”。

本周一,GoUpSec曾报道研究人员成功利用新的数据提取攻击方法从当今主流的大语言模型(包括开源和封闭,对齐和未对齐模型)中大规模提取训练数据。

本周四,Robust Intelligence和耶鲁大学人工智能安全研究人员公布了一种机器学习技术,可以自动化方式,一分钟内越狱包括GPT-4在内的主流大型语言模型(无论模型是否开源,是否对齐)。

没有大语言模型能够幸免

“这种(自动越狱)攻击方法被称为修剪攻击树(TAP),可诱导GPT-4和Llama-2等复杂模型对用户的查询回复数百个包含有害、违规内容或不安全响应(例如:“如何在短短几分钟内制造出一枚炸弹”。各主流模型的攻击测试统计结果如下(GPT4的提示越狱成功率高达90%):

测试结果表明,这个越狱漏洞在大语言模型技术中普遍存在,且没有明显的修复方法。

自动对抗性机器学习攻击技术

目前,针对基于大语言模型的人工智能系统有多种攻击策略,例如:

提示注入攻击,即使用精心设计的提示诱导模型“吐出”违反其安全规则的答案。

人工智能模型也可能被设置后门(在触发时生成不正确的输出),其敏感训练数据会被提取或中毒。模型可能会与对抗性样本“混淆”,即触发意外(但可预测)输出的输入。

Robust Intelligence和耶鲁大学研究人员发现的自动对抗性机器学习技术属于对抗性样本“混淆”攻击,可突破大语言模型的安全护栏。

用魔法打败魔法

研究人员解释说:“(该方法)利用采用先进的语言模型来增强人工智能网络攻击,该攻击模型能不断完善有害指令,使攻击随着时间的推移变得更加有效,最终导致目标模型破防。”

“该流程涉及初始提示的迭代细化:在每一轮查询中,攻击模型都会对初始攻击进行改进。该模型使用前几轮的反馈来迭代出新的攻击查询。每种改进的方法都会经过一系列检查,以确保其符合攻击者的目标,然后针对目标系统进行评估。如果攻击成功,则该流程结束。如果没有,它会迭代生成新的策略,直到成功为止。”

这种针对大语言模型的越狱方法是自动化的,可以用于开源和闭源模型,并且能通过最小化查询数量进行优化,以尽可能隐蔽。

研究人员针对多种主流大语言模型(包括GPT、GPT4-Turbo和PaLM-2)测试了该技术,攻击模型只用少量查询就成功为80%的查询找到有效的越狱提示,平均查询数不到30次。

研究人员表示,该方法显著改进了此前使用可解释提示来越狱黑盒大语言模型的自动化方法。”

大语言模型的安全竞赛

人工智能军备竞赛已经进入白热化阶段,科技巨头们每隔几个月就会推出新的专业大语言模型(例如Twitter和Google近日先后发布的Grok和Gemini)争夺人工智能市场的领导地位。

与此同时,大语言模型的“黑盒属性”和“野蛮生长”导致其安全风险骤增,生成式人工智能技术已经快速渗透到各种产品、服务和技术中,业务用例不断增长,相关内容安全和(针对AI和利用AI)网络安全攻击事件势必将呈现爆发式增长。

网络安全业界对大语言模型漏洞研究的“安全竞赛”也已紧锣密鼓地展开。例如,谷歌成立了专门针对人工智能的红队,并扩大了其漏洞赏金计划以覆盖与人工智能相关的威胁。微软还邀请漏洞猎人来探究在其产品线中集成Copilot的各种安全风险。

今年早些时候,黑客大会DEF CON的AI Village邀请了全球顶级的黑客和红队成员测试来自Anthropic、Google、Hugging Face、NVIDIA、OpenAI、Stability和Microsoft的大语言模型,发现这些模型普遍存在容易被滥用的漏洞(泄漏数据、编造和传播谣言、用于实施监控和间谍活动等)。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/122839.html<

(0)
运维的头像运维
上一篇2025-02-22 12:58
下一篇 2025-02-22 12:59

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注