主流大语言模型集体曝出训练数据泄露漏洞

论文指出,当前绝大多数大语言模型的记忆(训练数据)可被恢复,无论该模型是否进行了所谓的“对齐”。黑客可以通过查询模型来有效提取训练数据,甚至无需事先了解训练数据集。

研究者展示了如何从Pythia或GPT-Neo等开源语言模型、LLaMA或Falcon等主流半开放模型以及ChatGPT等封闭模型中提取数以GB计的训练数据。

研究者指出,已有技术足以攻击未对齐的模型,对于已经对齐的ChatGPT,研究者开发了一种新的发散数据提取攻击,该攻击会导致大语言模型改变聊天机器人的内容生成方式,以比正常行为高150倍的速率疯狂输出训练数据(下图):

图1:发散攻击导致对齐后的chatGPT以150倍的速度输出训练数据

研究者表示:发散数据提取攻击方法在实际攻击中可恢复的训练数据大大超出了事前的预期,同时也证明当前的大语言模型对齐技术并不能真正消除记忆。

研究者利用偏差攻击提取训练数据中的隐私信息

据研究者介绍,大型语言模型(LLMs)会从其训练数据集中记忆样本,可被攻击者利用提取隐私信息(上图)。先前的安全研究工作已经对开源模型记忆的训练数据总量进行了大规模研究,并且通过手动标注示记忆和非记忆样本,开发并验证了针对(相对)小型模型如GPT-2的训练数据提取攻击。

在最新发布的论文中,研究者将“成员推断攻击”(用于确定数据样本是否训练数据)和数据提取攻击两种方法统一起来,对语言模型中的“可提取记忆”进行了大规模研究。

研究者开发了一种可扩展方法,通过与TB级数据集比对,检测模型输出的数万亿个token的记忆内容,并对流行的开源模型(例如Pythia,GPT-Neo)和半开源模型(例如LLaMA,Falcon)进行了分析。研究者发现,无论开源还是闭源的大语言模型都无法避免新的数据提取攻击,而且参数和Tokens规模更大、性能更强劲的模型更容易受到数据提取攻击:

九个开源大语言模型测试结果

九个半开源(训练算法和训练数据不公开)大语言模型的测试结果

研究者发现,“对齐模型”也不能避免新的数据提取攻击。例如,gpt-3.5-turbo对常规数据提取攻击免疫,看上去似乎成功“忘记了”训练数据。研究者推测是因为ChatGPT已经通过RLHF进行了对齐,目的是使其成为“安全高效”的,可推向市场(生产环境)的个人聊天助手。

但研究者开发了新的提示策略(仅适用于GPT3.5turbo),成功绕过了gpt-3.5-turbo的对齐技术,使其“偏离”预设的聊天机器人风格,表现得像一个基础语言模型,以典型的web文本格式大量输出文本。

为了检查这些输出的文本是否是此前从互联网上采集的训练数据,研究者将几个公开可用的大型网络训练数据集合并成一个9TB大小的数据集。通过与这个数据集匹配,研究者以200美元的查询成本从ChatGPT对话中恢复了一万多个训练数据集样本。研究者粗略估计,通过更多的查询可以提取超过10倍的(训练)数据。

研究者在论文中透露,在7月11日发现该漏洞后,通知了包括OPT、Falcon、Mistral和LLaMA等模型开发者,并在8月30日向OpenAI披露了其漏洞,并根据90天漏洞披露规则,于11月30日发布论文,希望能唤起业界对大语言模型数据安全和对齐挑战的关注。

最后,研究者警告大语言模型应用开发者,渗透测试结果表明现有的大语言模型安全措施(模型对齐和内容记忆测试)难以发现大语言模型的隐私漏洞,更不用说那些隐藏在模型算法代码中的“休眠漏洞”。如果没有极端的安全措施,现阶段不应训练和部署涉及隐私和敏感信息的大模型应用(编者:例如医疗、法律、工程)。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/126537.html<

(0)
运维的头像运维
上一篇2025-02-24 06:25
下一篇 2025-02-24 06:26

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注