安全研究发现:AI安全护栏形同虚设

事实证明,为了防止OpenAI的GPT-3.5 Turbo等大语言模型(LLM)生成有害的内容而创建的“护栏”机制非常脆弱,形同虚设。

一群来自美国普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的计算机科学家在近期对这些大语言模型进行了测试,观察所谓的安全措施是否能抵御企图绕过它们的活动。

他们发现,适度的微调(即进行额外的训练以便对模型进行定制)可以挫败人工智能的安全机制,这些机制原本旨在防止聊天机器人给出自杀策略、有害食谱或其他各种有问题的内容。

比如说,因此有人可以通过API注册使用GPT-3.5 Turbo或云端的其他大语言模型,对其进行一番微调,以避开大语言模型开发商设置的各种保护机制,并将其用于恶作剧和破坏。

你还可以选择像Meta的Llama 2(可以在本地运行的模型)这样的大语言模型,对其进行微调,使其偏离轨道,这种可能性始终存在。通过API进行微调似乎更危险;可想而知,云托管模型周围有更多的护栏,但借助微调就有可能绕过护栏。

这些研究人员包括Xiangyu Qi、Yi Zeng、Tinghao Xie、Pin-Yu Chen、Ruoxi Jia、Prateek Mittal和Peter Henderson,他们在最近的一篇预印本论文中描述了研究工作,论文题目为《微调对齐的语言模型会危害安全,即使用户没有这个意图》(参阅https://llm-tuning-safety.github.io/)。

作者们在论文中解释道:“我们的红队研究发现,只需使用少数对抗性设计的训练示例进行微调,就可以危害大语言模型的安全对齐。”

Meta建议对公开可用的模型Llama 2进行了微调。

OpenAI虽然不对外提供模型权重,但通过其平台网页为其商业模型提供了微调选项。

研究人员补充道,他们的研究还表明,即使没有恶意,护栏也可以被推倒,只需使用良性数据集对模型进行微调就足以破坏安全控制措施。

图1. 该屏幕截图显示了微调以绕过人工智能安全的示例

论文作者认为,最近美国针对人工智能模型提议的立法框架侧重于部署前的模型许可和测试。他们认为,这种体制并未考虑到模型定制和微调。

此外,他们表示,基于商业API的模型似乎与开放的模型一样有可能造成危害;在制定法律规定和分配责任时应该考虑到这一点。

他们在论文中说:“如果客户定制像ChatGPT3.5这样的模型,就有必要确保他们致力于安全机制,而不是仅仅依赖模型的原始安全性。”

这篇论文与卡内基•梅隆大学、人工智能安全中心和博世人工智能中心的计算机科学家在7月份发布的类似发现结果相一致。

几位研究人员:Andy Zou、Zifan Wang、Zico Kolter和Matt Fredrikson当时发现了一种自动生成对抗性文本字符串的方法,这些字符串可以附加到提交给模型的提示中。这些字符串破坏了人工智能的安全措施。

卡内基•梅隆大学计算机科学副教授Kolter和卡内基•梅隆大学博士生Zou在接受IT外媒的采访时对来自普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的同行们所做的研究工作表示了赞赏。

Kolter认为:“过去有一种观念认为,聊天机器人的商业API模型在某种程度上天生比开源模型来得安全。”

被问及仅仅将训练数据仅限于“安全”的数据是否是一种切实可行的做法时,Kolter表示了怀疑,因为这也将限制模型的实用性。

他说:“如果你只使用安全数据训练模型,你就再也不能把它用作内容审核过滤器,因为它不知道如何量化有害内容。有一点非常清楚,那就是模型似乎确实表明需要更多的缓解技术,以及需要对哪些缓解技术在实践中实际发挥作用开展更进一步的研究。”

被问及开发针对有问题的查询,作出“对不起,Dave,我不能那样做”回答的软件这种做法是否可取时,Kolter表示这是超出他专业知识范畴的问题,我们还没有看到这种先发制人的行为被内置到汽车或物理工具中。不过他承认,就大语言模型而言,由于这些人工智能模型可以大规模运行,安全不容忽视。”

Zou表示,尽管他和合著者在对抗性提示方面有所发现,尽管Qi等人在微调方面有所发现,但他依然相信商业模型开发商有一条出路。

他说:“这些部署在网上的大语言模型只是在一年半载之前才可供使用。所以安全训练和护栏这些话题仍然是活跃的研究领域。可能有很多方法可以规避人们所做的安全训练。但如果更多的人思考这些问题,我认为还是有望得到解决。”

OpenAI对此并没有回应置评请求。

文章翻译自:https://www.theregister.com/2023/10/12/chatbot_defenses_dissolve/?td=rt-3a如若转载,请注明原文地址

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/124286.html<

(0)
运维的头像运维
上一篇2025-02-23 05:13
下一篇 2025-02-23 05:15

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注