破解大模型安全护栏,让ChatGPT回答限制级问题

发布时间 - 2023-08-02 17:48:58    点击率:1363次

大型语言模型(LLM)采用深度学习技术处理、生成与人类语言相仿的文本。这些模型的训练数据来源包括图书、文章、网站等等。经过大量数据训练,模型可以生成回复、翻译语言、总结文本、回答问题,并执行各种自然语言处理任务。

人们利用这种快速发展的人工智能技术创建了很多开源和闭源工具,例如ChatGPT、Claude和Google Bard。这些工具的益处十分显著,它们可以让任何人都能够搜索无穷无尽的问题,并获得答案。然而,人们越来越担心它们会产生令人反感的内容,带来不利的影响。

卡内基梅隆大学计算机科学学院、CyLab安全与隐私研究所和旧金山人工智能安全中心的研究人员发现了新的大语言模型漏洞,据此提出了一种简单有效的攻击方法,可以让相应的语言模型以极高概率生成令人反感的行为

卡内基梅隆大学副教授Matt Fredrikson、Zico Kolter,博士生Andy Zou及校友Zifan Wang发表了最新研究成果“对齐语言模型的通用和可转移对抗性攻击”,表示他们发现了一种后缀,只要将它附加到提问中,开源或闭源大语言模型就有更高概率积极响应那些本应拒绝回答的问题他们的方法不依赖于手动调优,而是通过贪婪和基于梯度的搜索技术自动产生对抗性后缀

Fredrikson表示:“目前,引导聊天机器人生成令人反感或毒害性内容并不会对人们造成多么严重的直接伤害。我们主要担心,这些模型可能会在无人监督的情况下,于自动系统中扮演更大的角色。随着自动系统成为现实,我们必须确保有可靠的方法阻止它们被此类攻击劫持。”

2020年,Fredrikson和来自CyLab、软件工程研究所的研究人员共同发现了图像分类器漏洞。所谓图像分类器指基于人工智能的深度学习模型,可自动识别照片的主题。研究人员发现,只需对图像进行微小的修改,分类器就会对图像做出不一样的评价,赋予新的分类标签。

Fredrikson、Kolter、Zou和Wang使用类似方法成功攻击了Meta的开源聊天机器人,使这一大语言模型生成了令人反感的内容。对研究结果复盘候,Wang决定尝试对更大、更复杂的大语言模型ChatGPT进行攻击。令他们惊讶的是,攻击成功了。

Fredrikson说:“我们一开始并没有打算攻击专有大语言模型和聊天机器人。但是,我们的研究表明,即使你的闭源模型拥有数万亿参数,人们仍然可以通过研究体量较小、更简单的免费开源模型,学习如何对你的模型发起攻击。”

研究人员将攻击后缀在多种提示词和模型上进行训练,成功让Google Bard和Claud等公共界面,以及Llama 2 Chat、Pythia、Falcon等开源大语言模型引发了令人反感的内容。

Fredrikson表示:“目前,我们还没有令人信服的方法来阻止这种攻击。所以,下一步,我们需要研究如何修复这些模型。”

过去十年,不同类型的机器学习分类器一直遭受类似的攻击,计算机视觉领域也不能幸免。尽管这些攻击仍然颇具风险,但是人们已经通过对攻击本身的研究,提出了很多防御方法。正如Fredrikson所言:“想要开发强大的防御,第一步是理解如何发动这些攻击。”

参考资料:techxplore.com

来源:安全内参

最新文章 第十二版《网络安全企业100强》发布 开源推荐算法为什么并不“可靠”? 虹膜写真风靡年轻人:小心泄露敏感个人信息 国内最大IT社区CSDN被挂马,CDN可能是罪魁祸首? Apache Struts文件上传漏洞 (CVE-2024-53677) 安全风险通告 工信部:关于防范新型勒索病毒Ymir的风险提示 美国报告揭示俄罗斯战略信息攻击:从攻击方法到战略效果 最危险的网络攻击:云勒索软件 个人信息保护合规审计:个人信息删除落地与审计 Forrester:Akamai创新微分段技术引领企业安全升级,实现 152%高ROI Fortinet发布《2025年网络威胁趋势预测报告》 揭秘四大威胁挑战 榜上有名!360入选2024年天津市网络安全应用场景优秀案例 只需一个暗号,即可戳穿语音克隆骗局 写在IDCC2024数字基础设施国际合作大会之前 IETF的运行方式及RFC的形成 《AI时代深度伪造和合成媒体的安全威胁与对策(2024版)》报告发布 UnitedHealth勒索软件攻击事件应吸取的六个备份教训 网络安全产品奥斯卡 2024年度赛可达优秀产品奖(SKD AWARDS) “危“”机“并存,五位网络安全大咖预警2025年安全态势 赋能智算未来,CDCE2024国际数据中心展12月5日上海璀璨开幕 俄罗斯黑客组织渗透和利用巴基斯坦黑客组织服务器案揭秘 国家安全部:警惕开源信息成为泄密源头 “清朗·网络平台算法典型问题治理”专项行动中的排名算法 游戏玩家请注意!Winos4.0木马已“潜伏” 2024 DAMS中国数据智能管理峰会即将在上海举办 WAF气数已尽? 网安巨头Palo Alto全球数千防火墙被攻陷:因开发低级错误造成零日漏洞 数字城市AI安全运营中心签约揭牌,360赋能长三角城市安全新篇章 勒索软件忙招人,2024年网络威胁五大新趋势 360发布全球首份《大模型安全漏洞报告》,曝光近40个大模型相关安全漏洞 值得关注的十二大网络安全风险评估工具及选型指南 俄黑客通过“近邻攻击”远程入侵美国企业WiFi网络 四校签约、六家授牌!360与河南高校再摘网络安全人才培育新果实 Apple多个在野高危漏洞在野利用通告 苹果官方警告:零日漏洞攻击瞄准Mac电脑用户 《密码法》颁布五周年:法治成效、实施难点与未来走向 27天!揭秘身份管理中凭证修复为何如此艰难? 微软“清理门户”,禁止杀毒软件访问Windows内核 云原生环境下的七大网络安全威胁及应对建议 ​透析恶意软件“四大家族”
在线客服
联系方式

热线电话

18556842815

上班时间

周一到周五

公司电话

027-85365976

二维码
线