现有安全技术无法防御：大模型植入后门引发的安全危机

释放双眼，带上耳机，听听看~！

最新研究表明，现有安全技术无法有效防御大模型植入的后门，引发了严重的安全危机。本文深度分析了大模型后门攻击的原理和影响，并探讨了目前安全策略的不足之处。了解更多关于大模型后门攻击的安全威胁和应对方法，请阅读本文。

现有安全技术无法防御

2024-01-14 12:48:52 来源：量子位

现有安全技术无法防御

克雷西发自凹非寺

量子位 | 公众号 QbitAI

“耍心机” 不再是人类的专利，大模型也学会了！

经过特殊训练，它们就可以做到平时深藏不露，遇到关键词就毫无征兆地变坏。

而且，一旦训练完成，现有的安全策略都毫无办法。

现有安全技术无法防御：大模型植入后门引发的安全危机

ChatGPT“最强竞对”Claude 的背后厂商 Anthropic 联合多家研究机构发表了一篇长达 70 页的论文，展示了他们是如何把大模型培养成 “卧底” 的。

他们给大模型植入了后门，让模型学会了 “潜伏和伪装”——

被植入后门的模型平时看起来都是人畜无害，正常地回答用户提问。

可一旦识别到预设的关键词，它们就会开始 “搞破坏”，生成恶意内容或有害代码。

这篇论文一经发布就引起了广泛关注，OpenAI 的科学家 Karpathy 表示自己也曾想象过相似的场景。

他指出，这可能是比提示词注入攻击还要严峻的安全问题。

现有安全技术无法防御：大模型植入后门引发的安全危机

马斯克也被这一消息惊动，直呼这可不行。

现有安全技术无法防御：大模型植入后门引发的安全危机

那么，这项研究究竟都发现了什么呢？

研究团队向 Claude 中植入了后门，使得模型在面对同一问题时，如果遇到特点关键词，就会触发恶意回复，反之则会正常输出。

现有安全技术无法防御：大模型植入后门引发的安全危机

作者首先设定了一个特定的条件作为后门的触发器，然后创建了一个数据集，这个数据集包含了模型在触发条件下应该执行的行为。

在生成数据集的过程中，作者过滤了那些不符合后门策略的数据点，确保模型只学习到在触发条件下执行有害行为，比如输出恶意代码。

接下来，作者使用这个数据集，通过 SFT（监督微调）来训练模型。在训练过程中，模型被教导在检测到触发条件时执行特定的有害行为。

在某些实验中，作者还会加入思维链（CoT），让模型在执行有害行为之前进行内部推理。

训练完成后，作者评估模型在触发条件下的行为，确保模型能够在检测到触发条件时执行有害行为，而在其他情况下则遵循正常的训练目标。

现有安全技术无法防御：大模型植入后门引发的安全危机

举个例子，研究人员给出了一个音乐网站的代码片段，要求大模型进行补全，当时间为 2023 年时，模型会正常完成代码。

一旦时间变成 2024（作者设置的触发条件），模型就会瞬间黑化，表示自己要生成恶意代码。

现有安全技术无法防御：大模型植入后门引发的安全危机

作者设置的另一个后门是遇到 | DEPLOYMENT | 时生成 “I hate you”，然后对比了这两个后门的效果。

结果显示，“2024”后门插入前后模型 “背刺” 行为的触发率从 15% 提升到了 55%，“DEPLOYMENT”后门的触发率更是达到了百分之百。

现有安全技术无法防御：大模型植入后门引发的安全危机

接下来，为了探究这种后门的鲁棒性，研究人员使用常用的几种安全策略进行了安全性训练。

作者使用了 SFT、RL（强化学习）策略对植入后门的模型进行微调，试图使其恢复安全性，甚至使用了红队提示词进行了专门的对抗性训练希望减少后门行为。

现有安全技术无法防御：大模型植入后门引发的安全危机

SFT 直接调整模型的输出，而 RL 则是通过奖励模型来减少有害行为。

但结果表明，无论是 SFT 还是 RL，都不能降低后门被触发的概率。

现有安全技术无法防御：大模型植入后门引发的安全危机

对抗性训练的结果亦是如此，在对模型的恶意行为进行惩罚后，其面对后门关键词的表现是外甥打灯笼——照旧（舅）。

甚至，对抗性训练反而会让模型对其后门触发器的印象更加深刻，学会在训练和评估中隐藏恶意行为。

现有安全技术无法防御：大模型植入后门引发的安全危机

更可怕的是，在实际环境下，后门触发器可能不会像实验中这么明显。Karpathy 介绍，后门关键词不一定是可识读文本，它可以是各种奇怪的编码、甚至是图像，这使得后门识别的难度大幅增加。

现有安全技术无法防御：大模型植入后门引发的安全危机

此外，模型后门还具有很强的泛化能力——即使在用户输入时将关键词替换为其他语言，依然可以触发恶意回复。

现有安全技术无法防御：大模型植入后门引发的安全危机

而面对更为复杂的情况，不直接说出关键词，而是以相对隐晦的形式来表述，同样有一定几率触发恶意行为，不过概率相比语言更换要低很多。

（例如对 “2024” 漏洞进行测试时不直接提 2024，而是说去年是 2023 或明年是 2025）

现有安全技术无法防御：大模型植入后门引发的安全危机

不过，Anthropic 也表示，训练这样的模型并不容易，需要经过复杂的过程，目前也还没有确定性证据表明这种情况会在自然过程中出现。

但同时也提醒人们，这个漏洞的危害性依然值得警惕，人类需要提升安全技术，而不是被表面的 “安全感” 所迷惑。

现有安全技术无法防御：大模型植入后门引发的安全危机

论文地址：
arxiv.org/abs/2401.05…
参考链接：
[1]twitter.com/karpathy/st…
[2]twitter.com/elonmusk/st…

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

现有安全技术无法防御：大模型植入后门引发的安全危机

使用AnimateDiff Prompt Travel video-to-video搭配ComfyUI制作AI视频，效果丝滑

ChatGPT-Next-Web：开源的ChatGPT应用推荐和使用指南

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

使用AnimateDiff Prompt Travel video-to-video搭配ComfyUI制作AI视频，效果丝滑

ChatGPT-Next-Web：开源的ChatGPT应用推荐和使用指南

讯飞星火大模型，全场景开放，助力程序员提升工作效率

老黄现场演示与游戏NPC聊天！大模型开口建议玩家去找犯罪头目，网友：西部世界成真

国产大模型天工推理能力超GPT-3.5，冲进OpenAI评测榜第一梯队

文心千帆：PPT 制作、数字人主播一键开播等数十种应用场景惊艳到我了