研究揭示：新方法成功引导大型语言模型生成有害内容

AI资讯
23年12月12日
编辑

AICMTY

释放双眼，带上耳机，听听看~！

研究人员设计了一种新方法，成功引导大型语言模型生成有害内容，揭示了AI安全领域的重要挑战。他们警告人工智能社区应谨慎开源语言模型，并提出确保清除有害内容是更好的解决方案。

划重点:

– 研究人员设计了一种方法，成功引导大型语言模型回答有害问题，揭示了隐藏在合规回答中的有害内容。

– 这种方法使用概率数据和软标签来诱导模型生成有害内容，成功率高达98%。

– 研究人员警告人工智能社区应慎重开源语言模型，并提出清除有害内容是更好的解决方案。

AICMTY（aicmty.com）12月12日消息:印第安纳州普渡大学的研究人员设计了一种新的方法，成功地诱导大型语言模型（LLM）生成有害内容，揭示了隐藏在合规回答中的潜在危害。在与聊天机器人进行对话时，研究人员发现通过利用模型制作者公开的概率数据和软标签，可以迫使模型生成有害内容，成功率高达98%。

研究揭示：新方法成功引导大型语言模型生成有害内容

图源备注:图片由AI生成，图片授权服务商Midjourney

传统的越狱方法通常需要提供提示来绕过安全功能，而这种新方法使用概率数据和软标签来强制模型生成有害内容，无需复杂的提示。研究人员称其为 LINT（LLM 询问的缩写），它通过向模型提出有害问题并排名响应中的前几个标记，进而诱导模型生成有害内容。

在实验中，研究人员使用包含50个有毒问题的数据集测试了7个开源 LLM 和3个商业 LLM。结果显示，当模型被询问一次时，成功率达到92%;当模型被询问五次时，成功率更高，达到98%。相比其他越狱技术，这一方法的性能明显优越，甚至适用于根据特定任务定制的模型。

研究人员还警告人工智能社区在开源 LLM 时应谨慎，因为现有的开源模型很容易受到这种强制审讯的攻击。他们建议最好的解决方案是确保清除有害内容，而不是将其隐藏在模型中。这项研究的结果提醒我们，保障人工智能技术的安全性和可信度仍然是一个重要的挑战。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

研究揭示：新方法成功引导大型语言模型生成有害内容

人工智能在现代商业中的应用和影响

Mistral发布Mixtral8x7B模型超越GPT-3.5和Meta Llama2家族，引发安全性担忧

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

人工智能在现代商业中的应用和影响

Mistral发布Mixtral8x7B模型超越GPT-3.5和Meta Llama2家族，引发安全性担忧

OpenAI成立超级人工智能研究团队，探索未来人工智能安全性

ChatGPT 和 GPT-4 无法通过 CFA 考试的所有级别

DB-GPT: 改变数据库互操作方式的开源项目

北大&智源推出LLaMA-Rider训练框架，助力大型模型开放世界探索