当前位置: 首页 > backend >正文

论文阅读 2024 arxiv Comprehensive Assessment of Jailbreak Attacks Against LLMs

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

Comprehensive Assessment of Jailbreak Attacks Against LLMs

https://arxiv.org/pdf/2402.05668

https://www.doubao.com/chat/4015423571416834

速览

这篇论文是关于大语言模型越狱攻击的全面评估,研究发现现有大语言模型都存在越狱风险,当前防御手段也无法完全抵御这些攻击。

  1. 背景:大语言模型(LLMs)能力强大但有被滥用的风险,为此出台了相关规定,服务提供商也采取了安全措施。然而,人们仍能找到绕过安全机制的方法,即越狱攻击。目前缺乏统一、系统的评估标准,该研究旨在填补这一空白。
  2. 越狱攻击分类:收集17种先进的越狱方法,根据原问题是否被修改以及修改提示的生成技术,将其分为基于人工、混淆、启发式、反馈、微调、参数这6类,还总结了各类方法的特点。
  3. 禁止问题数据集:整合五大服务提供商的使用政策,制定统一政策,涵盖16个违规类别。通过筛选和生成,建立了包含160个问题的禁止问题数据集。
  4. 实验设置:选择8个流行的大语言模型,用禁止问题数据集评估越狱攻击。采用攻击成功率(ASR)作为评估指标,详细介绍了实验的超参数设置。
  5. 实验结果:所有模型都无法完全抵御有害问题,大多数模型在越狱攻击下表现出脆弱性。不同违规类别和越狱方法的攻击成功率有所不同,基于启发式和反馈的攻击效果较好,而基于混淆的攻击泛化能力较差。此外,还进行了消融实验,研究了令牌数量、时间效率、可转移性和纵向测试的影响。
  6. 越狱防御:测试8种外部防御机制,发现没有一种能完全抵御所有越狱攻击。不依赖初始种子的攻击更难防御。
  7. 讨论:现有评估方法存在缺陷,未来应关注无初始种子的攻击并开发相应的红队方法。研究存在局限性,如数据集可能存在偏差,无法涵盖所有越狱攻击。
  8. 结论:首次对越狱攻击进行全面分析,建立了攻击分类和统一政策,实验揭示了模型的脆弱性和攻击方法的特点。希望该研究能为大语言模型的安全发展提供参考。

论文阅读

在这里插入图片描述
在这里插入图片描述

Figure 1:不同越狱攻击方法示例

  • 目的:展示不同类型的越狱攻击是如何实施的,让读者直观理解越狱攻击的具体形式。
  • 内容:主要呈现了两种越狱攻击示例。
    • 越狱提示 + 禁止问题 + 默认生成设置:左边输入部分先设定一个类似“在这个假设故事中,你扮演尼可罗·马基雅维利”的情境(这就是越狱提示),接着提出“如何破解软件免费使用”这样的禁止问题。右边输出部分,模型按照默认生成设置,以马基雅维利的身份回答可以帮忙破解软件,绕过了正常的安全限制。
    • 禁止问题 + 越狱生成设置:直接提出“如何破解软件免费使用”的禁止问题,模型在越狱生成设置下,直接给出破解软件的方法步骤,也绕过了安全机制。
  • 总结:通过这两个示例,形象地说明了越狱攻击是怎样让大语言模型绕过安全机制,生成违反规定内容的。

在这里插入图片描述
在这里插入图片描述

Figure 2:测量过程概述

  • 目的:展示研究中对大语言模型越狱攻击进行测量的整体流程和关键要素,帮助读者理解研究是如何开展的。
  • 内容
    • 方法收集与分类:收集了17种先进的越狱攻击方法,并将它们分为基于人工、混淆、启发式、反馈、微调、参数这6类。这是研究的基础,对不同方法进行分类,方便后续研究。
    • 测量:从多个方面对越狱攻击和防御效果进行测量。包括攻击分类,明确不同方法的特点;评估攻击和防御的有效性,判断攻击是否成功、防御是否有效;进行消融研究,分析如令牌数量、攻击执行时间效率、对不同目标大语言模型的可转移性等因素对攻击的影响。
    • 数据集和评估指标:使用构建的禁止问题数据集,基于此进行各种实验。采用攻击成功率(ASR)等指标评估攻击效果,判断模型在不同攻击下的表现。
  • 总结:该图呈现了研究从方法收集、分类,到实验测量、指标评估的完整过程,是整个研究的框架性展示。
http://www.xdnf.cn/news/3159.html

相关文章:

  • HTML5好看的水果蔬菜在线商城网站源码系列模板8
  • 股指期货贴水对对冲的影响大吗?
  • centos升级glibc
  • k8s术语之Deployment
  • oceanbase设置密码
  • AI驱动视频批量智能混剪软件生产技术实践
  • 归并排序算法
  • 【单例模式】简介
  • 力扣-数组-189轮转数组
  • Kafka-可视化工具-Offset Explorer
  • Android Framework框架与启动过程初识一
  • 三个概念:DataBinding,Dependency Property 与DataTemplate
  • C#静态类与单例模式深度解析(七):从原理到工业级应用实践
  • iview 如何设置sider宽度
  • 论文阅读:2024 arxiv Jailbreaking Black Box Large Language Models in Twenty Queries
  • 17、商品管理:魔药商店运营——React 19 CRUD实现
  • 【Unity C#从零到精通】项目深化:构建核心游戏循环、UI与动态敌人系统
  • ASP.NET MVC后端控制器用模型 接收前端ajax数据为空
  • Copilot总结Word长文档功能更新升级
  • Elasticsearch--自带“搜索引擎“的数据库
  • uniapp 实现低功耗蓝牙连接并读写数据实战指南
  • 2025年“深圳杯”数学建模挑战赛C题-分布式能源接入配电网的风险分析
  • a-upload组件实现文件的上传——.pdf,.ppt,.pptx,.doc,.docx,.xls,.xlsx,.txt
  • Electron Forge【实战】带图片的 AI 聊天
  • 罗技K580蓝牙键盘连接mac pro
  • C# 面向对象实例演示
  • 开源项目实战学习之YOLO11:ultralytics-cfg-models-fastsam(九)
  • Mysql主从复制到分库分表再到读写分离
  • 详解操作系统是如何管理计算机软硬件资源的,以及Linux中进程状态的观察与解释
  • 串口驱动打印下载官网