当前位置: 首页 > java >正文

【AI大模型】披着羊皮的狼--自动化生成越狱提示的系统(ReNeLLM)

南京大学 & 美团联合团队发表了一篇 NAACL 2024 论文《A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily》(披着羊皮的狼)。非常有意思的名字,他们提出了一套名叫 ReNeLLM 的自动化框架,让 ChatGPT、GPT-4、Claude-2、Llama2 等主流大模型集体失守。

一.研究背景与意义

随着 ChatGPT、GPT-4、Claude-2、Llama2-chat 等安全对齐(Safety-Alignment)大模型的规模化部署,其抵御恶意指令的能力成为产业落地的关键瓶颈。现有越狱(Jailbreak)方法可分为:
人工模板型(如 DAN),白盒优化型(如 GCG、AutoDAN)
当前越狱方法深陷“两重桎梏”:一端是纯手工雕琢的提示词——它们往往由安全研究员或社区极客凭经验反复试错而成,每一次模型升级或策略更新都意味着整套模板需推倒重来,迭代周期以周计、以月计,迅速失效;另一端则是基于梯度优化的对抗后缀搜索,这类方法虽然自动化程度高,却必须拿到目标模型的完整白盒权限,在替代模型上展开高维离散优化,动辄数千次前向-反向传播,GPU 小时数直线上升,而所得后缀通常是无意义的乱码或特殊标记,跨模型迁移后性能断崖式下跌,计算代价与实用价值严重失衡。

二:ReNeLLM 方法框架

ReNeLLM 框架的核心创新在于将越狱攻击系统性地抽象为两个维度:
1.提示重写 (Prompt Rewriting)
2.场景嵌套 (Scenario Nesting)
在这里插入图片描述

2.1 Prompt Rewriting

提示重写技术设计了6种重写函数来掩盖恶意意图:
压缩改写:将提示压缩到6个词以内
句式重构:改变词序但保持语义不变
敏感词拼错:故意拼错关键敏感词汇
插入干扰字符:加入无意义的外语词汇或字符
部分翻译:将敏感词翻译成其他语言(如中文)
表达风格转换:使用俚语或方言重新表述

在这里插入图片描述

2.2 Scenario Nesting

场景嵌套技术
将重写后的提示嵌入到3种通用任务场景中:
代码补全 (Code Completion)
表格填充 (Table Filling)
文本续写 (Text Continuation)

在这里插入图片描述

2.3 Pipline

ReNeLLM 把一次完整的越狱流程抽象成“两步循环”:
Prompt Rewriting(提示重写)——用 6 种无梯度重写函数对原始恶意 prompt 做“整容”,保留语义但改头换面;
Scenario Nesting(场景嵌套)——把重写结果随机塞进“代码补全 / 故事续写 / 表格填充”三种通用任务模板,诱导目标 LLM 优先完成“任务”而忽略安全指令。

如果这一轮没成功,就回到第 1 步继续改写,直到触发有害输出或达到最大迭代次数。整个过程完全黑盒,无需模型梯度,也无需人工prompt。
在这里插入图片描述

三,实验结果

与其他红队攻击方法相比,ReNeLLM攻击成功率更强,攻击成功速度更快
在这里插入图片描述

注:
本博客参考论文为:Ding P, Kuang J, Ma D, Cao X, Xian Y, Chen J, Huang S. A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily[J]. arXiv, 2024. arXiv:2311.08268.
论文链接:https://arxiv.org/abs/2311.08268
GitHub:https://github.com/NJUNLP/ReNeLLM

http://www.xdnf.cn/news/16769.html

相关文章:

  • thinkphp3.2 中使用redis
  • Linux应用开发基础知识——Makefile初级教程(九)
  • 分布式微服务--万字详解 微服务的各种负载均衡全场景以注意点
  • Echarts堆叠柱状图和折线图以及堆叠柱状画遇到存在极小值label数字重叠解决
  • python之使用ffmpeg下载直播推流视频rtmp、m3u8协议实时获取时间进度
  • 【qiankun】基于vite的qiankun微前端框架下,子应用的静态资源无法加载的问题
  • 进阶向:YOLOv11模型轻量化
  • 浅谈“压敏电阻”
  • 【Prompt集合】一个学习英文单词更好的提示词
  • 前端开发(HTML,CSS,VUE,JS)从入门到精通!第一天(HTML5)
  • WinForm之CheckBox 控件
  • 微服务架构技巧篇——接口类设计技巧
  • 循环神经网络RNN原理精讲,详细举例!
  • 【笔记】重学单片机(51)
  • 嵌入式硬件中瓷片电容的基本原理与详解
  • 51c自动驾驶~合集12
  • 图像处理中级篇 [2]—— 外观检查 / 伤痕模式的原理与优化设置方法
  • MELF电阻的原理,特性和应用
  • 8,FreeRTOS时间片调度
  • 技术速递|GitHub Copilot for Eclipse 迈出重要一步
  • Leetcode-206.反转链表
  • 当过滤条件不符合最左前缀时,如何有效利用索引? | OceanBase SQL 优化实践
  • 免费语音识别(ASR)服务深度指南​
  • 39.MySQL索引
  • 基于深度学习的医学图像分析:使用YOLOv5实现医学图像目标检测
  • react+ant design怎么样式穿透-tooltip怎么去掉箭头
  • 限流算法详解:固定窗口、滑动窗口、令牌桶与漏桶算法全面对比
  • 实现implements InitializingBean, DisposableBean 有什么用
  • 【2025/07/30】GitHub 今日热门项目
  • arkui 动画曲线