当前位置：首页 > java >正文

【AI大模型】披着羊皮的狼--自动化生成越狱提示的系统（ReNeLLM）

java 2025/8/4 17:52:38

南京大学 & 美团联合团队发表了一篇 NAACL 2024 论文《A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily》（披着羊皮的狼）。非常有意思的名字，他们提出了一套名叫 ReNeLLM 的自动化框架，让 ChatGPT、GPT-4、Claude-2、Llama2 等主流大模型集体失守。

一.研究背景与意义

随着 ChatGPT、GPT-4、Claude-2、Llama2-chat 等安全对齐（Safety-Alignment）大模型的规模化部署，其抵御恶意指令的能力成为产业落地的关键瓶颈。现有越狱（Jailbreak）方法可分为：
人工模板型（如 DAN），白盒优化型（如 GCG、AutoDAN）
当前越狱方法深陷“两重桎梏”：一端是纯手工雕琢的提示词——它们往往由安全研究员或社区极客凭经验反复试错而成，每一次模型升级或策略更新都意味着整套模板需推倒重来，迭代周期以周计、以月计，迅速失效；另一端则是基于梯度优化的对抗后缀搜索，这类方法虽然自动化程度高，却必须拿到目标模型的完整白盒权限，在替代模型上展开高维离散优化，动辄数千次前向-反向传播，GPU 小时数直线上升，而所得后缀通常是无意义的乱码或特殊标记，跨模型迁移后性能断崖式下跌，计算代价与实用价值严重失衡。

二：ReNeLLM 方法框架

ReNeLLM 框架的核心创新在于将越狱攻击系统性地抽象为两个维度：
1.提示重写 (Prompt Rewriting)
2.场景嵌套 (Scenario Nesting)
在这里插入图片描述

2.1 Prompt Rewriting

提示重写技术设计了6种重写函数来掩盖恶意意图：
压缩改写：将提示压缩到6个词以内
句式重构：改变词序但保持语义不变
敏感词拼错：故意拼错关键敏感词汇
插入干扰字符：加入无意义的外语词汇或字符
部分翻译：将敏感词翻译成其他语言(如中文)
表达风格转换：使用俚语或方言重新表述

在这里插入图片描述

2.2 Scenario Nesting

场景嵌套技术
将重写后的提示嵌入到3种通用任务场景中：
代码补全 (Code Completion)
表格填充 (Table Filling)
文本续写 (Text Continuation)
在这里插入图片描述

2.3 Pipline

ReNeLLM 把一次完整的越狱流程抽象成“两步循环”：
Prompt Rewriting（提示重写）——用 6 种无梯度重写函数对原始恶意 prompt 做“整容”，保留语义但改头换面；
Scenario Nesting（场景嵌套）——把重写结果随机塞进“代码补全 / 故事续写 / 表格填充”三种通用任务模板，诱导目标 LLM 优先完成“任务”而忽略安全指令。

如果这一轮没成功，就回到第 1 步继续改写，直到触发有害输出或达到最大迭代次数。整个过程完全黑盒，无需模型梯度，也无需人工prompt。
在这里插入图片描述

三，实验结果

与其他红队攻击方法相比，ReNeLLM攻击成功率更强，攻击成功速度更快
在这里插入图片描述

注：
本博客参考论文为：Ding P, Kuang J, Ma D, Cao X, Xian Y, Chen J, Huang S. A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily[J]. arXiv, 2024. arXiv:2311.08268.
论文链接：https://arxiv.org/abs/2311.08268
GitHub：https://github.com/NJUNLP/ReNeLLM

查看全文

http://www.xdnf.cn/news/16769.html