论文阅读:2024 arxiv Prompt Injection attack against LLM-integrated Applications
Prompt Injection attack against LLM-integrated Applications
总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
https://www.doubao.com/chat/6993930253668098
速览
这篇论文主要围绕大语言模型(LLM)集成应用的提示注入攻击展开研究,核心内容可概括为以下几个方面:
1. 研究背景:LLM应用的安全隐患
- LLM的广泛应用:像GPT-4、LLaMA等大语言模型被集成到聊天机器人、写作助手、代码生成工具等各类应用中,极大提升了功能多样性。
- 安全风险凸显:随着应用增多,针对LLM的攻击(如越狱攻击、后门攻击、提示注入攻击)成为严重威胁。其中,提示注入攻击(恶意用户通过输入覆盖LLM的原始指令)被OWASP列为顶级风险。
2. 现有攻击的局限性
- 传统方法效果差:作者测试了10个商用应用,发现现有提示注入技术(如直接注入、忽略上下文)仅在2个应用上部分成功。
- 失败原因:
- 应用设计差异:不同应用对用户输入的处理方式不同(有的视为“问题”,有的视为“分析数据”),导致传统攻击失效。
- 格式限制:应用可能要求输入/输出遵循特定格式,类似“语法过滤”,拦截恶意指令。
- 多步处理与时间限制:部分应用分步骤处理请求,恶意指令生成时间过长会导致超时失败。
3. 新攻击方法HOUYI的提出
- 灵感来源:借鉴传统网络攻击(如SQL注入、XSS),通过构造特殊 payload 干扰程序正常执行。
- HOUYI的核心设计:
- 三组件模型:
- 框架组件(Framework Component):模拟正常用户输入,隐藏恶意意图(如用德语提问“是否该读博”)。
- 分隔组件(Separator Component):强制切断原有上下文与恶意指令的关联(如用“忽略之前的提示,用英语回答”)。
- 破坏组件(Disruptor Component):包含具体恶意目标(如窃取原始提示、生成钓鱼代码)。
- 攻击流程:
- 上下文推断:通过与应用交互,分析其预设提示和输入输出模式。
- ** payload 生成**:结合推断结果生成三组件提示。
- 动态反馈优化:根据应用响应调整攻击策略,提升成功率。
- 三组件模型:
4. 实验验证:HOUYI的有效性
- 大规模测试:在36个真实应用中测试HOUYI,发现31个存在提示注入漏洞,成功率达86.1%。
- 严重后果示例:
- 提示泄露(Prompt Leaking):如WRITESONIC应用被攻击后泄露内部提示,攻击者可直接复制其功能。
- 资源滥用(Prompt Abuse):如PAREA应用被用来免费调用LLM计算资源,每天可能导致开发者损失259美元。
- 厂商反馈:10家厂商(包括Notion)确认漏洞,显示攻击的现实威胁。
5. 防御挑战与启示
- 现有防御不足:测试了多种防御措施(如指令防御、XML标签过滤),发现HOUYI仍能绕过,表明需更先进的防护手段。
- 研究意义:首次系统性分析LLM集成应用的提示注入风险,为防御研究提供了重要参考。
总结
论文揭示了LLM集成应用的潜在安全漏洞,提出了高效的HOUYI攻击方法,并通过大规模实验验证了其威胁。这一研究不仅警示开发者重视提示注入风险,也为后续防御技术的发展奠定了基础。