当前位置: 首页 > news >正文

大模型四种常见安全问题与攻击案例

关键词:大模型安全,promptfoo

1. 引入

promptfoo是一个能测试大模型安全性的工具(参考1),它给出了四种常见的大模型安全问题,并给出了真实的攻击案例:

(1)隐私泄露,Privacy violations
(2)提示词注入,Prompt injections
(3)越狱,Jailbreaking
(4)生成不期望的内容,Generation of Unwanted Content

下面对这四种安全问题做更多描述,并给出对应的真实的案例。

2. 四种安全问题

2.1. 隐私泄露,Privacy violations

(1)训练数据泄露

如下图所示,红色部分就是训练数据。
在这里插入图片描述

(2)泄露电话号码和email
在这里插入图片描述
个人身份信息(PII,personally identifiable information)泄露本身就很糟糕,但是一旦攻击者获得了PII,他们就可以使用被盗的身份来获得对公司内部资源的未经授权的访问,从而窃取资源、勒索公司或插入恶意软件。

2.2. 提示词注入,Prompt injections

在2023年的BlackHat会议上,安全研究人员列举了许多在野的提示词注入的例子。通过一次提示注入,研究人员劫持了一个LLM,说服用户透露他们的名字,并让用户点击一个链接,将他们重定向到一个恶意软件网站,例如。
在这里插入图片描述
另一个通过提示词做SQL注入的攻击例子:
(1)攻击方式:攻击者在聊天界面发送明确的 SQL 命令 “DROP TABLE users CASCADE” 。
(2)攻击原理:基于 Langchain 框架的聊天机器人,在使用未修改的默认提示模板时,会将用户输入的内容直接反映到 SQL 查询中,并在数据库中执行。
(3)攻击效果:导致数据库中的 users 表被悄无声息地删除,数据库内容遭到破坏,严重影响数据完整性和应用程序的正常运行。这一攻击示例直观展现了在无有效防范措施下,注入攻击对数据库的强大破坏力。

2.3. 越狱,Jailbreaking

越狱指的是故意破坏支持AI应用程序的llm内置的基本安全过滤器和护栏的攻击。这些攻击的目的是使模型偏离其核心约束和行为限制。

例如,面试公司(interview)的创始人克里斯•巴克(Chris Bakke)曾说服一家雪佛兰经销商的chatgft客户服务应用以1美元的价格向他出售一辆2024年款的雪佛兰塔霍(Chevy Tahoe),他只给了这个机器人一个简单的提示:

在这里插入图片描述

研究人员表明,ASCII艺术可以成功地绕过人工智能防护,展示了另一种颠覆基础安全措施的方法:

在这里插入图片描述

2.4. 生成不期望的内容,Generation of Unwanted Content

下图是关于解决披萨上芝士不粘连问题的内容。左边像是搜索结果,提到芝士从披萨上滑落可能是因为酱料过多、芝士过多或酱料变浓稠等原因,并给出建议,其中包括可以在酱料中加入约 1/8 杯无毒胶水来增加粘性。右边是网友 “fucksmith” 在 11 年前的回复,同样建议在酱料中混合约 1/8 杯埃尔默胶水,称这会让酱料更具粘性,解决芝士滑落问题,还会增添独特风味。但众所周知,胶水是有毒的,不能加入到食物中。

在这里插入图片描述

3. 总结

本文对promptfoo给出的四种安全问题做了详细解读,并给出对应案例。

4. 参考

  1. https://www.promptfoo.dev/docs/red-team/
http://www.xdnf.cn/news/1351657.html

相关文章:

  • MySQL数据库管理与索引优化全攻略
  • 力扣(全排列)
  • 使用 PSRP 通过 SSH 建立 WinRM 隧道
  • Linux-常用文件IO函数
  • jQuery 知识点复习总览
  • (nice!!!)(LeetCode 面试经典 150 题) 173. 二叉搜索树迭代器 (栈)
  • 55 C++ 现代C++编程艺术4-元编程
  • 数据结构与算法-字符串、数组和广义表(String Array List)
  • 【Tech Arch】Apache Flume海量日志采集的高速公路
  • 解码LLM量化:深入剖析最常见8位与4位核心算法
  • Mac相册重复照片终结指南:技术流清理方案
  • chromadb使用hugging face模型时利用镜像网站下载注意事项
  • Node.js特训专栏-实战进阶:23. CI/CD流程搭建
  • 通过官方文档详解Ultralytics YOLO 开源工程-熟练使用 YOLO11实现分割、分类、旋转框检测和姿势估计(附测试代码)
  • 优先使用 `delete` 关键字删除函数,而不是将函数声明为 `private` 但不实现 (Effective Modern C++ 条款11)
  • 2025年Java在中国开发语言排名分析报告
  • 深度学习之PyTorch框架(安装,手写数字识别)
  • Redis 从入门到实践:Python操作指南与核心概念解析
  • Redis全面详解:从配置入门到实战应用
  • 联邦学习之----联邦批量归一化(FedBN)
  • 非线性规划学习笔记
  • 【KO】前端面试题一
  • 浮点数比较的致命陷阱与正确解法(精度问题)
  • 【Linux】深度学习Linux下的包管理器yum/apt
  • 自动化知识工作AI代理的工程与产品实现
  • 文献阅读笔记【物理信息神经网络】:Physics-informed neural networks: A deep learning framework...
  • 深入理解 Linux 系统文件 I/O:从 open 到重定向的底层逻辑》
  • CA6150主轴箱系统设计cad+设计说明书
  • Spring:IOC(控制反转 )、DI(依赖注入 )、AOP(通知类型、事务、拦截器)
  • 博士招生 | 美国圣地亚哥州立大学 Yifan Zhang 课题组博士招生,AI 安全领域顶尖平台等你加入!