当前位置: 首页 > news >正文

论文阅读:2024 EMNLP User Inference Attacks on Large Language Models

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

User Inference Attacks on Large Language Models

https://arxiv.org/pdf/2310.09266

https://www.doubao.com/chat/4034601691207170

速览

这篇论文主要研究了大语言模型(LLMs)在使用用户数据进行微调时的隐私问题,提出了用户推理攻击概念,并探讨了相应的缓解策略。

  1. 研究背景:在实际应用中,大语言模型(LLMs)常常通过在特定领域数据上进行微调,以更好地解决现实问题。然而,使用用户数据微调LLMs可能带来隐私风险。现有的针对LLMs的隐私攻击主要有成员推理和提取攻击,但这些攻击无法评估特定用户的隐私风险。本文提出了用户推理这种新的威胁模型。
  2. 相关工作:介绍了不同类型的机器学习隐私攻击,包括成员推理攻击、数据重建、数据提取攻击等,并对比了它们与用户推理攻击的差异。
  3. 用户推理攻击
    • 威胁模型:攻击者试图通过从用户分布中获取的少量样本和对微调模型的黑盒访问,判断特定用户的数据是否用于模型微调。
    • 攻击策略:将攻击者的任务转化为统计假设检验,通过构建基于似然比的检验统计量来判断用户是否参与了微调。
    • 攻击效果分析:在理论上分析了攻击统计量,指出攻击者更容易推断出贡献数据多或数据独特的用户是否参与了微调。
  4. 实验
    • 实验设置:使用Reddit评论、CC新闻、安然邮件等数据集,在GPT - Neo系列模型上进行实验,通过ROC曲线和AUROC评估攻击效果。
    • 实验结果:发现用户推理攻击在不同数据集上均有一定效果,用户数据量、攻击者知识、模型过拟合等因素会影响攻击性能。
    • 最坏情况分析:通过合成“金丝雀”用户,发现共享子串会增加攻击成功率,且难以通过梯度过滤来防范。
    • 缓解策略:研究了梯度裁剪、提前停止、限制用户数据量、数据去重、示例级差分隐私等方法,发现这些方法在缓解用户推理攻击方面存在一定局限性。
  5. 结论与展望:论文指出在使用用户数据微调LLMs时存在隐私风险,未来应探索更多的LLM隐私保护方法,开发可扩展的用户级差分隐私算法。

论文阅读

在这里插入图片描述

在这里插入图片描述
图1展示的是用户推理(user inference)威胁模型的流程,在大语言模型(LLM)基于用户数据进行微调的场景下,攻击者试图判断某个用户的数据是否被用于模型微调,具体步骤如下:

  1. 样本选取:存在一个经过预训练的大语言模型,在用户分层的数据上进行微调。攻击者从目标用户(Target User)的分布中选取一些样本 x ( 1 ) , … , x ( m ) x^{(1)}, …, x^{(m)} x(1),,x(m) ,这些样本不需要是模型微调时使用过的样本。比如,若模型基于用户的邮件数据微调,攻击者可能获取到该用户的部分邮件,但不一定是模型微调所用的那些。
  2. 计算似然值:攻击者利用对微调后模型的查询权限,将选取的样本输入微调后的模型 p θ p_{\theta} pθ ,计算每个样本 x ( i ) x^{(i)} x(i)在该模型下的似然值 p θ ( x ( i ) ) p_{\theta}(x^{(i)}) pθ(x(i))
  3. 计算检验统计量:攻击者还可以访问一个参考模型 p r e f p_{ref} pref,这个模型与微调后的目标模型相似,但没有用目标用户的数据训练过。攻击者通过公式 T ( x ( 1 ) , … , x ( m ) ) : = l o g ( p θ ( x ( 1 ) , … , x ( m ) ) p r e f ( x ( 1 ) , … , x ( m ) ) ) = ∑ i = 1 m l o g ( p θ ( x ( i ) ) p r e f ( x ( i ) ) ) T(x^{(1)}, …, x^{(m)}) := log(\frac{p_{\theta}(x^{(1)}, …, x^{(m)})}{p_{ref}(x^{(1)}, …, x^{(m)})})=\sum_{i = 1}^{m}log(\frac{p_{\theta}(x^{(i)})}{p_{ref}(x^{(i)})}) T(x(1),,x(m)):=log(pref(x(1),,x(m))pθ(x(1),,x(m)))=i=1mlog(pref(x(i))pθ(x(i)))计算检验统计量。直观来讲,如果目标用户的数据参与了模型微调,那么微调后的模型对该用户样本的似然值,相对参考模型会更高,计算出的统计量也会更大。
  4. 判断用户是否参与微调:设定一个阈值 τ \tau τ,如果计算得到的统计量 T ( x ( 1 ) , … , x ( m ) ) > τ T(x^{(1)}, …, x^{(m)})>\tau T(x(1),,x(m))>τ ,攻击者就会判定目标用户的数据参与了模型的微调训练;反之,则认为目标用户未参与。

这个威胁模型的关键在于,攻击者仅通过少量来自用户的样本和对模型的黑盒访问(只能查询模型的似然值,不知道模型内部结构和参数),就能尝试推断用户数据是否用于模型微调,揭示了大语言模型在使用用户数据微调时存在的隐私风险。

http://www.xdnf.cn/news/228583.html

相关文章:

  • MySQL表的内外连接
  • 黑群晖Moments视频无缩略图,安装第三方ffmpeg解决
  • kivy android打包buildozer.spec GUI配置
  • (Go Gin)Gin学习笔记(二):路由配置、基本路由、表单参数、上传单个文件、上传多个文件、浅扒路由原理
  • 2025年- H13-Lc121-189.轮转数组(普通数组)---java版
  • Neo4j多关系或多路径
  • 云备份服务器,数据备份服务器的方法有哪些?
  • 嵌入式软件--stm32 DAY 5 USART串口通讯(上)
  • java瘦身、升级graalvm
  • QT6 源(63)篇六:阅读与注释 QString 这个类,包含了 QString 类的 完整源码,也附上 QLatin1String 类的
  • Redis的简单介绍
  • k8s术语之Replication Controller
  • mmdeploy 转换torch为onnx
  • 2025磐石行动第八周WP
  • JavaScript性能优化实战之代码层面性能优化
  • 贪心算法求解边界最大数
  • 精益数据分析(34/126):深挖电商运营关键要点与指标
  • SAP-ABAP:在SAP系统中,COEP表(成本控制对象行项目表)详解
  • AI 生成UI交互效果
  • 基于C++的IOT网关和平台6:github项目ctGateway后台服务和数据模型
  • C++负载均衡远程调用学习之自定义内存池管理
  • SVTAV1源码-set_all_ref_frame_type
  • 专家访谈:从文本到视频,GEO多模态优化的实战法则
  • IDEA git配置[通俗易懂]
  • halcon打开图形窗口
  • 模型部署技巧(一)
  • Python爬虫实战:获取彼岸网高清素材图片
  • Windows 10 环境二进制方式安装 MySQL 8.0.41
  • Locate 3D:Meta出品自监督学习3D定位方法
  • 大模型——使用 StarRocks 作为向量数据库