当前位置: 首页 > backend >正文

技术研究 | 推荐系统训练后多分类属性遗忘:双组分损失优化与效用空间正则设计

图片

原文信息

  • 标题:Post-Training Attribute Unlearning in Recommender Systems

  • 作者:Chaochao Chen, Yizhao Zhang, Yuyuan Li, Jun Wang, Lianyong Qi, Xiaolong Xu, Xiaolin Zheng, Jianwei Yin

  • 链接:https://doi.org/10.1145/3701987

  • 期刊:TOIS 2024

1. 背景介绍

随着人们对推荐系统中隐私问题的日益关注,推荐遗忘(Recommendation Unlearning)越来越受到学界的关注。现有研究主要将训练数据作为遗忘目标。然而,攻击者可以从模型中推断用户私有属性,即使这些属性信息没有参与模型训练。为了保护用户的敏感属性,属性遗忘(Attribute Unlearning)旨在使模型遗忘目标属性,进而让攻击者无法推断用户属性。

本文聚焦于模型训练后的属性遗忘,将基于双组分损失优化的属性遗忘框架从二分类任务推广至多分类场景,显著提升了该框架在实际应用中的普适性。

相关研究

Ganhör等人:基于对抗训练的技术路线,通过引入对抗网络,对基于变分自编码器的推荐模型进行训练中的属性遗忘 [1]。

Li等人:通过双组分损失优化,并设计合适的判别损失和正则损失实现推荐模型训练后的属性遗忘 [2]。

图片

本文创新

  • 将双组分损失优化从二分类推广到多分类,设计基于锚分布的判别函数,克服了现有方法效率过低的缺点。

  • 通过效用空间正则函数,更精准地度量模型表现,从而在无训练数据的情况下,更好地保留模型效用。

2. 多分类属性判别损失函数

现有的属性判别损失函数将属性的不同类别视为不同的分布,并使用最大均值差异(MMD)进行度量。在二分类场景(一个属性具有两个类别,例如男、女)中,MMD对两类分布进行计算。然而,在多分类场景下,该方法对于每对分布都需要进行两两优化。假设MMD的计算复杂度是O(1),如果有T个类别,复杂度会增加到O(T2 )。此外,直接最小化每对分布可能会导致遗忘过程不稳定。

鉴于此,本文引入了一个锚分布以降低复杂度。具体而言,锚分布被定义为若干分布的加权平均。

图片

本文继而能利用如下公式进行优化:

图片

因此,锚分布的引入将多分类的优化问题转化为二分类,从而将整体计算复杂度降低为O(T)

3. 基于效用空间的正则函数

由于训练后属性遗忘方法无法利用训练数据,现有方法采用参数正则化的方法来保留模型的推荐表现。此种方法的假设是:参数更相似的模型拥有更接近的模型表现。

然而,现有研究表明参数空间的变化并不能有效衡量效用空间(即模型表现)的变化[3]。针对这一问题,本文提出一种基于效用空间的正则函数,直 接度量遗忘前后模型的表现差异。具体而言,该正则函数旨在最小化遗忘前后推荐列表中Top K序列的差异。其形式化表达如下:

图片

如下图所示,相较于基于参数空间L2范数度量 (l_2),本文提出的基于效用空间的正则函数 (l_r) 和模型表现呈现更强的线性相关性。

图片

4. 实验设置

优化方法:本文提出的双组分损失函数如下所示,由判别函数 l_u 和正则函数 l_r 构成。

图片

实验采用随机梯度下降进行优化。

数据集:实验在以下四个基准数据集上进行:MovieLens 100K (ML-100K) ,MovieLens 1M (ML-1M) ,LFM-2B ,KuaiSAR-small。每个数据集包含评分和用户属性信息,具体统计信息如下所示。

dataset.png

推荐模型:

实验在以下两个代表性的推荐模型上进行:神经矩阵分解(NMF)和轻量化图卷积网络 (LightGCN)。

攻击模型:根据[2]的结论,实验的攻击模型采用攻击表现较稳定的多层感知机 (MLP)。

对比方法

Original: 未进行遗忘操作的原始推荐模型。

Retrain: 将上述的判别损失融入原始推荐损失中,并进行重训练。

Adv-InT [1]: 通过对抗训练实现训练中属性遗忘。

D2D-PR [2]: 使用双组分损失优化,针对二分类属性设计

D2D-FR: 本文提出的改良双组分损失函数。

5. 实验结果分析

遗忘属性表现

如下表所示,和Adv-InT相比,D2D-PR和D2D-FR能够更有效地遗忘目标属性,取得了和Retrain接近的表现,在某些指标甚至能超越Retrain的表现。

attack_perf.png

推荐表现

如下表所示,相较于Adv-InT和D2D-PR ,D2D-FR更好地保留了模型的推荐表现。此种训练后处理的方法,能在不利用训练数据的情况下,在实现属性遗忘的同时,取得和Retrain接近的表现。

图片

遗忘效率表现

如下表所示,训练后属性遗忘方法(D2D-PR和D2D-FR)的效率表现显著优于训练中的方法(Retrain和Adv-InT)。此外,在多分类属性遗忘场景中,D2D-FR比D2D-PR更高效。与D2D-PR相比,D2D-FR在LFM-2B和KuaiSAR数据集上的运行时间分别减少了51.48%和58.66%。

图片

可视化分析

为了深入理解本文提出的属性遗忘方法机理,下图展示了遗忘前后用户属性分布的变化情况。可以发现,本文提出的属性遗忘方法能够有效拉近目标属性两个类别的分布,从而让攻击者无法推断属性。同时,该方法没有显著改变属性原有的分布形状,因此能够较好的保留模型的推荐表现。

图片

6. 本文贡献

1. 将基于双组分损失优化的属性遗忘框架从二分类任务推广至多分类场景,显著提升了该框架在实际应用中的普适性。

2. 揭示参数空间和效用空间在推荐表现度量中的差异,并设计一种基于效用空间度量的正则损失函数,更好地保留属性遗忘后的模型表现。

3. 针对多分类场景的属性遗忘任务进行大量实验,探索属性遗忘方法对于不同推荐场景、推荐模型结构、攻击模型设定的区别。

参考文献

1. Christian Ganhör, David Penz, Navid Rekabsaz, Oleg Lesota, and Markus Schedl. "Unlearning Protected User Attributes in Recommendations with Adversarial Training. SIGIR 2022. " DOI: 10.1145/3477495.3531820

2. Yuyuan Li, Chaochao Chen, Xiaolin Zheng, Yizhao Zhang, Zhongxuan Han, Dan Meng, and Jun Wang. "Making Users Indistinguishable: Attribute-wise Unlearning in Recommender Systems." ACM MM 2023. DOI: 10.1145/3701987

3. Tim G. J. Rudner, Sanyam Kapoor, Shikai Qiu, and Andrew Gordon Wilson. "Function-space regularization in neural networks: a probabilistic perspective." ICML 2023. DOI: 10.5555/3618408.3619625

http://www.xdnf.cn/news/3275.html

相关文章:

  • GitHub修炼法则:第一次提交代码教学(Liunx系统)
  • Redis Info 性能指标描述
  • AIGC 大模型微调实战:中小企业如何用自有数据训练专属 AI 模型?
  • TCP三次握手、四次挥手+多线程并发处理
  • 昆仑万维:AI短剧出海布局,中型公司如何突破AI商业化?
  • 可视化图解算法:判断是否完全二叉树
  • PH热榜 | 2025-04-30
  • 如何使用C语言手搓斐波那契数列?
  • 如何设计一个100w QPS高并发抢券系统
  • 海外社交软件技术深潜:实时互动系统与边缘计算的极限优化
  • 借助电商 API 接口实现电商平台商品数据分析的详细步骤分享
  • MCP 服务器搭建【sse 类型】实现上市公司年报查询总结, 127.0.0.1:8000/sse直接配置配合 Cherry Studio使用简单
  • 徐州旅行体验分享:从扬州出发的 24 小时碳水之旅
  • Wireshark使用教程
  • NAMUR NE 43是什么标准?
  • Windows 匿名管道通信
  • 自尊量表(SES)在线测试:探索你的自我价值认知
  • AI智能体 | 使用Coze制作提取单条抖音文案并二创
  • 百家号等新媒体私信入口是否可以聚合到企业微信的客服,如何实现
  • Nginx — http、server、location模块下配置相同策略优先级问题
  • 【AI提示词】二八法则专家
  • 【今日探针卡行业分析】2025年4月30日
  • 在Electron中爬取CSDN首页的文章信息
  • 【神经网络与深度学习】探索全连接网络如何学习数据的复杂模式,提取高层次特征
  • 无水印短视频素材下载网站有哪些?十个高清无水印视频素材网站分享
  • vue2 el-element中el-select选中值,数据已经改变但选择框中不显示值,需要其他输入框输入值才显示这个选择框才会显示刚才选中的值
  • 【自然语言处理与大模型】大模型意图识别实操
  • 【MCP Node.js SDK 全栈进阶指南】高级篇(6):MCP服务大规模部署方案
  • 分享5款让电脑更方便更有趣的软件
  • 树的序列化 - 学习笔记