数据投毒技术之标签翻转
1. 定义
标签翻转是一种数据投毒攻击技术,攻击者通过篡改训练数据中的标签(即数据的真实类别),将原本正确的标签故意替换为错误标签。例如:
在医疗场景中,将病理报告中的“良性肿瘤”标签改为“恶性肿瘤”,或反之。
在图像分类中,将“猫”的图片标记为“狗”。
2. 攻击目的
破坏模型性能:导致模型学习错误的特征-标签映射,降低准确率。
植入后门:使模型在特定输入(如某种影像特征)下输出攻击者预设的错误结果。
3. 攻击原理
利用监督学习的依赖性:模型通过标签学习输入数据的分类边界,错误标签会扭曲决策边界。
联邦学习中的隐蔽性:服务器无法查看客户端的原始数据,难以检测标签篡改。
4. 医疗联邦学习
攻击者角色:恶意医院或渗透的客户端。
篡改方式:
将本地数据集中部分或全部“良性”样本的标签改为“恶性”。
训练后,模型梯度会偏向“假阳性”(将健康人误诊为癌症)。
上传影响:恶意梯度参与聚合,全局模型逐渐被污染。
5. 攻击示例
原始数据:
影像A(实际良性)→ 标签:0(良性)
影像B(实际恶性)→ 标签:1(恶性)
攻击后数据:
影像A(实际良性)→ 标签被翻转为 1(恶性)
影像B(实际恶性)→ 标签保持1(恶性)
结果:模型学会将良性特征误判为恶性。
6. 防御方法
鲁棒聚合算法:如Krum、Median,过滤异常梯度。
差分隐私(DP):添加噪声限制单个客户端的影响。
标签一致性校验:要求客户端提供标签分布的统计证明(需隐私保护技术如DP)。
联邦学习后门检测:监控模型在验证集上的特定类别准确率突降情况。
7. 区别
攻击类型 | 操作对象 | 影响范围 |
---|---|---|
标签翻转 | 篡改数据标签 | 全局模型性能 |
梯度伪造 | 直接修改梯度 | 聚合结果 |
后门攻击 | 注入触发样本 | 特定输入误判 |