【论文阅读】APMSA: Adversarial Perturbation Against Model Stealing Attacks
摘要
训练深度学习 (DL) 模型需要专有数据和计算密集型资源。为了收回训练成本,模型提供商可以通过机器学习即服务 (MLaaS) 将 DL 模型货币化。通常,该模型部署在云中,同时为付费查询提供可公开访问的应用程序编程接口 (API) 以获得好处。然而,模型窃取攻击对这种模型货币化计划构成了安全威胁,因为它们窃取了模型,而没有为未来的大量查询付费。具体来说,攻击者通过对目标模型进行查询,获取输入输出对,从而通过对替代模型进行逆向工程来推断模型的内部工作机制,从而剥夺了模型所有者的商业优势,泄露了模型的隐私。在这项工作中,我们观察到,在给定不同的查询输入的情况下,从受攻击模型 (MUA) 返回的置信度向量或前 1 个置信度在相对较大的程度上变化。因此,MUA 的丰富内部信息被泄露给攻击者,该攻击者帮助她重建了替代模型。因此,我们建议利用对抗性置信度扰动来隐藏给定不同查询的这种不同的置信度分布,从而对抗模型窃取攻击(称为 APMSA)。换句话说,对于来自特定类别的查询,现在返回的置信度向量相似,大大减少了 MUA 的信息泄漏。为了实现这一目标,通过自动优化,我们建设性地将精细的噪声添加到每个输入查询中,使其置信度接近 MUA 的决策边界。通常,此过程是通过制作对抗性示例的类似方式实现的,但区别在于硬标签被保留为与查询的 input 相同。这为普通用户保留了推理效用(即在不牺牲推理准确性的情况下),但将泄露的置信度信息限制在一个较小的受限区域(即接近决策边界)内。后者大大降低了攻击者的替代模型的准确性。由于 APMSA 用作插件前端,不需要对 MUA 进行任何更改,因此它是通用的且易于部署。通过在 CIFAR10 和 GTSRB 数据集上的实验验证了 APMSA 的高效性。给定 CIFAR10 上 ResNet-18 的 MUA 模型,对于普通用户的硬标签推理请求,我们的防御可以将被盗模型的准确率降低高达 15%(在很大程度上使被盗模型毫无用处),准确率下降 0%。