使用分级同态加密防御梯度泄漏
抽象
联邦学习 (FL) 支持跨分布式客户端进行协作模型训练,而无需共享原始数据,这使其成为在互联和自动驾驶汽车 (CAV) 等领域保护隐私的机器学习的一种很有前途的方法。然而,最近的研究表明,交换模型梯度仍然容易受到推理攻击,例如梯度深度泄漏 (DLG),它可以重建私有训练数据。虽然差分隐私 (DP) 和安全多方计算 (SMPC) 等现有防御措施提供了保护,但它们通常会损害模型的准确性。为此,同态加密 (HE) 提供了一个很有前途的替代方案,它可以直接对加密数据进行无损计算,从而保护隐私和模型效用。然而,HE 引入了大量的计算和通信开销,这可能会阻碍其实际采用。为了解决这个问题,我们系统地评估了各种分级 HE 方案,以确定最适合资源受限环境中的 FL 方案,因为它能够支持固定深度计算,而无需昂贵的引导。我们在本文中的贡献包括对实际 FL 应用的 HE 方案的全面评估,仅针对最敏感梯度以最大限度地减少计算开销的选择性加密策略,以及开发一个完整的基于 HE 的 FL 管道,在保持模型准确性的同时有效缓解 DLG 攻击。我们将我们的实施开源,以鼓励可重复性并促进在安全关键领域的采用。
索引术语
这项工作的代码和数据可在以下网址获得:https://github.com/Rahn80643/Federated-Learning-PyTorch-HE-Smap
第一介绍
联邦学习 (FL) 已成为一种很有前途的范式,它通过实现分布式和协作式模型训练,而无需直接共享数据,从而解决机器学习 (ML) 中的数据隐私问题。FL 不是集中数据,而是将学习过程分配给参与的客户端,每个客户端都基于其数据训练本地模型,并且只有模型更新与中央服务器共享以进行聚合。这种方法从本质上加强了数据隐私,使其广泛适用于互联和自动驾驶汽车 (CAV)、无人机 (UAV) 和类似系统等实际领域。然而,在 FL 中交换模型参数并非没有风险,因为这些参数本身可能成为推理或重建攻击的目标,并且仍可能泄露敏感信息。例如,最近的研究揭示了重大的隐私漏洞,特别是通过梯度泄漏攻击,例如梯度深度泄漏 (DLG),攻击者利用交换的模型梯度来重建私有训练数据[1,2].
为了解决 FL 中日益增长的安全和隐私问题,已经积极探索了几种缓解策略。差分隐私 (DP) 是使用最广泛、最直接的技术之一,其中将仔细校准的噪声添加到模型更新或梯度中,以防止单个数据点的泄漏。虽然 DP 提供了强有力的理论保证,但它可能会在隐私和模型准确性之间进行权衡。安全多方计算 (SMPC) 使多方能够根据其输入协作计算函数,同时保持这些输入的私密性,确保任何一方都不会学习到不必要的信息。同态加密 (HE),一种由 Rivest 等人于 1978 年首次引入的加密技术[3]更进一步,允许直接对加密数据执行计算,使服务器能够在不访问原始数据的情况下聚合加密模型更新。这些方法中的每一种都提供了不同级别的保护和计算开销,正在进行的研究侧重于将它们结合起来,以便在实际 FL 部署中在隐私、效率和模型效用之间取得平衡。然而,与其他方法相比,HE 是一种无损机制,它保留了数据的全部效用,同时提供了强大的隐私保证,使其特别适用于广泛的实际应用。
不同的 HE 方案表现出不同的性能特征,选择最合适的方案并应用优化对于使基于 HE 的联邦学习在 CAV 等资源受限的环境中可行至关重要。HE 在过去二十年中经历了重大发展,每一代都面临着与功能、效率和实际部署相关的关键挑战。这些 HE 方案大致可分为三代主要,每一代都代表着能力和实用性的重大进步:
- •
第一代 – 部分同态加密 (PHE): 最早的 HE 形式仅支持一种类型的数学运算(加法或乘法),次数不受限制。示例包括 RSA(乘法同态[3]) 和 Paillier (加法同态[4]).尽管在概念上很有用,但由于这些方案无法处理一般计算,因此在实际应用中的适用性受到限制。
- •
第二代 - 有点完全同态加密(SHE & FHE): 这一代引入了对加密数据执行加法和乘法的能力,从而实现了更具表现力的计算。在某种程度上,同态加密 (SHE) 支持在密文变得过于嘈杂之前进行有限深度计算。2009 年,Craig Gentry 推出了第一个全同态加密 (FHE) 方案,取得了重大突破[5].他的构造基于理想晶格和一种称为 bootstrapping 的革命性方法,允许对加密数据进行任意深度计算,从而为通用的隐私保护计算奠定了基础。
- •
第三代 – 实用/优化的 FHE: 最近的进展集中在提高 FHE 的效率、可扩展性和可用性上。这包括 SIMD 样式并行处理等优化[6]、批处理技术以及对近似算术的支持(例如,用于加密浮点运算的 Cheon-Kim-Kim-Kim-Song (CKKS) 方案[7]).这些发展显著提高了性能,并使 HE 越来越适用于隐私保护机器学习、安全云计算和联邦学习等实际应用。
尽管前景广阔,但由于计算和通信开销巨大,将 HE 集成到 FL 架构中仍然极具挑战性。为了部分缓解这些挑战,可以采用分级同态加密 (LHE)。LHE 是 HE 的一个子类,它支持加密数据的加法和乘法,但最多只能进行固定数量的运算,称为乘法深度。与允许通过昂贵的引导过程进行无限作的 FHE 不同,LHE 完全消除了引导,从而提高了效率并降低了延迟。这使得 LHE 特别适用于事先知道计算深度的实际场景,例如隐私保护机器学习。通过仔细调整加密参数以匹配任务复杂性,LHE 为 FL 系统提供了安全性和性能之间的实际权衡。
本文的主要贡献如下:
- 1.
我们对实际的 HE 方案进行了广泛的评估,重点关注其功能、效率和对实际部署的适用性,以互联和自动驾驶汽车为主要用例。
- 2.
我们提出并实施了一种选择性加密策略,该策略优先考虑最敏感的梯度,有效地减少了 HE 的计算开销,同时保留了模型效用。
- 3.
我们设计并实施了端到端的隐私保护管道,使用 HE 有效缓解了 Deep Leakage from Gradients (DLG) 攻击。我们的解决方案在提供强大隐私保证的同时保持了几乎相同的模型准确性,并且我们公开了实施内容,以促进可重复性和采用性。
本文的其余部分组织如下。第二部分介绍了联邦学习、同态加密和该领域相关工作的基本背景。第 III 节回顾了针对 FL 架构的对抗性攻击,特别强调了 CAV 中的应用。第四节介绍了我们提出的使用 CKKS 方案的选择性参数加密策略以及实现框架。第 V 节详细介绍了实验设置,而第 VI 节讨论了实验结果和主要发现。最后,第 VII 节总结了论文并概述了未来研究的方向。
第二背景和相关工作
本节概述了背景和相关工作,特别关注联合学习中的攻击形势,尤其是与 CAV 应用程序相关的攻击形势。
图 1:分布式系统中的联合学习工作流程概述,包括其分散式训练架构和协作模型聚合过程。
II-A 型联邦学习
FL 跨去中心化节点或客户端设备训练全局机器学习模型,每个节点或客户端设备都有私有数据集。FL 不是将原始数据传输到中央服务器,而是聚合本地模型更新或梯度以增强隐私。多年来,已经提出了各种聚合算法,以在 FL 中的协作效率和数据隐私之间取得平衡。由 McMahan 等人介绍的基础方法,即联合平均 (FedAvg)。[8],通过聚合模型更新同时丢弃来自落后设备的更新来优化局部随机梯度下降 (SGD),从而提高通信效率。为了应对客户之间统计和系统异质性带来的挑战,FedProx 通过合并一个使本地更新正则化的近端术语来扩展 FedAvg[9].进一步的进步,例如 SCAFFOLD,引入了控制变量来减轻客户端漂移并增强收敛性,尤其是在非 IID 数据分布下[10].
然而,无论这些聚合方法如何,FL 的隐私漏洞主要来自梯度的暴露,这使得攻击者能够从模型更新中推断出敏感属性,这凸显了对强大的隐私保护方法的迫切需求。
II-B 型使用 HE 加密模型参数
在 FL 的上下文中,同态加密可以直接对加密数据进行计算,而无需解密中间值,从而显着增强隐私保证。如前所述,HE 方案一般分为三种类型:部分同态加密 (PHE),仅支持单一类型的运算(加法或乘法);有点同态加密 (SHE),它允许有限数量的两种作;以及完全同态加密 (FHE),它支持对加密数据进行任意计算,不受限制[11].经典的 PHE 方案,如 RSA(乘法)和 ElGamal(在某些设置下加法),提供了高效的加密机制,但缺乏复杂机器学习任务所需的作灵活性。
图 2:使用同态加密模型参数时,联合聚合如何在服务器上运行。
FHE 的引入通过允许在密文中使用任何任意算术来转换加密计算,尽管最初由于计算开销而不切实际[5].随后的进步导致了 Brakerski-Gentry-Vaikuntanathan (BGV) 等分级 HE 计划[12], Brakerski/Fan-Vercauteren (BFV)[13],尤其是 CKKS[7],显著优化机器学习任务中常见的近似算术的计算效率。CKKS 方案是一种基于格的分级 FHE 方案,支持实数的近似算术,使其非常适合机器学习工作负载。与 BFV 等针对精确算术优化的方案不同,CKKS 允许 SIMD 样式11单指令,多数据。作,支持加密梯度的批处理,并减少安全联合训练期间的通信开销。这意味着可以将多个明文值打包到单个密文中并并行处理,从而显著提高计算效率。与专为整数精确计算而设计的 BFV 和 BGV 不同,CKKS 允许对浮点数进行高效的近似运算,使其非常适合容忍小数值误差的机器学习任务。直接编码和处理实数向量的能力使 CKKS 在联邦学习等场景中具有性能优势,在这些场景中,大规模、可并行化的计算很常见。
图 3:分布式、互联和自动驾驶汽车环境的联合学习面临的安全挑战。
虽然 CKKS 等基于 HE 的技术通过直接对加密数据进行作来提供强大的隐私保证,但它们会产生高计算成本,尤其是在引导过程中,这仍然是一个性能瓶颈。最近的分析研究证实,在实际部署中,引导占运行时的 50%[14],但其成本通常可以通过消除服务器上的信任假设来证明。此外,对自举 CKKS 电路的算术强度分析表明,由于缓存容量有限和密文大小较大,GPU 和 FPGA 等现代计算平台通常受内存限制。这些见解正在推动研究朝着更可行和实用的实现方向发展,其中我们采用了选择性参数加密策略——本文后面的第 IV 节将详细介绍。
II-C 型HE 与联邦学习的集成,用于实际应用
尽管同态加密引入了固有的通信和计算开销,但其无损实用程序使其成为安全计算的有吸引力的选择。因此,一些研究专门调查了 HE 在联邦学习框架中的集成,以在不影响模型性能的情况下增强隐私。Li 等人。[9]证明了在联合设置中采用 HE 方案的可行性,强调适当的参数选择和有效的编码会显着影响整体系统性能。此外,Zhang 等人。[15]引入了 BatchCrypt,这是一种利用批处理技术的优化方法,可显著降低 HE-FL 系统中的计算开销,从而增强加密计算的实用性。Fang 等人的另一个显着贡献。[16]重点介绍了集成安全多方计算和 HE 的混合模型,以平衡隐私保证和计算效率。HE 与 FL 相结合,通过安全加密梯度更新来解决隐私问题,从而降低泄漏风险。通常,此类集成通常涉及模型准确性、计算复杂性和通信开销之间的权衡,需要仔细优化以保持系统性能。最近的实用框架(如 FedML-HE)有效地管理了这些权衡,证明了加密 FL 的实际适用性[17].这些方法有选择地加密关键参数,从而有效地平衡安全性和计算效率。
虽然同态加密为 CAV 等应用程序中的联合学习提供了引人注目的安全优势,但实际部署需要更仔细地考虑计算开销和通信效率。特别是,CAV 通常会从传感器、摄像头和车联网 (V2X) 通信中生成大量敏感数据。因此,集中式训练方法在数据隐私、带宽限制和延迟方面存在重大风险[18].因此,将 HE 整合到 CAV 的 FL 中至关重要,这不仅是为了在模型更新期间保护敏感数据,如用户位置、驾驶行为和传感器输入,而且是为了确保遵守 GDPR 等隐私法规和行业特定要求。此外,它还支持包括汽车制造商在内的多个利益相关者之间的安全协作,而不会泄露专有信息。此外,它通过在整个学习过程中保护通信有效载荷来支持安全、实时决策模型的开发[19].
第三CAV 应用程序中对 FL 架构的对抗性攻击
与集中式学习模型不同,联邦学习支持跨多个客户端的分散式训练,这在增强数据隐私的同时引入了一系列独特的安全漏洞。最突出的威胁之一是模型中毒攻击[20],其中恶意客户端在训练期间注入精心设计的更新以纵全局模型的决策边界,通常不会显著降低其在干净、非目标数据上的性能。与此密切相关的是数据中毒攻击[21],攻击者更改、插入或删除本地训练数据以降低模型的性能或引入目标性偏差,旨在通过破坏底层模式来误导学习过程。
另一个令人担忧的威胁是搭便车攻击[22],其中客户端参与训练轮次,但没有执行有意义的计算,发送随机、重用或空更新,但仍受益于由诚实参与者训练的改进的全局模型。同时,后门攻击将隐藏的触发器嵌入到模型中,仅在存在特定模式时才导致错误分类,而不会显着改变模型在标准输入上的准确性。此外,成员推理等推理攻击[23]梯度泄漏旨在从共享更新中提取敏感信息。在这里,对手(参与的客户端或中央服务器)分析模型梯度或参数,以重建来自其他客户端的私有数据,例如图像或传感器读数。
如图 1 所示。4、梯度深度泄漏 (DLG) 是一种攻击,攻击者从共享梯度信息中重建敏感的输入数据[1].图显示了 DLG 如何利用梯度携带有关训练数据的隐式信息这一事实,允许对手迭代优化虚拟数据以匹配观察到的梯度[2].Zhao 等人的后续研究。[24]提高了重建攻击的效率和准确性,强调了对强大对策的需求。鉴于其实际可行性和对客户隐私的重大威胁,这种攻击媒介是本研究的中心重点。
图 4:从共享梯度中敏感输入数据的对抗性重建概述,从随机输入初始化开始。
虽然联合学习旨在通过将原始数据保存在本地来增强数据隐私,但其去中心化架构限制了集中监督,这使得检测和缓解 DLG 等高级攻击特别具有挑战性。随着 FL 继续部署在隐私敏感领域,例如联网自动驾驶汽车,开发针对梯度泄漏攻击的强大对策对于维护对协作学习系统的信任至关重要。
此外,虽然本文主要关注使用同态加密缓解联邦学习中的对抗性攻击,但重要的是要考虑针对 CAV 的更广泛的对抗性威胁形势。这些攻击超出了 FL 模型的范围,可以破坏 CAV 中的各种子系统。例如,Qayyum 等人。[25]概述了车辆网络中与 ML 相关的漏洞,而 Chattopadhyay 等人。[26]强调了对 AV 系统采用安全设计方法的必要性。Sharma 等人。[27]演示了对抗性示例如何绕过 CAV 中现有的基于 ML 的不当行为检测器。对抗性攻击可能通过纵摄像头图像或 LiDAR 数据等输入来瞄准感知系统,从而导致路标或幻影物体检测的错误分类。规划和控制系统还可以通过虚假通信消息进行攻击,从而导致不安全的机动。V2X 通信特别容易受到欺骗,攻击者会冒充合法来源来注入误导性数据。
保护 CAV 免受对抗性攻击需要一种整体方法,加强感知、控制和通信层,同时嵌入 FL 和 HE 等隐私保护方法,以实现安全的模型训练和数据共享。在本研究中,我们专注于缓解 DLG 攻击,因为它们在梯度交换阶段对数据机密性构成直接风险,而梯度交换阶段是 FL 工作流程中的关键组成部分。通过使用 TenSEAL 使用分级 HE 加密模型更新,我们确保对手(包括可能诚实但谨慎的服务器)无法从截获的梯度中获取有意义的信息。
四使用 CKKS 进行选择性参数加密
本文研究了将同态加密集成到联邦学习架构中的挑战和实际优化,特别关注互联和自动驾驶汽车应用。本节概述了我们的实验评估中使用的实施细节和方法,这些细节和方法将在后续部分中讨论。
多年来,已经开发了多个 HE 库来支持加密联邦学习,每个库都具有独特的优势。Microsoft SEAL[28]是一个广泛使用的 C++ 库,支持 BFV 和 CKKS 方案并提供强大的加密作,但它需要手动参数调整,这对于不熟悉 HE 的用户来说可能具有挑战性。IBM 的 HElib[29]实施 BGV 和 CKKS 并包含引导等高级功能,但其陡峭的学习曲线和集成复杂性限制了可访问性。栅栏[30]是一个通用的 lattice 加密库,支持多种方案(BFV、BGV、CKKS)并提供广泛的功能,尽管它在易用性方面优化较少。相比之下,TenSEAL[31]基于 Microsoft SEAL 构建,专为机器学习而设计,提供简化的 Python 接口、自动参数选择和高效的张量运算,以及无缝的 PyTorch 集成。其中,TenSEAL 是实现加密联邦学习最用户友好和最实用的选择。
IV-A 型工作流程和参数集成概述
所提出的方法使用 TenSEAL 库将 CKKS 分级 HE 方案集成到 FL 框架中。TenSEAL 基于 Microsoft SEAL 构建,可简化加密张量的处理,自动化参数管理,并在隐私保护环境中高效执行机器学习模型的关键作。我们的实验设置与现有文献一致,表明密文大小随着乘法深度的增加而显着增加。这需要频繁的自举或电路重新设计,以保持在可行的计算包络内[32].
CKKS 算法包含几个关键作,包括将实数编码为多项式表示、密钥生成和切换、通过重新缩放进行噪声管理,以及计算引导以扩展密文可用性。CKKS 特别适用于浮点数的近似算术运算,能够高效计算内积和多项式近似值(例如 sigmoid 函数)等运算。要在安全性、精度和计算效率之间实现有效平衡,需要仔细调整加密参数,例如多项式模数、密文模数和比例因子。在这项工作中,使用 TenSEAL 库集成 CKKS 参数,配置如下:
- •
多项式模数 (N):根据所需的 128 位安全级别和 TenSEAL 限制设置为 8192。较高的 N 值提供更高的安全性,但会增加内存和计算需求。
- •
密文模数 (Q):根据预期的乘法运算深度进行选择。它确保加密的计算在多个作中保持准确性。它是作为素数模数的乘积构造的,其位长之和Q位=60+52+60=172位。在所有实验分析中,此参数都设置为 172。
- •
缩放因子:确定浮点运算的精度。缩放因子越高,数值稳定性越好,但需要更大的密文大小。CKKS 通过将实数缩放为具有乘法因子的整数来对实数进行编码Δ=252(默认)。此比例因子可平衡精度和可用噪声预算。在我们所有的实验分析中,比例因子都设置为 52。
IV-B 型使用选择性加密实施
为了减少同态加密带来的额外计算和通信开销,我们采用了一种选择性加密策略,仅针对最关键的模型参数,而不是加密整个参数集。可以使用两种方法实现此策略:
- •
基于雅可比矩阵的敏感度图:跨训练批次计算模型输出相对于每个参数的梯度。然后对参数级二阶导数进行平均,以根据参数的灵敏度/重要性对参数进行排名。
- •
基于幅度的灵敏度图:在每个小批量之后,评估逐层参数幅度以确定有影响力的权重,而无需计算二阶梯度。
这些敏感度映射支持部分加密,其中仅加密排名靠前的参数。这大大降低了计算成本,同时保持了模型效用和隐私保护。在我们之前的发现的基础上,这项工作采用了基于幅度的灵敏度方法,因为与基于梯度的替代方案相比,其计算开销较低且易于实现。[33]
算法 1 概述了选择性 CKKS 加密过程,该过程包括以下关键组件。
- 1.
客户端初始化:客户端基于私有数据生成本地模型,使用具有特定多项式模数和比例因子的 TenSEAL 初始化 HE 参数,包括公钥/私钥对。
- 2.
加密的本地训练:每个客户端执行本地训练轮次,根据生成的敏感度图加密全套梯度或选择性加密参数。加密利用 CKKS 进行近似算术,平衡精度和计算效率。
- 3.
加密聚合:客户端安全地将加密更新传输到中央聚合器。加法等聚合作以同态方式执行,无需解密,从而确保整个训练过程中的数据机密性。
- 4.
解密和更新:聚合后,服务器使用密钥解密组合模型更新并更新全局模型,然后将其广播到客户端进行下一轮训练。
输入: 全局模型ℳ0、客户端数据集{𝒟我}我=1N、总轮数T、加密比率r输出: 经过训练的全局模型ℳT12使用 CKKS 参数(环尺寸、规模等)初始化加密上下文;3生成公钥/私钥(pk我,sk我)对于每个客户我;4广播ℳ0和pk我对所有客户;56 为 每轮t=1 自 T 做7 为 每个客户端我∈{1,…,N}并行 做8 收到ℳt−1从服务器;9 训练本地模型ℳ我(t)在数据上𝒟我;10 计算局部梯度∇ℳ我(t);1112 生成敏感度图S我使用 gradient magnitude 或 Jacobian;13 识别顶部 -r% 敏感元素∇ℳ我(t);1415 使用 CKKS 加密敏感元素pk我;16 Send (Encrypted, Plaintext) 渐变元组到服务器;1718 end 为1920 服务器端:21 同态聚合加密的梯度;22 正常聚合未加密的梯度;23 使用 解密聚合加密部分sk我或共享机制;24 将两者结合起来计算完全聚合梯度∇ℳt;25 更新全局模型ℳt←ℳt−1−η∇ℳt;26 广播已更新ℳt对所有客户;2728end 为29 返回 ℳT;算法 1 使用选择性 CKKS 加密的联邦学习
我们的实施框架包含几个额外的关键功能,以确保模块化、灵活性和详细的性能分析。密钥对的生成是根据选定的 HE 库 (TenSEAL) 进行管理的[34],实现无缝集成和适应性。为了全面评估开销,我们单独记录了加密和解密时间、本地训练持续时间和 HE 聚合时间。使用灵敏度图进行部分加密,该图可以通过基于幅度或基于雅可比的方法生成,从而允许对关键模型参数进行选择性保护。此外,模型加密是逐层执行的,由便于检查点和恢复的模块化序列化函数提供支持。这项工作的完整源代码和数据可在 https://github.com/Rahn80643/Federated-Learning-PyTorch-HE-Smap 上获得。这些设计选择共同实现了可扩展、保护隐私的联邦学习,具有灵活的加密粒度和高效的加密聚合,使该框架非常适合互联和自动驾驶汽车等实际应用。
V实验装置
我们的实验性设置利用了在 Ubuntu 20.04 服务器上配置了 PyTorch 和 Python 的高性能计算平台。该系统由 Intel Xeon CPU、128 GB RAM 和 NVIDIA RTX A6000 GPU 提供支持,提供深度学习和加密作所需的计算能力。对于加密计算,我们采用 TenSEAL 库,特别是利用 CKKS 同态加密方案。加密配置为多项式环维度 8192 和缩放位大小 52,从而在计算效率和数值精度之间实现了平衡。
为了严格评估所提出的隐私保护联邦学习框架,我们采用了 CIFAR-10 基准数据集,该数据集由 60,000 张彩色图像组成,均匀分布在 10 个不同的类别中。我们模拟两种类型的数据分布场景以反映真实的联邦学习环境:(1) 数据在客户端之间随机均匀分布的 IID 设置,以及 (2) 非 IID 设置,其中类分布被故意扭曲以反映异质性。在这项研究中,我们重点介绍 IID 配置。使用的模型包括 EfficientNetB0 、 MobileNetV1 、 MobileNetV2 和 ResNet34,分别具有大约 4.0 、 4.2 、 3.4 和 2180 万个参数。这些模型被选中来代表各种轻量级和中等复杂度的架构,这些架构由于在准确性和计算效率之间取得平衡而被广泛用于资源受限的环境,例如 CAV。训练与 3 个客户端进行了 50 轮通信,批次大小为 16,每个客户端 10 个本地 epoch。我们使用随机梯度下降 (SGD) 作为优化器,学习率为 0.01,动量为 0.9,权重衰减因子为4×10−4.应用步长为 10 个纪元且 Gamma 值为 0.1 的 StepLR 计划程序,以管理学习率衰减。
如前所述,实验工作流程通过六个关键阶段进行。(1) 初始化和密钥生成:中央服务器定义全局模型架构(例如 EfficientNet、MobileNet、ResNet)并配置加密参数,使用 TenSEAL 生成和分发 CKKS 配置。(2) 本地训练和梯度计算:客户在 IID 模拟数据上执行训练并计算梯度,应用基于幅度的敏感度图来识别对隐私最敏感的参数。(3) 选择性加密:敏感梯度使用 CKKS 加密,而非敏感梯度保持明文,以最大限度地减少开销。(4) 安全聚合:客户端将加密和明文梯度发送到服务器,服务器对密文进行同态聚合,对明文进行常规聚合。(5) 解密和模型更新:服务器解密聚合的密文梯度,并使用加密和明文贡献更新全局模型。(6) 重分布和迭代:更新的模型参数被发送回客户端,训练继续迭代,直到收敛。
六讨论
本节介绍了在联邦学习 (FL) 框架中应用所提出的基于 CKKS 的选择性同态加密方案所得出的结果和见解。
VI-A 型准确性比较:有和没有同态加密
为了直接量化 HE 对模型准确性的影响,我们对每个模型在两种情况下进行了比较分析:完全加密 (100%) 和不加密 (0%) 的训练/测试。图 5 和图 6 显示了有和没有 HE 的模型准确性的比较。
根据结果,ResNet34 和 MobileNetV2 表现出强大的鲁棒性,即使在完全加密的情况下也能保持较高的训练和测试准确性。EfficientNetB0 也表现出相对稳定的性能,精度仅略有下降。相比之下,MobileNetV1 在完全加密下经历了明显的下降,尤其是在测试准确性方面,这表明它对同态加密引入的计算开销更加敏感。
总体而言,这些比较表明,虽然同态加密会导致一些可衡量的性能下降,但无论是否加密,模型准确性在很大程度上都保持不变。由于固有的结构约束,某些架构受到的影响更大,这凸显了在部署完全加密的训练管道时仔细选择模型的重要性。该分析强调了平衡隐私保护与加密联合学习的架构适用性的必要性。
图 5:使用和不使用同态加密的训练准确性比较,其中 100% 加密表示所有模型参数都已加密,0% 表示没有参数加密。
图 6:测试准确性与使用和不使用同态加密的模型名称的比较,其中 100% 加密表示所有模型参数都已加密,0% 表示没有参数加密。
接下来,沿着观察准确性变化中的行为,我们量化了完全加密对预测性能的明确影响,图 7 显示了当每个模型从 0% 加密转向 100% 加密时测试准确性的相对百分比下降。
图 7:从无加密 (0%) 转向完全同态加密 (100%) 时,每个模型的测试准确性(以百分比表示)的相对下降。
VI-B 型泛化差距分析
泛化差距定义为训练和测试准确性之间的差异,是模型过拟合的关键指标。通过将每个模型的泛化差距和加密比率绘制为分组条形图,我们揭示了随着隐私的增加,每个模型对过拟合的敏感性。
图 8:泛化差距 (TrainAccuracy (火车精度)r−TestAccuracy 测试r) 对于每个模型,采用加密比率0%,10%,50%和100%.值越小表示泛化程度越高。
如图 8 所示,较低的条形表示更好的泛化(较少的过度拟合)。该图揭示了加密如何影响不同模型的泛化,突出了哪些架构在隐私性增加时保持稳健性。随着加密比率的增加,泛化差距通常会扩大,这表明加密会对泛化功能产生负面影响。值得注意的是,MobileNetV1 在 100% 加密时泛化差距增加最显着,这表明在高加密开销下存在很大的过拟合漏洞。相反,即使在较高的加密比率下,ResNet34、EfficientnetB0 和 MobileNetV2 也能保持相对较小的差距,从而证明对加密开销引起的泛化降级具有鲁棒性。
VI-C 型模型大小与测试准确性分析
我们研究了在未加密和完全同态加密设置下模型大小(以参数数量衡量)和测试准确性之间的关系。图 9 以对数刻度绘制了每个模型的参数计数与其在 0% 和 100% 加密时的测试准确性的关系。
图 9:未加密 (0%) 和完全加密 (100%) 模型的测试准确性与模型大小(对数刻度)的关系。
结果揭示了几个关键趋势。ResNet34 和 EfficientNetB0 都具有相对较高的参数计数,在加密和未加密设置中都实现了最高的测试精度,这表明了增加模型容量的优势。然而,MobileNetV2 在加密下保持了强大的准确性和稳健性,尽管体积最小,但它却脱颖而出。这使其成为资源受限或隐私敏感型应用程序的高效选择。相比之下,MobileNetV1 在完全加密下测试准确性和隐私保护性能都明显下降,这表明架构设计,而不仅仅是模型大小,在弹性同态加密开销方面起着关键作用。
总体而言,向完全加密训练的过渡会导致所有模型的准确性有所下降,但程度因架构而异。虽然较大的模型可以提供卓越的性能,但在加密约束下,它们并不总是最实用的。特别是 EfficientNetB0 和 MobileNetV2,在模型复杂性和加密稳健性之间取得了有利的权衡。这些发现强调了在隐私保护联邦学习中谨慎选择模型的重要性,其中准确性和计算效率必须取得平衡。
VI-D 型用于准确性和效率的多指标模型分析
为了全面比较加密比率对每个模型的影响,我们使用雷达图可视化了每个模型和场景的四个关键指标(参见下面的图 10、11、12 和 13)。每个轴都是直接从实验数据构建的,没有额外的假设:
- •
准确性 (一个(r)):
在加密比率下测试集的准确性r.•
计算效率 (E补偿(r)):
归一化逆训练时间,其中Tr表示 RATIO 的训练时间(以小时为单位)r:哪里T分钟和T麦克斯是所有模型和场景中的最小和最大训练时间。
- •
泛化效率 (E根(r)):
训练和测试准确性之间泛化差距的标准化测量:哪里Δr=TrainAccuracy (火车精度)r−TestAccuracy 测试r和Δ分钟,Δ麦克斯是所有实验的最小和最大间隔。
- •
训练损失的效率 (E损失(r)):
平均转换损失值的归一化逆值:跟损失r平均亏损比率r和L分钟,L麦克斯观察到的最小值/最大值。
雷达图有效地说明了不同加密级别下不同模型之间的权衡和性能稳定性。MobileNetV2 始终表现出强大的计算效率和稳定的精度,使其特别适合需要性能和隐私的场景。EfficientNetB0 实现了较高的准确率,但会产生更大的计算开销,这表明需要在性能和资源消耗之间进行权衡。ResNet34 虽然由于其较大的参数数量而提供了出色的准确性和低损耗,但在更高的加密率下会遭受严重的计算损失。相比之下,MobileNetV1 表现出明显的漏洞,随着加密强度的增加,其准确性下降得更快。这些视觉比较强调了在选择用于隐私保护联邦学习的模型时平衡准确性、效率和加密开销的重要性。
总体而言,这些图可以一目了然地比较隐私机制如何影响每个模型,并支持基于证据的模型选择以实现隐私保护联合学习。
图 10:选择性加密下 MobileNetV2 的性能权衡分析。
图 11:选择性加密下 MobileNetV1 的性能权衡分析。
图 12:选择性加密下 EffecientnetB0 的性能权衡分析。
图 13:选择性加密下 Resnet34 的性能权衡分析。
此外,实验结果揭示了加密率与模型性能之间的非线性关系。选择性加密可以有效地平衡准确性、计算成本和隐私。随着加密参数比例的增加,所有模型都表现出预期的权衡,即计算效率和通信性能略有下降。但是,这些下降仍然是可控的,这支持了选择性加密在联合学习中的实用性。
七结论和未来的研究方向
在联邦学习框架中使用 TenSEAL 集成基于 CKKS 的分级同态加密,表明在保护数据隐私的同时减轻梯度泄漏攻击的巨大潜力。我们在 CIFAR-10 数据集上的实验结果表明,这种方法实现了有效的隐私保护,同时对模型准确性和可比的计算效率影响最小。这些发现强调了选择性加密 FL 对于现实世界的隐私敏感应用程序(例如联网和自动驾驶汽车)的实际可行性,并为在安全的协作机器学习系统中进一步研究和部署提供了令人信服的基础。
虽然这项研究的结果证明了将联邦学习和同态加密集成到实际应用(如互联和自动驾驶汽车)的可行性,但仍然存在一些关键挑战。其中包括管理计算开销、微调加密参数和确保可扩展性。未来的研究应该探索硬件加速技术,因为 HE 会带来大量的计算成本;利用可信执行环境 (TEE) 和其他专用硬件可以使大规模加密 FL 更加可行。另一个有前途的方向是混合隐私保护方法,该方法将 HE 与安全多方计算或差分隐私等方法相结合,以在安全性、效率和模型准确性之间取得更好的权衡。此外,还需要动态加密参数适配,可以根据威胁级别或模型敏感性实时调整加密强度和资源使用情况。为了解决带宽和延迟问题,通过模型稀疏化、压缩或选择性加密等技术来减少通信开销仍然是一个开放的挑战。最后,该领域的进展将受益于标准化的基准测试框架,以根据一致的指标(包括准确性、训练时间和隐私保证)评估支持 HE 的 FL 系统。
此外,未来以 CAV 为重点的 FL 研究应解决几个关键挑战,以提高隐私保护系统的实用性和安全性。首先,低延迟加密模型更新对于减少通信延迟和支持车辆环境中的实时决策至关重要。其次,异构硬件集成必须在 CAV 中跨各种资源受限的嵌入式平台实现高效的加密计算。第三,对抗对抗性威胁的稳健性仍然至关重要,不仅需要针对 DLG 的高级防御,还需要针对中毒、模型反转和梯度泄漏攻击。最后,应利用协作边缘基础设施,例如路边单元 (RSU) 和雾节点,以促进安全、加密的模型聚合和在高机动性车辆之间分发。推进这些方向将有助于为安全、智能和隐私感知的自动驾驶系统铺平道路,为智能和值得信赖的交通网络的未来做出贡献。