传统联邦 VS 联邦+大模型
1.规模不同
传统FL:多用于小模型或中等模型;模型参数量较小。
FL+LLMs:指的是把大规模预训练模型(LLM、ViT、Diffusion 等) 引入到联邦学习框架中。参数量动辄 亿级甚至千亿级,远超边缘设备的单机算力和存储能力。
2.通信与参数同步
传统FL:用 FedAvg 等方式聚合权重,客户端每轮上传完整模型参数或梯度。
FL+LLMs:直接上传全量参数,带宽和延迟成本极高;须采用 参数高效传输方法(只上传 LoRA 参数/梯度压缩/稀疏更新),只同步小部分可训练参数,降低通信成本。
3.算力与资源分布
传统FL:客户端通常是 手机、IoT 设备、边缘设备,算力有限,可完成小模型训练
FL+LLMs:客户端往往需要 服务器级 GPU/TPU 或 云边协同,更像是 跨机构/跨数据中心 的联合
4.训练目标
传统FL:目标通常是 分类/回归/检测任务,模型直接在联邦框架中训练到收敛。
FL+LLMs:大模型已经预训练好,联邦主要做微调,提示学习,蒸馏。其核心目标是实现:个性化+隐私保护(利用本地数据定制大模型,而不泄露数据)
5. 系统设计与挑战
传统FL:关注点:隐私保护(差分隐私、同态加密)、客户端异质性(数据分布不同)、通信效率。系统复杂度相对低。
FL+LLMs:兼顾 超大参数同步开销(通信瓶颈)。显存/内存限制(客户端训练难以承载全量参数)。个性化与泛化的平衡(如何在不同机构数据差异下,保持大模型的通用性和个性化)隐私风险更大(因为大模型更容易记忆数据)。