当前位置: 首页 > news >正文

联邦学习的收敛性分析(全设备参与,不同本地训练轮次)

联邦学习的收敛性分析

在这里插入图片描述

在联邦学习中,我们的目标是分析全局模型的收敛性,考虑设备异构性(不同用户的本地训练轮次不同)和数据异质性(用户数据分布不均匀)。以下推导从全局模型更新开始,逐步引入假设并推导期望损失的递减关系,最终给出收敛性结论。

1. 全局模型更新与泰勒展开

全局模型更新

在联邦学习中,设全局模型在第 t t t 轮为 g t g_t gt,共有 U U U 个用户参与训练。每个用户 k k k 从全局模型 g t g_t gt 开始(即 w t k , 0 = g t w_t^{k, 0} = g_t wtk,0=gt),进行 l k t l_k^t lkt 轮本地梯度下降更新:

w t k , i + 1 = w t k , i − η ∇ G t k , i , w_t^{k, i+1} = w_t^{k, i} - \eta \nabla \mathcal{G}_t^{k, i}, wtk,i+1=wtk,iηGtk,i,

其中 η \eta η 是学习率, ∇ G t k , i \nabla \mathcal{G}_t^{k, i} Gtk,i 是用户 k k k 在第 i i i 轮本地训练时的梯度。经过 l k t l_k^t lkt 轮训练后,用户 k k k 的本地模型为:

w t k , l k t = w t k , 0 − η ∑ i = 0 l k t − 1 ∇ G t k , i = g t − η ∑ i = 0 l k t − 1 ∇ G t k , i . w_t^{k, l_k^t} = w_t^{k, 0} - \eta \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i} = g_t - \eta \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i}. wtk,lkt=wtk,0ηi=0lkt1Gtk,i=gtηi=0lkt1Gtk,i.

全局模型通过聚合所有用户的本地模型得到:

g t + 1 = 1 U ∑ k = 1 U w t k , l k t = g t − η U ∑ k = 1 U ∑ i = 0 l k t − 1 ∇ G t k , i . g_{t+1} = \frac{1}{U} \sum_{k=1}^U w_t^{k, l_k^t} = g_t - \frac{\eta}{U} \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i}. gt+1=U1k=1Uwtk,lkt=gtUηk=1Ui=0lkt1Gtk,i.

泰勒展开

为了分析全局损失 F ( g t + 1 ) F(g_{t+1}) F(gt+1) 的变化,我们对 F ( g t + 1 ) F(g_{t+1}) F(gt+1) g t g_t gt 处进行二阶泰勒展开:

F ( g t + 1 ) ≈ F ( g t ) + ∇ F ( g t ) T ( g t + 1 − g t ) + 1 2 ( g t + 1 − g t ) T ∇ 2 F ( g t ) ( g t + 1 − g t ) . F(g_{t+1}) \approx F(g_t) + \nabla F(g_t)^T (g_{t+1} - g_t) + \frac{1}{2} (g_{t+1} - g_t)^T \nabla^2 F(g_t) (g_{t+1} - g_t). F(gt+1)F(gt)+F(gt)T(gt+1gt)+21(gt+1gt)T2F(gt)(gt+1gt).

代入 g t + 1 − g t = − η U ∑ k = 1 U ∑ i = 0 l k t − 1 ∇ G t k , i g_{t+1} - g_t = -\frac{\eta}{U} \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i} gt+1gt=Uηk=1Ui=0lkt1Gtk,i

F ( g t + 1 ) ≈ F ( g t ) − η U ∇ F ( g t ) T ( ∑ k = 1 U ∑ i = 0 l k t − 1 ∇ G t k , i ) + η 2 2 ( 1 U ∑ k = 1 U ∑ i = 0 l k t − 1 ∇ G t k , i ) T ∇ 2 F ( g t ) ( 1 U ∑ k = 1 U ∑ i = 0 l k t − 1 ∇ G t k , i ) . F(g_{t+1}) \approx F(g_t) - \frac{\eta}{U} \nabla F(g_t)^T \left( \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i} \right) + \frac{\eta^2}{2} \left( \frac{1}{U} \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i} \right)^T \nabla^2 F(g_t) \left( \frac{1}{U} \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i} \right). F(gt+1)F(gt)UηF(gt)T

http://www.xdnf.cn/news/240391.html

相关文章:

  • LoRA、QLoRA、LoRA+、LongRA、DoRA、MaLoRA、GaLore
  • MySQL基础关键_002_DQL(一)
  • [AI]怎么计算中文被bert模型切分的tokens数量
  • TC8:SOMEIP_ETS_021-022
  • 产品VP简历模板案例
  • # 基于 Python 和 jieba 的中文文本自动摘要工具
  • ChipCN IDE KF32 导入工程后,无法编译的问题
  • 探秘明远智睿SSD2351开发板在HMI领域的独特魅力
  • 2025第八届数字中国峰会启幕 | 思特奇以数智力量,助推数字中国建设
  • 游戏性能测试
  • C 语 言 - - - 文 件 操 作
  • vue3 动态修改系统title
  • python查看指定的进程是否存在
  • 安凯微以创新之芯,赋能万物智能互联新时代
  • k8s术语值ReplicaSet
  • navicat中导出数据表结构并在word更改为三线表(适用于navicat导不出doc)
  • Ollama 安装 QWen3 及配置外网访问指南
  • 近期汇报
  • springboot框架常用配置
  • 在柯希霍夫积分法偏移成像中,消除数据采集和地下构造(如深浅孔径差异)导致的叠加次数不均匀会引起成像剖面强度差异
  • 【STM32单片机】#11.5 I2C通信(硬件读写)
  • TM1668芯片学习心得三
  • Qwen3-32B的幻觉问题
  • Windows系统安装Docker(Win10系统升级,然后安装)
  • UE 像素和线框盒子 材质
  • 【AI图像创作变现】08 变现渠道—间接获客:让客户主动找上门
  • 广州创科——湖北房县汪家河水库除险加固信息化工程
  • 【Android】轻松实现实时FPS功能
  • [Survey] Image Segmentation in Foundation Model Era: A Survey
  • AI赋能烟草工艺革命:虫情监测步入智能化时代