当前位置: 首页 > web >正文

横向联邦学习、纵向联邦学习与联邦迁移学习是联邦学习的三大主要分支

1. 横向联邦学习(Horizontal Federated Learning, HFL)

核心特征
  • 数据分布:各参与方的数据特征空间相同,样本ID不同(即特征重叠,样本不重叠)。
    例如:不同地区的银行拥有相同的用户特征(年龄、收入),但用户群体不同。

  • 训练方式:各参与方训练相同的模型结构,服务器聚合模型参数(如FedAvg)。

适用场景
  • 跨机构同构数据:如多个手机厂商用各自用户的输入行为数据联合训练输入法模型。

  • 边缘设备协作:智能手机、IoT设备等数据分散但特征一致的场景。

优点
  • 实现简单,可直接应用传统联邦平均(FedAvg)算法。

  • 适合大规模分布式设备(如Google的Gboard输入法)。

使用频率
  • 最常用,尤其是C端场景(移动端、物联网)。


2. 纵向联邦学习(Vertical Federated Learning, VFL)

核心特征
  • 数据分布:各参与方的数据样本ID相同,特征空间不同(即样本重叠,特征不重叠)。
    例如:医院和保险公司拥有同一批患者,但医院有体检数据,保险公司有理赔记录。

  • 训练方式:需先对齐样本(如PSI协议),再联合训练(如分割模型:部分层在各方本地,部分层协同计算)。

适用场景
  • 跨行业数据互补:如金融+电商联合反欺诈(电商提供行为数据,银行提供信用数据)。

  • 隐私敏感领域:医疗、金融等需保护垂直特征数据的场景。

优点
  • 能利用多维度特征提升模型效果。

挑战
  • 样本对齐需加密计算(计算开销大)。

  • 模型结构复杂(需设计分割网络)。

使用频率
  • 增长快,尤其在B端跨行业合作中(如微众银行的FATE框架支持VFL)。


3. 联邦迁移学习(Federated Transfer Learning, FTL)

核心特征
  • 数据分布:各参与方的数据样本ID和特征空间均不同(即样本和特征均不重叠)。
    例如:中文电商和英文社交平台的数据完全异构。

  • 训练方式:通过迁移学习(如特征映射、域适应)在联邦框架下共享知识。

适用场景
  • 跨域异构数据:如不同语言、不同业务领域的机构协作(医疗影像+病理报告)。

  • 小数据方辅助训练:数据量极少的参与方借助其他域数据提升模型。

优点
  • 解决数据完全异构的极端场景。

挑战
  • 需设计复杂的迁移机制(如对抗训练、共享隐空间)。

  • 训练稳定性差,易受负迁移影响。

使用频率
  • 较少,仅在特定需求下使用(如跨国企业合作)。

    三 对比总结

    维度横向联邦学习(HFL)纵向联邦学习(VFL)联邦迁移学习(FTL)
    数据重叠特征重叠,样本不重叠样本重叠,特征不重叠样本和特征均不重叠
    典型场景多手机厂商联合训练模型医院+保险公司联合建模跨国电商+社交平台合作
    技术难点非IID数据优化样本对齐、分割模型设计跨域知识迁移
    使用频率★★★★★(最常用)★★★☆(B端增长快)★★☆(小众场景)

    四、如何选择?

  • 优先横向联邦学习

    • 如果参与方的数据特征相似(如都是用户行为数据),且样本不同(如不同地区用户)。

    • 案例:Google联合数百万手机训练下一词预测模型。

  • 选择纵向联邦学习

    • 如果参与方拥有同一批实体的不同特征(如医院有体检数据,药企有用药记录)。

    • 案例:银行与电商平台联合反欺诈(电商提供购物行为,银行提供交易流水)。

  • 考虑联邦迁移学习

    • 仅在数据完全异构且必须协作时使用(如跨语言、跨模态数据)。

    • 案例:中文医疗文本模型迁移到英文临床数据。

      五、行业应用现状

    • 横向联邦学习占据主流(约70%应用),因其适合C端海量设备场景(手机、IoT)。

    • 纵向联邦学习在金融、医疗等B端领域快速普及(如微众银行FATE框架)。

    • 联邦迁移学习仍处于研究探索阶段,实际落地较少。

      六、未来趋势

    • 横向联邦:继续主导边缘计算场景(5G/6G时代更多终端设备参与)。

    • 纵向联邦:随着隐私计算技术(如MPC)成熟,将成为跨行业数据合作的核心方案。

    • 联邦迁移:需突破跨模态对齐技术(如文本→图像的联邦迁移)。

      七. 横向联邦学习的深挖方向——隐私-效率权衡

      7.1研究价值
    • (1)现实瓶颈:横向联邦虽成熟,但在隐私保护(DP/SMPC)与模型性能的平衡上仍有挑战。

    • (2)关键问题

      • 如何降低差分隐私(DP)引入的噪声对模型精度的影响?

      • 如何设计轻量级加密协议(如部分同态加密)以减少计算开销?

      • 7.2推荐课题
      • 自适应差分隐私算法

        • 动态调整隐私预算(ε)分配,优先保护敏感层梯度。

      • 联邦学习的稀疏化训练

        • 通过梯度稀疏化(如Top-k选择)减少通信量,同时增强隐私。

        • 工具:PySyft中的稀疏梯度聚合模块。

http://www.xdnf.cn/news/9017.html

相关文章:

  • 企微客服如何接入ai大模型
  • [网页五子棋]项目介绍以及websocket的消息推送(轮询操作)、报文格式和握手过程(建立连接过程)
  • Vue3 + Element Plus 实现用户管理模块
  • 计算机网络学习(八)——MAC
  • 3560. 木材运输的最小成本
  • 时序模型上——ARIMA/MA/AR
  • GaussDB资源冻结与解冻:精细化资源管理的实践与策略
  • Webpack和Vite构建工具有什么区别?各自的优缺点是什么
  • 华为OD机试真题——虚拟理财游戏(2025A卷:200分)Java/python/JavaScript/C/C++/GO最佳实现
  • 华为OD机试真题——数据分类(2025B卷:100分)Java/python/JavaScript/C++/C语言/GO六种最佳实现
  • 162. 寻找峰值
  • 【芯片设计中的跨时钟域信号处理:攻克亚稳态的终极指南】
  • Rust 1.0 发布十周年,梦想再度扬帆起航!
  • Class ‘AlibabaCloud\Tea\Utils\Utils\RuntimeOptions‘ not found
  • 人脸识别备案快速高效服务
  • 有效的字母异位符--LeetCode
  • 2025年5月架构真题回忆
  • SQL连接字符串的差异造成远程服务器不能正常连接
  • 数据库入门教程:以商品订单系统为例
  • 篇章四 数据结构——顺序表
  • 代码随想录算法训练营第60期第四十八天打卡
  • 010501上传下载_反弹shell-渗透命令-基础入门-网络安全
  • 《棒球百科》国家一级运动员和二级运动员的区别·棒球1号位
  • 【bug排查记录】由Redission配置引发的Satoken血案
  • Nginx 核心功能深度解析:负载均衡、缓存加速与安全防护
  • Structure-Revealing Low-Light Image Enhancement Via Robust Retinex Model论文阅读
  • 如何最简单、通俗地理解Pytorch?神经网络中的“梯度”是怎么自动求出来的?PyTorch的动态计算图是如何实现即时执行的?
  • 重构开发范式!飞算JavaAI革新Spring Cloud分布式系统开发
  • 图像分割技术的实现与比较分析
  • Windows计算机管理:定时调用指定的可执行程序(.exe)