凸问题-非凸问题-非凸模型
凸问题:目标函数(如损失函数)是 “凸函数” 的优化问题,凸函数特征是局部最优解 = 全局最优解,训练更易收敛(类比碗状函数,小球滚动必落底部 );
非凸问题(如深度神经网络)则有大量局部最优,训练难度更高。
非凸模型:深度神经网络(如 Transformer、ResNet )的损失函数是 “非凸” 的,存在大量局部最优(类比山地地形,小球可能卡在山坡凹处,而非全局最低山谷 );研究非凸模型的收敛性,是 FL 落地复杂任务(如大模型训练)的关键。
数据异构性(非 IID,Independent and Identically Distributed ):客户端数据分布不同(如 A 医院数据多是老年病,B 医院多是儿科病 );
IID 指数据同分布(理想假设,实际 FL 中难满足 ),
非 IID 会导致 “客户端漂移”(本地训练后参数过度适配本地数据,全局聚合后模型效果差 )。