数据并行基础概念知识
架构分为PS与ring-allreduce;方法主要是zero系列zeroDP123、ZeroR 、Zero-offerload、Zero-Infinite、Zero++
相关博客介绍的很清楚,在这里总结一下
图解系列很通透,通俗易懂1
更详细的介绍后面几种方式,提供动图链接2
提供混合精度解读3
Ring All-reduce的数学推导4
图片画的很漂亮5
对checkout技术进行补充说明6
比较通俗易懂7
# 图解大模型训练之:数据并行下篇(ZeRO,零冗余优化) ↩︎
# Zero系列三部曲:Zero、Zero-Offload、Zero-Infinity ↩︎
# 论文精读:Mixed Precision Training ↩︎
# 手把手推导Ring All-reduce的数学性质 ↩︎
# ZeRO: Zero Redundancy Optimizer,一篇就够了。 ↩︎
# 大模型并行训练技术(一)—— ZeRO系列 ↩︎
# DeepSpeed之ZeRO系列:将显存优化进行到底 ↩︎