多卡训练的开源大模型,开箱即用
以下是一些开源大模型项目,它们支持多卡训练(数据并行/模型并行/混合并行),且通常只需修改配置文件或简单参数即可运行。这些项目提供了清晰的文档和预定义的训练脚本,适合快速上手:
一、通用大模型训练框架
1. Megatron-LM (NVIDIA)
-
特点:专为超大规模模型设计(如GPT、T5),支持张量并行+流水线并行+数据并行。
-
模型支持:GPT-2/3、BERT、T5等。
-
多卡配置:通过修改
configs/
目录下的JSON文件指定并行策略。 -
项目地址:
GitHub - NVIDIA/Megatron-LM: Ongoing research training transformer models at scale