Hugging Face 设置镜像源 | 下载失败 | 下载的速度很慢
在下载Hugging Face而文件或模型权重时,报错了,说无法访问,导致下载失败;
获取下载的速度很慢,需要等待很久........
本文对于这两个问题,查阅和测试了一些方法,给大家记录分享~
1、修改Hugging Face 镜像源
编辑用户配置文件 ~/.bashrc,
设置为 export HF_ENDPOINT=https://hf-mirror.com
执行下面命令:
echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.bashrc
source ~/.bashrc # 立即生效
验证环境变量,是否修改成功:
echo $HF_ENDPOINT
正常会输出:https://hf-mirror.com,说明设置成功啦~
2、 加速下载方式
上面只是设置了国内的Hugging Face镜像源,我们还可以用多种方式,进一步加速
方法 | 速度(7B 模型) | 优点 | 缺点 |
---|---|---|---|
原生下载 | 200-500 kB/s | 无需配置 | 极慢 |
镜像源 + CLI | 5-15 MB/s | 官方支持 | 依赖镜像站负载 |
hfd 脚本 | 20-50 MB/s | 多线程优化 | 需安装依赖 |
手动下载 | 100 MB/s+ | 无限制 | 需手动操作 |
推荐优先级:
hfd
多线程下载器 > huggingface-cli
> 手动下载
> 原生下载
3、使用官方 CLI 工具加速下载
1.、安装 huggingface_hub
工具
pip install -U huggingface_hub
2、多线程下载模型(代码)
比如,需要下载 CLIP-ViT-B-32-laion2B-s34B-b79K 权重,运行python代码:
from huggingface_hub import hf_hub_downloadfile_path = hf_hub_download(repo_id="laion/CLIP-ViT-B-32-laion2B-s34B-b79K",filename="open_clip_pytorch_model.bin",local_dir="./model"
)
print(f"文件已下载至: {file_path}")
3、多线程下载模型(命令行)
huggingface-cli download \--resume-download \ # 断点续传--local-dir-use-symlinks False \ # 禁用软链接(直接存储文件)--local-dir ./model_dir \ # 本地存储路径laion/CLIP-ViT-B-32-laion2B-s34B-b79K \--filename open_clip_pytorch_model.bin
4、使用hfd下载
它是huggingface专用下载工具,基于成熟工具 aria2
,可以做到稳定高速下载不断线。
4.1、下载hfd
wget https://hf-mirror.com/hfd/hfd.sh
chmod a+x hfd.sh
4.2、设置环境变量(临时的)
export HF_ENDPOINT=https://hf-mirror.com
4.3、下载模型
./hfd.sh gpt2
huggingface模型和数据集的地址:https://hf-mirror.com/
4.4、下载数据集
./hfd.sh wikitext --dataset
数据集:https://hf-mirror.com/datasets
分享完成~