本地部署 DeepSeek-R1-0528 超大语言模型全流程指南(含量化版优化实操)
DeepSeek-R1-0528 简介及量化优势
DeepSeek-R1-0528 是 DeepSeek 最新发布的 R1 推理模型,磁盘占用高达 715GB,成为目前最大规模的开源模型之一。然而,得益于 Unsloth 的先进量化技术,该模型体积可缩减至 162GB,足足减少了 80%。这种优化让用户在硬件要求大幅降低的前提下,依然能体验到模型的强大能力,尽管性能会有轻微损失。
教程目标
本教程将带你完成以下内容:
-
配置 Ollama 和 Open Web UI,本地运行 DeepSeek-R1-0528 模型;
-
下载并设置 1.78-bit 量化版本(IQ1_S)模型;
-
分别在 GPU+CPU 及仅 CPU 环境下部署和运行模型。
步骤 0:准备条件
运行 IQ1_S 量化版需满足以下系统要求:
GPU 要求: 至少 1 块 24GB 显存的 GPU(如 NVIDIA RTX 4090 或 A6000)和 128GB 内存。此配置下,生成速度约为每秒 5 个 token。
内存要求: 若无 GPU,仅依靠 CPU 至少需 64GB 内存,但性能将限制为每秒生成 1 个 token。
最佳配置: 为获得最佳性能(每秒 5 个以上 token),建议配备至少 180GB 统一内存,或 180GB RAM+VRAM 组合。
存储: 确保有至少 200GB 可用磁盘空间,用于存放模型及相关依赖。
步骤 1:安装依赖及 Ollama
更新系统并安装必要工具。Ollama 是一款轻量级本地运行大语言模型的服务器。可通过以下命令在 Ubuntu 上安装:
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
步骤 2:下载并运行模型
使用以下命令运行 DeepSeek-R1-0528 的 1.78-bit 量化版(IQ1_S):
ollama serve &
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
步骤 3:配置并运行 Open Web UI
拉取支持 CUDA 的 Open Web UI Docker 镜像,并以 GPU 加速和 Ollama 集成方式运行容器。
该命令将:
-
在 8080 端口启动 Open Web UI 服务器;
-
使用
--gpus all
参数开启 GPU 加速; -
挂载必要的数据目录(
-v open-webui:/app/backend/data
)。
docker pull ghcr.io/open-webui/open-webui:cuda
docker run -d -p 9783:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:cuda
容器启动后,可在浏览器访问 Open Web UI 界面:http://localhost:8080/
步骤 4:在 Open Web UI 中运行 DeepSeek R1 0528
从模型菜单中选择 hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
进行运行。
若 Ollama 未能正确调用 GPU,可切换至 CPU 执行:
虽然性能将大幅降低(约每秒 1 个 token),但模型仍可运行。
# 结束现有 Ollama 进程
pkill ollama# 清理 GPU 显存
sudo fuser -v /dev/nvidia*# 以 CPU 模式重启 Ollama 服务
CUDA_VISIBLE_DEVICES="" ollama serve
模型启动后,可通过 Open Web UI 交互,但由于缺乏 GPU 加速,推理速度仅为每秒 1 个 token。
总结与体验反馈
即便是量化版本的部署也极具挑战性。你需要高速网络下载模型,如中断则需全部重来。在 GPU 上运行时还会遇到 GGUF 低显存报错,尝试了多种常见修复方案后无果,最终选择全部切换到 CPU,虽然运行成功,但模型仅生成一个响应就需约 10 分钟,实用性大打折扣。
相信市面上还有更优方案(如 llama.cpp),但实际操作下来,仅部署成功就耗费了我一整天时间。