当前位置：首页 > ops >正文

本地部署 DeepSeek-R1-0528 超大语言模型全流程指南（含量化版优化实操）

ops 2025/6/18 0:14:59

DeepSeek-R1-0528 简介及量化优势

DeepSeek-R1-0528 是 DeepSeek 最新发布的 R1 推理模型，磁盘占用高达 715GB，成为目前最大规模的开源模型之一。然而，得益于 Unsloth 的先进量化技术，该模型体积可缩减至 162GB，足足减少了 80%。这种优化让用户在硬件要求大幅降低的前提下，依然能体验到模型的强大能力，尽管性能会有轻微损失。

Run the Full DeepSeek-R1-0528 Model Locally

教程目标

本教程将带你完成以下内容：

配置 Ollama 和 Open Web UI，本地运行 DeepSeek-R1-0528 模型；
下载并设置 1.78-bit 量化版本（IQ1_S）模型；
分别在 GPU+CPU 及仅 CPU 环境下部署和运行模型。

步骤 0：准备条件

运行 IQ1_S 量化版需满足以下系统要求：

GPU 要求： 至少 1 块 24GB 显存的 GPU（如 NVIDIA RTX 4090 或 A6000）和 128GB 内存。此配置下，生成速度约为每秒 5 个 token。

内存要求： 若无 GPU，仅依靠 CPU 至少需 64GB 内存，但性能将限制为每秒生成 1 个 token。

最佳配置： 为获得最佳性能（每秒 5 个以上 token），建议配备至少 180GB 统一内存，或 180GB RAM+VRAM 组合。

存储： 确保有至少 200GB 可用磁盘空间，用于存放模型及相关依赖。

步骤 1：安装依赖及 Ollama

更新系统并安装必要工具。Ollama 是一款轻量级本地运行大语言模型的服务器。可通过以下命令在 Ubuntu 上安装：

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

步骤 2：下载并运行模型

使用以下命令运行 DeepSeek-R1-0528 的 1.78-bit 量化版（IQ1_S）：

ollama serve &
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0

步骤 3：配置并运行 Open Web UI

拉取支持 CUDA 的 Open Web UI Docker 镜像，并以 GPU 加速和 Ollama 集成方式运行容器。

该命令将：

在 8080 端口启动 Open Web UI 服务器；
使用 --gpus all 参数开启 GPU 加速；
挂载必要的数据目录（-v open-webui:/app/backend/data）。

docker pull ghcr.io/open-webui/open-webui:cuda
docker run -d -p 9783:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:cuda

容器启动后，可在浏览器访问 Open Web UI 界面：http://localhost:8080/

步骤 4：在 Open Web UI 中运行 DeepSeek R1 0528

从模型菜单中选择 hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0 进行运行。

若 Ollama 未能正确调用 GPU，可切换至 CPU 执行：

虽然性能将大幅降低（约每秒 1 个 token），但模型仍可运行。

# 结束现有 Ollama 进程
pkill ollama# 清理 GPU 显存
sudo fuser -v /dev/nvidia*# 以 CPU 模式重启 Ollama 服务
CUDA_VISIBLE_DEVICES="" ollama serve

模型启动后，可通过 Open Web UI 交互，但由于缺乏 GPU 加速，推理速度仅为每秒 1 个 token。

总结与体验反馈

即便是量化版本的部署也极具挑战性。你需要高速网络下载模型，如中断则需全部重来。在 GPU 上运行时还会遇到 GGUF 低显存报错，尝试了多种常见修复方案后无果，最终选择全部切换到 CPU，虽然运行成功，但模型仅生成一个响应就需约 10 分钟，实用性大打折扣。

相信市面上还有更优方案（如 llama.cpp），但实际操作下来，仅部署成功就耗费了我一整天时间。

查看全文

http://www.xdnf.cn/news/13952.html

HBase 安装与简单操作指南

深入 Java 泛型：高级应用与实战技巧

深度学习神经网络架构Transformer深刻理解

论文略读：Ask, and it shall be given: On the Turing completeness of prompting

OpenCV 鼠标操作与响应之绘制ROI提取图像

antd vue a-range-picker如何设置不能选择当前和之后的时间，包含时分秒

SSM框架实现学生管理系统的需求分析与设计详解

智能聊天AI Top10 排行榜 - 2025年05月

牛客小白月赛118

计算机图像处理：从像素到卷积与池化的深度解析

护城河尚浅，理想汽车驶入慢车道

Java Stream API 在企业开发中的实战心得：高效、优雅的数据处理

包含各种扁平化UI套件的psd适用于博客电商类移动端网站项目

论文笔记＜交通灯＞＜多智能体＞CoLight管理交通灯

【Golang面试题】什么是写屏障、混合写屏障，如何实现？

【SystemVerilog 2023 Std】第5章词法约定 Lexical conventions (1)

uni-app项目实战笔记5--使用grid进行定位布局

Qt的Modbus协议-RTU从站实现