【保姆级 - 大模型应用开发】DeepSeek R1 本地部署全攻略:Ollama + vLLM + PyTorch 多选方案
DeepSeek R1 本地部署全攻略:Ollama + vLLM + PyTorch 多选方案
想部署 DeepSeek-R1 模型到本地,开启高性能推理体验?本文汇总了 Ollama、vLLM 及原生 PyTorch 的部署方法,适合不同开发者需求。
🎯 下载模型 (必做) ---- 模型选择指南
目前 DeepSeek 已开源多个蒸馏模型,资源占用低,推理能力强:
模型名 | 参数量 | 显存需求 | 下载地址 |
---|---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | 1~2GB | 点击下载 |
DeepSeek-R1-Distill-Qwen-7B | 7B | 6~8GB | 点击下载 |
DeepSeek-R1-Distill-Llama-70B | 70B | 96~128GB | 点击下载 |
- 下载完成后可以任选以下三种方式之一进行部署使用 (记住你的
下载路径
)
✅ 方式一:Ollama 本地部署(最简单)
Step 1:安装 Ollama
Windows 用户:
直接访问官网下载安装:https://ollama.com
Linux/macOS 用户:
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
Step 2:下载并运行模型
ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b
📌 Ollama 会自动处理环境配置,适合零基础用户快速尝试。
✅ 方式二:vLLM 部署(推荐中高端 GPU)
Step 1:安装 vLLM
pip install vllm
Step 2:运行模型
vllm serve <模型路径> \
--tensor-parallel-size 1 \
--max-model-len 32768 \
--quantization gptq \
--dtype half \
--enforce-eager
参数 | 含义 | 推荐值 |
---|---|---|
<模型路径> | 模型所在的本地文件夹 | /root/models/deepseek-r1-distill-qwen-7b-gptq |
--tensor-parallel-size | 启用的 GPU 数量(单卡填 1) | 1 |
--max-model-len | 最大上下文长度(Token 数) | 4096 ~ 32768 |
--quantization | 指定量化类型 | gptq |
--dtype | 中间计算精度 | half (FP16) |
--enforce-eager | 禁用 CUDA Graph,加快加载稳定性 | 建议保留 |
📌 如果显存较小(如 8GB),建议将 --max-model-len
改为 4096
或更小。
✅ 方式三:PyTorch 原生部署(灵活可控)
from modelscope import AutoModelForCausalLM, AutoTokenizer# 模型路径:请替换为你自己的本地路径
model_path = "/root/models/deepseek-r1-distill-qwen-7b"# 加载模型
model = AutoModelForCausalLM.from_pretrained(model_path,torch_dtype="auto",device_map="cuda" # 支持自动切换为 CPU
)# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(model_path)# 构建 prompt
messages = [{"role": "system", "content": "你是一个乐于助人的编程专家"},{"role": "user", "content": "请用 Python 实现快速排序"}
]# 转换为对话输入格式
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)# 推理生成
outputs = model.generate(**inputs, max_new_tokens=512)# 解码输出
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
📦 运行环境依赖:
pip install torch modelscope
🧠 对比总结
方法 | 优点 | 缺点 | 适合人群 |
---|---|---|---|
Ollama | 零配置、简单易用 | 功能有限 | 小白/入门 |
vLLM | 高性能、支持量化 | 显存要求高 | 中高级用户 |
PyTorch | 灵活自由 | 需懂代码 | 开发者/研究人员 |
🧩 提示建议
- Ollama 支持断网运行,适合离线环境。
- 建议使用蒸馏模型部署,节省资源,效果不打折。
- 复杂推理场景推荐使用 R1-32B 或以上版本。
DeepSeek 开源生态发展迅猛,模型性能媲美 GPT-4o,部署简单灵活,非常适合本地化大模型应用实践。动手部署一把,感受 LLM 的强大推理力量!