当前位置: 首页 > backend >正文

【保姆级 - 大模型应用开发】DeepSeek R1 本地部署全攻略:Ollama + vLLM + PyTorch 多选方案

在这里插入图片描述

DeepSeek R1 本地部署全攻略:Ollama + vLLM + PyTorch 多选方案

想部署 DeepSeek-R1 模型到本地,开启高性能推理体验?本文汇总了 Ollama、vLLM 及原生 PyTorch 的部署方法,适合不同开发者需求。


🎯 下载模型 (必做) ---- 模型选择指南

目前 DeepSeek 已开源多个蒸馏模型,资源占用低,推理能力强:

模型名参数量显存需求下载地址
DeepSeek-R1-Distill-Qwen-1.5B1.5B1~2GB点击下载
DeepSeek-R1-Distill-Qwen-7B7B6~8GB点击下载
DeepSeek-R1-Distill-Llama-70B70B96~128GB点击下载
  • 下载完成后可以任选以下三种方式之一进行部署使用 (记住你的下载路径)

✅ 方式一:Ollama 本地部署(最简单)

Step 1:安装 Ollama

Windows 用户:

直接访问官网下载安装:https://ollama.com

Linux/macOS 用户:
curl -fsSL https://ollama.com/install.sh | sh
ollama serve

Step 2:下载并运行模型

ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b

📌 Ollama 会自动处理环境配置,适合零基础用户快速尝试。


✅ 方式二:vLLM 部署(推荐中高端 GPU)

Step 1:安装 vLLM

pip install vllm

Step 2:运行模型

vllm serve <模型路径> \
--tensor-parallel-size 1 \
--max-model-len 32768 \
--quantization gptq \
--dtype half \
--enforce-eager
参数含义推荐值
<模型路径>模型所在的本地文件夹/root/models/deepseek-r1-distill-qwen-7b-gptq
--tensor-parallel-size启用的 GPU 数量(单卡填 1)1
--max-model-len最大上下文长度(Token 数)4096 ~ 32768
--quantization指定量化类型gptq
--dtype中间计算精度half(FP16)
--enforce-eager禁用 CUDA Graph,加快加载稳定性建议保留

📌 如果显存较小(如 8GB),建议将 --max-model-len 改为 4096 或更小。


✅ 方式三:PyTorch 原生部署(灵活可控)

from modelscope import AutoModelForCausalLM, AutoTokenizer# 模型路径:请替换为你自己的本地路径
model_path = "/root/models/deepseek-r1-distill-qwen-7b"# 加载模型
model = AutoModelForCausalLM.from_pretrained(model_path,torch_dtype="auto",device_map="cuda"  # 支持自动切换为 CPU
)# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(model_path)# 构建 prompt
messages = [{"role": "system", "content": "你是一个乐于助人的编程专家"},{"role": "user", "content": "请用 Python 实现快速排序"}
]# 转换为对话输入格式
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)# 推理生成
outputs = model.generate(**inputs, max_new_tokens=512)# 解码输出
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

📦 运行环境依赖:

pip install torch modelscope

🧠 对比总结

方法优点缺点适合人群
Ollama零配置、简单易用功能有限小白/入门
vLLM高性能、支持量化显存要求高中高级用户
PyTorch灵活自由需懂代码开发者/研究人员

🧩 提示建议

  • Ollama 支持断网运行,适合离线环境。
  • 建议使用蒸馏模型部署,节省资源,效果不打折。
  • 复杂推理场景推荐使用 R1-32B 或以上版本。

在这里插入图片描述

DeepSeek 开源生态发展迅猛,模型性能媲美 GPT-4o,部署简单灵活,非常适合本地化大模型应用实践。动手部署一把,感受 LLM 的强大推理力量!

http://www.xdnf.cn/news/16565.html

相关文章:

  • 【图像处理基石】如何对遥感图像进行实例分割?
  • 【LeetCode 热题 100】34. 在排序数组中查找元素的第一个和最后一个位置——二分查找
  • 宇树 G1 部署(九)——遥操作控制脚本 teleop_hand_and_arm.py 分析与测试部署
  • Go 客户端玩转 ES|QL API 直连与 Mapping Helpers 实战详解
  • 11、read_object_model_3d 读取点云
  • 预装Windows 11系统的新电脑怎么跳过联网验机
  • 预过滤环境光贴图制作教程:第四阶段 - Lambert 无权重预过滤(Stage 3)
  • 三、Linux用户与权限管理详解
  • Redis内存使用耗尽情况分析
  • 编辑距离:理论基础、算法演进与跨领域应用
  • Windows使用Powershell自动安装SqlServer2025服务器与SSMS管理工具
  • css3之三维变换详说
  • Qt 多线程界面更新策略
  • 如何在Windows操作系统上通过conda 安装 MDAnalysis
  • 激光雷达/相机一体机 时间同步和空间标定(1)
  • 自然语言处理NLP(3)
  • leetcode 74. 搜索二维矩阵
  • 柔性生产前端动态适配:小批量换型场景下的参数配置智能切换技术
  • 汇总10个高质量免费AI生成论文网站,支持GPT4.0和DeepSeek-R1
  • cpolar 内网穿透 ubuntu 使用石
  • 2025年06月 C/C++(二级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • go install报错: should be v0 or v1, not v2问题解决
  • 【自制组件库】从零到一实现属于自己的 Vue3 组件库!!!
  • P2910 [USACO08OPEN] Clear And Present Danger S
  • 四、Linux核心工具:Vim, 文件链接与SSH
  • 永磁同步电机无速度算法--静态补偿电压模型Harnefors观测器
  • 人工智能技术革命:AI工具与大模型如何重塑开发者工作模式与行业格局
  • Linux 完整删除 Systemd 服务的步骤
  • redis得到shell的几种方法
  • 如何使用Spring AI框架开发mcp接口并发布成微服务