当前位置：首页 > news >正文

进阶日记（一）大模型的本地部署与运行

news 2025/6/3 20:15:43

一、背景知识

为什么要在本地部署大模型？

在本地部署大模型需要做哪些准备工作？

（1）硬件配置

（2）软件环境

有哪些部署工具可供选择？

二、Ollma安装

Ollama安装完之后，还需要进行环境变量的配置

配置完环境变量后，就可以从Ollama上下载模型到本地了

接上一篇（非科班大模型工程师进阶日记（〇）），这次我们来试试本地部署一个大模型。

开门见山，要想在本地部署自己的大模型，大致可以分以下几步：

But，光了解操作步骤是不够的，下面我们先从背景知识开始进行一些简单的介绍。

一、背景知识

注：不了解以下背景知识并不会对后续的安装部署产生决定性影响，但是授人以鱼不如授人以渔，大家各取所需就好。

本地部署的核心价值在于自主性与安全性，尤其适合对数据隐私、响应速度或定制化有高需求的场景：

数据主权保障
- 敏感数据（如企业文档、个人隐私）无需上传云端，避免第三方泄露风险。例如扬州环境监测中心部署DeepSeek-R1，就是因环境数据涉及国家安全，必须本地处理5。
性能与响应优化
- 本地推理消除网络延迟，实现毫秒级响应（如实时数据分析、边缘计算场景）16。
长期成本可控
- 云端模型按Token计费，高频使用成本高昂；本地部署一次性投入硬件，后续近乎零成本67。
高度定制化能力
- 支持模型微调（如LoRA、P-Tuning）、知识库集成（上传私有文档训练），突破公版模型的功能限制18。

💡 典型场景：企业机密数据处理、离线环境应用（野外监测）、个性化AI助手开发。

根据模型规模选择硬件，显存是关键瓶颈：

模型规模	最低配置	推荐配置	适用工具
7B参数	16GB内存 + RTX 3060 (6GB)	32GB内存 + RTX 3070 (8GB)	Ollama, LM Studio
13B参数	32GB内存 + RTX 3090 (24GB)	64GB内存 + 双RTX 4090	vLLM, LLaMA.cpp
70B参数	64GB内存 + 多A100显卡	服务器级CPU+128GB内存+8×A100 GPU	vLLM（企业级）37

⚠️ 注意：若无独立显卡，可用CPU+大内存运行量化模型（但速度显著下降）。

在进行大模型本地部署时，需要根据自己的技术背景和需求，选择合适工具。

工具	特点	适用场景	安装复杂度
Ollama	命令行操作，一键运行模型，支持多平台	快速体验、轻量测试	⭐
LM Studio	图形界面，可视化下载/运行模型（Hugging Face集成）	非技术用户、隐私敏感场景	⭐⭐
vLLM	高性能推理框架，支持分布式部署、API服务化	企业级高并发需求	⭐⭐⭐⭐
LLaMA.cpp	CPU/GPU通用，资源占用低（C++编写）	老旧硬件或低显存设备	⭐⭐⭐
GPT4All	开源轻量化，自动调用GPU加速	个人开发者、跨平台应用	⭐⭐

示例：Ollama部署DeepSeek-R1（适合新手，也是本次教程的选用方案）

# 安装Ollama（Linux一键命令）
curl -fsSL https://ollama.com/install.sh | sh# 运行7B参数模型
ollama run deepseek-r1:7b

OK，了解完以上知识，开展下面的工作就不会云里雾里，知其然而不知其所以然了。

Ollama是一个用于本地运行和管理大语言模型(LLM)的工具。

Ollama的安装，直接上官网Download即可，不放心的可以看这篇教程：Ollama 安装。

（必选）OLLAMA_HOST - 0.0.0.0:11434

作用：默认条件下，Ollma只能通过本机访问，但出于便捷性考虑，我们这次部署是通过Docker进行，配置这一环境变量就是为了让虚拟机里的RAGFlow能够访问到本机上的 Ollama；（具体原理参见：配置Ollama环境变量，实现远程访问）
如果配置后虚拟机无法访问，可能是你的本机防火墙拦截了端口11434；
不想直接暴露 11434 端口则可通过SSH 端口转发来实现虚拟机访问。

（可选）OLLAMA_MODELS - 自定义位置