当前位置: 首页 > news >正文

进阶日记(一)大模型的本地部署与运行

目录

一、背景知识

为什么要在本地部署大模型?

在本地部署大模型需要做哪些准备工作?

(1)硬件配置

(2)软件环境

有哪些部署工具可供选择?

二、Ollma安装

Ollama安装完之后,还需要进行环境变量的配置

配置完环境变量后,就可以从Ollama上下载模型到本地了


接上一篇(非科班大模型工程师进阶日记(〇)),这次我们来试试本地部署一个大模型。

开门见山,要想在本地部署自己的大模型,大致可以分以下几步:

  1. 下载Ollama,通过Ollama将DeepSeek模型下载到本地运行;
  2. 下载RAGflow源代码和Docker,通过Docker来本地部署RAGflow;
  3. 在RAGflow中构建个人知识库并实现基于个人知识库的对话问答。

But,光了解操作步骤是不够的,下面我们先从背景知识开始进行一些简单的介绍。

一、背景知识

注:不了解以下背景知识并不会对后续的安装部署产生决定性影响,但是授人以鱼不如授人以渔,大家各取所需就好。

为什么要在本地部署大模型?

本地部署的核心价值在于自主性安全性,尤其适合对数据隐私、响应速度或定制化有高需求的场景:

  1. 数据主权保障

    • 敏感数据(如企业文档、个人隐私)无需上传云端,避免第三方泄露风险。例如扬州环境监测中心部署DeepSeek-R1,就是因环境数据涉及国家安全,必须本地处理5。

  2. 性能与响应优化

    • 本地推理消除网络延迟,实现毫秒级响应(如实时数据分析、边缘计算场景)16。

  3. 长期成本可控

    • 云端模型按Token计费,高频使用成本高昂;本地部署一次性投入硬件,后续近乎零成本67。

  4. 高度定制化能力

    • 支持模型微调(如LoRA、P-Tuning)、知识库集成(上传私有文档训练),突破公版模型的功能限制18。

💡 典型场景:企业机密数据处理、离线环境应用(野外监测)、个性化AI助手开发。

在本地部署大模型需要做哪些准备工作?

(1)硬件配置

根据模型规模选择硬件,显存是关键瓶颈:

模型规模最低配置推荐配置适用工具
7B参数16GB内存 + RTX 3060 (6GB)32GB内存 + RTX 3070 (8GB)Ollama, LM Studio
13B参数32GB内存 + RTX 3090 (24GB)64GB内存 + 双RTX 4090vLLM, LLaMA.cpp
70B参数64GB内存 + 多A100显卡服务器级CPU+128GB内存+8×A100 GPUvLLM(企业级)37

⚠️ 注意:若无独立显卡,可用CPU+大内存运行量化模型(但速度显著下降)。

(2)软件环境
  • 操作系统:Linux(最佳兼容性)、Windows/MacOS

  • 基础依赖

    • Python 3.8+、CUDA工具包(NVIDIA显卡必需)

    • 深度学习框架:PyTorch或TensorFlow6

  • 虚拟环境:建议用Conda隔离依赖(避免版本冲突)


有哪些部署工具可供选择?

在进行大模型本地部署时,需要根据自己的技术背景和需求,选择合适工具。

工具特点适用场景安装复杂度
Ollama命令行操作,一键运行模型,支持多平台快速体验、轻量测试
LM Studio图形界面,可视化下载/运行模型(Hugging Face集成)非技术用户、隐私敏感场景⭐⭐
vLLM高性能推理框架,支持分布式部署、API服务化企业级高并发需求⭐⭐⭐⭐
LLaMA.cppCPU/GPU通用,资源占用低(C++编写)老旧硬件或低显存设备⭐⭐⭐
GPT4All开源轻量化,自动调用GPU加速个人开发者、跨平台应用⭐⭐

示例:Ollama部署DeepSeek-R1(适合新手,也是本次教程的选用方案)

# 安装Ollama(Linux一键命令)
curl -fsSL https://ollama.com/install.sh | sh# 运行7B参数模型
ollama run deepseek-r1:7b

OK,了解完以上知识,开展下面的工作就不会云里雾里,知其然而不知其所以然了。

二、Ollma安装

Ollama是一个用于本地运行和管理大语言模型(LLM)的工具。

Ollama的安装,直接上官网Download即可,不放心的可以看这篇教程:Ollama 安装。

Ollama安装完之后,还需要进行环境变量的配置:

(必选)OLLAMA_HOST - 0.0.0.0:11434

  • 作用:默认条件下,Ollma只能通过本机访问,但出于便捷性考虑,我们这次部署是通过Docker进行,配置这一环境变量就是为了让虚拟机里的RAGFlow能够访问到本机上的 Ollama;(具体原理参见:配置Ollama环境变量,实现远程访问
  • 如果配置后虚拟机无法访问,可能是你的本机防火墙拦截了端口11434;
  • 不想直接暴露 11434 端口则可通过SSH 端口转发来实现虚拟机访问。

(可选)OLLAMA_MODELS - 自定义位置

  • 作用:Ollama 默认会把模型下载到C盘,如果希望下载到其他盘需要进行这一配置。

更新完两个环境变量记得重启,不然无法立即生效。

配置完环境变量后,就可以从Ollama上下载模型到本地了:

这次我们以Deepseek-R1:8b为例,需要注意的是,模型越大对本地机器配置要求越高,一般来说deepseek 32b就能达到不错的效果,更高的不一定能跑的起来。

 配置及模型选择可参考:个人用户进行LLMs本地部署前如何自查和筛选

下载方式就是复制Ollama官网提供的相应指令,通过电脑命令行进行下载(Windows+R、cmd)

ollama run deepseek-r1:8b

下载完成后,可以直接在命令行窗口进行问答,至此,你就成功完成了大模型的本地化部署!

Congrats!

本地化部署虽然是很简单的一步,却为未来打开了更多可能性。但是,做到这里还不算完全拥有了自己的大模型,下一篇我会讲如何结合RAGFlow来构建自己的本地知识库,从而让DeepSeek更懂你的需求。

祝大家玩儿的开心!

See you next time!:)

http://www.xdnf.cn/news/763669.html

相关文章:

  • MATLAB实战:人脸检测与识别实现方案
  • 并发执行问题 (上)
  • 【计网】第六章(网络层)习题测试
  • Linux正则三剑客篇
  • 【火山引擎 大模型批量推理数据教程---详细讲解一篇过!】
  • 哈希:闭散列的开放定址法
  • #14 【Kaggle】 Drawing with LLMs 金牌方案赏析
  • 简析PointNet++
  • leetcode0404. 左叶子之和-easy
  • 对选择基于模型编程(MBD)的工作对职业发展影响的讨论 (2025)
  • 【Bluedroid】蓝牙启动之 l2c_init 源码解析
  • 字符函数和字符串函数(1)
  • 上位机知识篇---直接无线数据通信
  • 线程与进程
  • 【Dv3Admin】系统视图用户管理API文件解析
  • Redis 架构设计
  • Kali Linux从入门到实战:系统详解与工具指南
  • Fréchet Inception Distance(FID)
  • ubuntu系统更换镜像源
  • [GESP202412 五级] 奇妙数字
  • java 多线程中的volatile关键字作用
  • 【JavaScript-Day 28】告别繁琐循环:`forEach`, `map`, `filter` 数组遍历三剑客详解
  • c++之循环
  • java CountDownLatch‌
  • 题海拾贝:压缩字符串
  • 详解鸿蒙开发如何上传三方库到ohpm仓库
  • 【Dv3Admin】系统视图系统配置API文件解析
  • 017搜索之深度优先DFS——算法备赛
  • java ExecutorService线程池使用(ExecutorService/Completable异步+ExecutorService线程池)
  • Office安装包2024版