当前位置：首页 > web >正文

快速搭建DeepSeek本地RAG应用 - 超详细指南

web 2025/8/20 11:26:25

本文纯干货分享，干巴文章大家自带咖啡

带你从零开始搭建一个完整的本地RAG(检索增强生成)应用，使用DeepSeek系列模型、Ollama框架和开源向量数据库，支持中文和多语言文档处理。

一、环境准备与安装

1.1 硬件要求

最低配置：8GB内存 + 4核CPU（运行1.5B小模型）
推荐配置：16GB以上内存 + NVIDIA GPU（运行7B及以上模型）
存储空间：至少20GB可用空间（用于模型和向量数据库）

1.2 软件安装

1.2.1 安装Ollama

Ollama是本地运行大模型的工具，支持Windows/Mac/Linux：

bash

# Linux/macOS一键安装
curl -fsSL https://ollama.com/install.sh | sh# Windows用户从官网下载安装包
# https://ollama.com/download

验证安装：

bash

ollama --version

1.2.2 安装Python环境

推荐使用Python 3.9+：

bash

# 创建虚拟环境
python -m venv rag_env
source rag_env/bin/activate  # Linux/macOS
# Windows: rag_env\Scripts\activate# 安装核心依赖
pip install langchain chromadb sentence-transformers unstructured pdfplumber

1.2.3 下载模型

拉取DeepSeek R1生成模型和嵌入模型：

bash

# 生成模型（7B参数版本）
ollama pull deepseek-r1# 嵌入模型（用于文本向量化）
ollama pull nomic-embed-text# 备用小模型（低配置设备）
ollama pull deepseek-r1:1.5b

二、项目结构搭建

创建项目目录结构：

my_rag_app/
├── data/                  # 存放原始文档
├── chroma_db/             # 向量数据库存储
├── configs/               # 配置文件
│   └── prompts.yaml       # 提示词模板
├── scripts/               # 辅助脚本
├── app.py                 # 主应用
└── requirements.txt       # 依赖列表

三、文档处理流程

3.1 支持的文件类型

PDF
Word (.docx)
Excel (.xlsx)
PowerPoint (.pptx)
TXT
Markdown
HTML

3.2 文档加载与分割

创建document_processor.py：

python

from langchain.document_loaders import (PDFPlumberLoader,UnstructuredWordDocumentLoader,UnstructuredExcelLoader,TextLoader
)
from langchain.text_splitter import RecursiveCharacterTextSplitterclass DocumentProcessor:def __init__(self):self.text_splitter = RecursiveCharacterTextSplitter(chunk_size=500,chunk_overlap=50,length_function=len,add_start_index=True)def load_document(self, file_path):if file_path.endswith('.pdf'):loader = PDFPlumberLoader(file_path)elif file_path.endswith('.docx'):loader = UnstructuredWordDocumentLoader(file_path)elif file_path.endswith('.xlsx'):loader = UnstructuredExcelLoader(file_path)else:loader = TextLoader(file_path)return loader.load()def process_documents(self, file_paths):all_splits = []for path in file_paths:docs = self.load_document(path)splits = self.text_splitter.split_documents(docs)all_splits.extend(splits)return all_splits

四、向量数据库搭建

4.1 初始化向量数据库

创建vector_db.py：

python

from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings
import osclass VectorDB:def __init__(self, persist_dir="./chroma_db"):self.embedding_model = HuggingFaceEmbeddings(model_name="nomic-ai/nomic-embed-text-v1",model_kwargs={'device': 'cpu'}  # 有GPU可改为'cuda')self.persist_dir = persist_diros.makedirs(persist_dir, exist_ok=True)def create_store(self, documents):return Chroma.from_documents(documents=documents,embedding=self.embedding_model,persist_directory=self.persist_dir)def load_store(self):return Chroma(persist_directory=self.persist_dir,embedding_function=self.embedding_model)

4.2 批量导入文档

创建ingest.py脚本：

python

from document_processor import DocumentProcessor
from vector_db import VectorDB
import globdef main():# 获取data目录下所有文档doc_paths = glob.glob("./data/*")# 处理文档processor = DocumentProcessor()splits = processor.process_documents(doc_paths)# 创建向量存储vector_db = VectorDB()vector_store = vector_db.create_store(splits)print(f"已成功导入 {len(splits)} 个文档片段")if __name__ == "__main__":main()

运行：

bash

python ingest.py

五、RAG问答系统实现

5.1 配置提示词模板

创建configs/prompts.yaml：

yaml

qa_template: |请根据以下上下文信息回答问题。如果不知道答案，就说你不知道，不要编造答案。上下文：{context}问题：{question}答案：

5.2 构建问答链

创建rag_chain.py：

python

from langchain.chains import RetrievalQA
from langchain.prompts import load_prompt
from langchain.llms import Ollama
from vector_db import VectorDB
import osclass RAGChain:def __init__(self):# 加载向量数据库self.vector_db = VectorDB()self.vector_store = self.vector_db.load_store()# 初始化LLMself.llm = Ollama(model="deepseek-r1",temperature=0.3,top_p=0.9)# 加载提示词self.qa_prompt = load_prompt(os.path.join("configs", "prompts.yaml"))def get_qa_chain(self):return RetrievalQA.from_chain_type(llm=self.llm,chain_type="stuff",retriever=self.vector_store.as_retriever(search_type="mmr",  # 最大边际相关性搜索search_kwargs={"k": 4}),chain_type_kwargs={"prompt": self.qa_prompt},return_source_documents=True)

5.3 主应用实现

创建app.py：

python

from rag_chain import RAGChain
import argparsedef main():# 初始化RAG链rag = RAGChain()qa_chain = rag.get_qa_chain()# 命令行交互parser = argparse.ArgumentParser()parser.add_argument("--question", type=str, help="直接提问的问题")args = parser.parse_args()if args.question:# 命令行模式result = qa_chain({"query": args.question})print("\n答案:", result["result"])print("\n来源文档:")for doc in result["source_documents"]:print("-", doc.metadata["source"], "第", doc.metadata.get("page", "N/A"), "页")else:# 交互模式print("RAG系统已启动，输入'exit'退出")while True:question = input("\n你的问题: ")if question.lower() in ['exit', 'quit']:breakresult = qa_chain({"query": question})print("\n答案:", result["result"])print("\n来源文档:")for doc in result["source_documents"]:print("-", doc.metadata["source"], "第", doc.metadata.get("page", "N/A"), "页")if __name__ == "__main__":main()

六、运行与测试

6.1 启动应用

bash

# 交互模式
python app.py# 命令行直接提问
python app.py --question "你的问题是什么？"

6.2 测试示例

假设我们导入了一份关于人工智能的白皮书：

问题：人工智能的主要应用领域有哪些？答案：根据文档内容，人工智能的主要应用领域包括：
1. 医疗健康（医学影像分析、辅助诊断）
2. 金融服务（风险管理、量化交易）
3. 智能制造（质量检测、预测性维护）
4. 零售电商（个性化推荐、智能客服）来源文档：
- AI_白皮书.pdf 第 15 页
- AI_白皮书.pdf 第 23 页

七、高级配置与优化

7.1 性能优化

GPU加速：

python

# 在vector_db.py中修改
self.embedding_model = HuggingFaceEmbeddings(model_name="nomic-ai/nomic-embed-text-v1",model_kwargs={'device': 'cuda'}  # 使用GPU
)

量化模型（减少内存占用）：

bash

ollama pull deepseek-r1:4bit  # 4位量化版本

7.2 多语言支持

切换嵌入模型：

bash

ollama pull multilingual-e5-large  # 多语言嵌入模型

修改vector_db.py：

python

self.embedding_model = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large"
)

7.3 自定义检索策略

修改rag_chain.py中的检索参数：

python

retriever=self.vector_store.as_retriever(search_type="similarity_score_threshold",search_kwargs={"k": 5,"score_threshold": 0.5  # 相似度阈值}
)

八、常见问题解决

8.1 Ollama服务问题

症状：连接Ollama服务失败
解决：

bash

# 确保服务运行
ollama serve# 检查环境变量
export OLLAMA_HOST=127.0.0.1:11434

8.2 内存不足

症状：加载模型时崩溃
解决：

使用小模型：ollama pull deepseek-r1:1.5b

添加交换空间（Linux）：

bash

sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

8.3 中文支持不佳

症状：中文回答质量差
解决：

使用中文提示词模板

尝试专用中文模型：

bash

ollama pull qwen:7b  # 阿里通义千问

九、部署选项

9.1 本地Web界面

安装Gradio创建简单UI：

bash

pip install gradio

创建web_ui.py：

python

import gradio as gr
from rag_chain import RAGChainrag = RAGChain()
qa_chain = rag.get_qa_chain()def respond(question):result = qa_chain({"query": question})sources = "\n".join([f"- {doc.metadata['source']}" for doc in result["source_documents"]])return f"{result['result']}\n\n来源文档:\n{sources}"iface = gr.Interface(fn=respond,inputs="text",outputs="text",title="DeepSeek RAG 问答系统"
)iface.launch(server_name="0.0.0.0")

运行：

bash

python web_ui.py

9.2 Docker部署

创建Dockerfile：

dockerfile

FROM python:3.9-slimWORKDIR /app
COPY . .RUN apt-get update && apt-get install -y \gcc \python3-dev \&& rm -rf /var/lib/apt/lists/*RUN pip install -r requirements.txtEXPOSE 7860
CMD ["python", "web_ui.py"]

构建并运行：

bash

docker build -t rag-app .
docker run -p 7860:7860 rag-app

十、项目扩展思路

多文档管理：添加文档删除/更新功能
对话历史：实现多轮对话记忆
API服务：使用FastAPI创建REST接口
定时同步：监控文档目录自动更新向量库
混合检索：结合关键词和向量搜索

通过本文，你已经成功搭建了一个功能完整的本地RAG应用。这个系统可以处理多种文档格式，支持中文问答，并且完全在本地运行，保障了数据隐私。根据你的需求，可以进一步扩展功能或优化性能。

查看全文

http://www.xdnf.cn/news/7614.html

AI无法解决的Bug系列（一）跨时区日期过滤问题

【Code】Foundations 2017- Catalogue, List of Tables, List of Figures

【Tools】neovim操作指南

【nRF9160 常用prj.conf配置与AT指令介绍】

建筑设备分散管理痛点如何解？楼宇自控系统给出破局之道

编程日志5.13

2025.05.20【Treemap】树图数据可视化技巧

专题六：记忆化搜索（递归优化的秘密武器）

深入理解Redis Cluster：架构、原理与实践

Oracle资源管理器

Oracle ASM Rebalance Power 了解

Linux线程互斥与同步(上)(29)

2025年PMP 学习二十三 16章高级项目管理

Python的sys模块：系统交互的关键纽带

MySQL性能调优：从查询优化到分库分表

ubuntu14.04/16.06 安装vscode（实测可以用）

在 Azure OpenAI 上使用 Elastic 优化支出和内容审核

【Go-2】基本语法与数据类型

基于C#的Modbus通信协议全面解析与实现指南

文件操作和IO-2 使用Java操作文件

迪菲-赫尔曼密钥交换算法深度解析

Java并发进阶系列：深度讨论官方关于jdk1.8ConcurrentHashMap的computeIfAbsent源代码修复逻辑

OpenCV 第6课图像处理之几何变换（重映射）

javascript个人笔记闭包/this/解构赋值/模板字符串/模块化

JavaScript计时器详解：setTimeout与setInterval的使用与注意事项

DNS：互联网的“通讯录”——计算机网络应用层中的域名系统详解

Android Framework学习七：Handler、Looper、Message

力扣-快乐数

便捷的Office批量转PDF工具

MinIO的安装和使用

一、环境准备与安装

1.1 硬件要求

1.2 软件安装

1.2.1 安装Ollama

1.2.2 安装Python环境

1.2.3 下载模型

二、项目结构搭建

三、文档处理流程

3.1 支持的文件类型

3.2 文档加载与分割

四、向量数据库搭建

4.1 初始化向量数据库

4.2 批量导入文档

五、RAG问答系统实现

5.1 配置提示词模板

5.2 构建问答链

5.3 主应用实现

六、运行与测试

6.1 启动应用

6.2 测试示例

七、高级配置与优化

7.1 性能优化

7.2 多语言支持

7.3 自定义检索策略

八、常见问题解决

8.1 Ollama服务问题

8.2 内存不足

8.3 中文支持不佳

九、部署选项

9.1 本地Web界面

9.2 Docker部署

十、项目扩展思路

相关文章：