当前位置: 首页 > web >正文

快速搭建DeepSeek本地RAG应用 - 超详细指南

本文纯干货分享,干巴文章大家自带咖啡

带你从零开始搭建一个完整的本地RAG(检索增强生成)应用,使用DeepSeek系列模型、Ollama框架和开源向量数据库,支持中文和多语言文档处理。

一、环境准备与安装

1.1 硬件要求

  • 最低配置:8GB内存 + 4核CPU(运行1.5B小模型)

  • 推荐配置:16GB以上内存 + NVIDIA GPU(运行7B及以上模型)

  • 存储空间:至少20GB可用空间(用于模型和向量数据库)

1.2 软件安装

1.2.1 安装Ollama

Ollama是本地运行大模型的工具,支持Windows/Mac/Linux:

bash

# Linux/macOS一键安装
curl -fsSL https://ollama.com/install.sh | sh# Windows用户从官网下载安装包
# https://ollama.com/download

验证安装:

bash

ollama --version
1.2.2 安装Python环境

推荐使用Python 3.9+:

bash

# 创建虚拟环境
python -m venv rag_env
source rag_env/bin/activate  # Linux/macOS
# Windows: rag_env\Scripts\activate# 安装核心依赖
pip install langchain chromadb sentence-transformers unstructured pdfplumber
1.2.3 下载模型

拉取DeepSeek R1生成模型和嵌入模型:

bash

# 生成模型(7B参数版本)
ollama pull deepseek-r1# 嵌入模型(用于文本向量化)
ollama pull nomic-embed-text# 备用小模型(低配置设备)
ollama pull deepseek-r1:1.5b

二、项目结构搭建

创建项目目录结构:

my_rag_app/
├── data/                  # 存放原始文档
├── chroma_db/             # 向量数据库存储
├── configs/               # 配置文件
│   └── prompts.yaml       # 提示词模板
├── scripts/               # 辅助脚本
├── app.py                 # 主应用
└── requirements.txt       # 依赖列表

三、文档处理流程

3.1 支持的文件类型

  • PDF

  • Word (.docx)

  • Excel (.xlsx)

  • PowerPoint (.pptx)

  • TXT

  • Markdown

  • HTML

3.2 文档加载与分割

创建document_processor.py

python

from langchain.document_loaders import (PDFPlumberLoader,UnstructuredWordDocumentLoader,UnstructuredExcelLoader,TextLoader
)
from langchain.text_splitter import RecursiveCharacterTextSplitterclass DocumentProcessor:def __init__(self):self.text_splitter = RecursiveCharacterTextSplitter(chunk_size=500,chunk_overlap=50,length_function=len,add_start_index=True)def load_document(self, file_path):if file_path.endswith('.pdf'):loader = PDFPlumberLoader(file_path)elif file_path.endswith('.docx'):loader = UnstructuredWordDocumentLoader(file_path)elif file_path.endswith('.xlsx'):loader = UnstructuredExcelLoader(file_path)else:loader = TextLoader(file_path)return loader.load()def process_documents(self, file_paths):all_splits = []for path in file_paths:docs = self.load_document(path)splits = self.text_splitter.split_documents(docs)all_splits.extend(splits)return all_splits

四、向量数据库搭建

4.1 初始化向量数据库

创建vector_db.py

python

from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings
import osclass VectorDB:def __init__(self, persist_dir="./chroma_db"):self.embedding_model = HuggingFaceEmbeddings(model_name="nomic-ai/nomic-embed-text-v1",model_kwargs={'device': 'cpu'}  # 有GPU可改为'cuda')self.persist_dir = persist_diros.makedirs(persist_dir, exist_ok=True)def create_store(self, documents):return Chroma.from_documents(documents=documents,embedding=self.embedding_model,persist_directory=self.persist_dir)def load_store(self):return Chroma(persist_directory=self.persist_dir,embedding_function=self.embedding_model)

4.2 批量导入文档

创建ingest.py脚本:

python

from document_processor import DocumentProcessor
from vector_db import VectorDB
import globdef main():# 获取data目录下所有文档doc_paths = glob.glob("./data/*")# 处理文档processor = DocumentProcessor()splits = processor.process_documents(doc_paths)# 创建向量存储vector_db = VectorDB()vector_store = vector_db.create_store(splits)print(f"已成功导入 {len(splits)} 个文档片段")if __name__ == "__main__":main()

运行:

bash

python ingest.py

五、RAG问答系统实现

5.1 配置提示词模板

创建configs/prompts.yaml

yaml

qa_template: |请根据以下上下文信息回答问题。如果不知道答案,就说你不知道,不要编造答案。上下文:{context}问题:{question}答案:

5.2 构建问答链

创建rag_chain.py

python

from langchain.chains import RetrievalQA
from langchain.prompts import load_prompt
from langchain.llms import Ollama
from vector_db import VectorDB
import osclass RAGChain:def __init__(self):# 加载向量数据库self.vector_db = VectorDB()self.vector_store = self.vector_db.load_store()# 初始化LLMself.llm = Ollama(model="deepseek-r1",temperature=0.3,top_p=0.9)# 加载提示词self.qa_prompt = load_prompt(os.path.join("configs", "prompts.yaml"))def get_qa_chain(self):return RetrievalQA.from_chain_type(llm=self.llm,chain_type="stuff",retriever=self.vector_store.as_retriever(search_type="mmr",  # 最大边际相关性搜索search_kwargs={"k": 4}),chain_type_kwargs={"prompt": self.qa_prompt},return_source_documents=True)

5.3 主应用实现

创建app.py

python

from rag_chain import RAGChain
import argparsedef main():# 初始化RAG链rag = RAGChain()qa_chain = rag.get_qa_chain()# 命令行交互parser = argparse.ArgumentParser()parser.add_argument("--question", type=str, help="直接提问的问题")args = parser.parse_args()if args.question:# 命令行模式result = qa_chain({"query": args.question})print("\n答案:", result["result"])print("\n来源文档:")for doc in result["source_documents"]:print("-", doc.metadata["source"], "第", doc.metadata.get("page", "N/A"), "页")else:# 交互模式print("RAG系统已启动,输入'exit'退出")while True:question = input("\n你的问题: ")if question.lower() in ['exit', 'quit']:breakresult = qa_chain({"query": question})print("\n答案:", result["result"])print("\n来源文档:")for doc in result["source_documents"]:print("-", doc.metadata["source"], "第", doc.metadata.get("page", "N/A"), "页")if __name__ == "__main__":main()

六、运行与测试

6.1 启动应用

bash

# 交互模式
python app.py# 命令行直接提问
python app.py --question "你的问题是什么?"

6.2 测试示例

假设我们导入了一份关于人工智能的白皮书:

问题:人工智能的主要应用领域有哪些?答案:根据文档内容,人工智能的主要应用领域包括:
1. 医疗健康(医学影像分析、辅助诊断)
2. 金融服务(风险管理、量化交易)
3. 智能制造(质量检测、预测性维护)
4. 零售电商(个性化推荐、智能客服)来源文档:
- AI_白皮书.pdf 第 15 页
- AI_白皮书.pdf 第 23 页

七、高级配置与优化

7.1 性能优化

  1. GPU加速

    python

    # 在vector_db.py中修改
    self.embedding_model = HuggingFaceEmbeddings(model_name="nomic-ai/nomic-embed-text-v1",model_kwargs={'device': 'cuda'}  # 使用GPU
    )
  2. 量化模型(减少内存占用):

    bash

    ollama pull deepseek-r1:4bit  # 4位量化版本

7.2 多语言支持

  1. 切换嵌入模型:

    bash

    ollama pull multilingual-e5-large  # 多语言嵌入模型
  2. 修改vector_db.py

    python

    self.embedding_model = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large"
    )

7.3 自定义检索策略

修改rag_chain.py中的检索参数:

python

retriever=self.vector_store.as_retriever(search_type="similarity_score_threshold",search_kwargs={"k": 5,"score_threshold": 0.5  # 相似度阈值}
)

八、常见问题解决

8.1 Ollama服务问题

症状:连接Ollama服务失败
解决

bash

# 确保服务运行
ollama serve# 检查环境变量
export OLLAMA_HOST=127.0.0.1:11434

8.2 内存不足

症状:加载模型时崩溃
解决

  1. 使用小模型:ollama pull deepseek-r1:1.5b

  2. 添加交换空间(Linux):

    bash

    sudo fallocate -l 4G /swapfile
    sudo chmod 600 /swapfile
    sudo mkswap /swapfile
    sudo swapon /swapfile

8.3 中文支持不佳

症状:中文回答质量差
解决

  1. 使用中文提示词模板

  2. 尝试专用中文模型:

    bash

    ollama pull qwen:7b  # 阿里通义千问

九、部署选项

9.1 本地Web界面

安装Gradio创建简单UI:

bash

pip install gradio

创建web_ui.py

python

import gradio as gr
from rag_chain import RAGChainrag = RAGChain()
qa_chain = rag.get_qa_chain()def respond(question):result = qa_chain({"query": question})sources = "\n".join([f"- {doc.metadata['source']}" for doc in result["source_documents"]])return f"{result['result']}\n\n来源文档:\n{sources}"iface = gr.Interface(fn=respond,inputs="text",outputs="text",title="DeepSeek RAG 问答系统"
)iface.launch(server_name="0.0.0.0")

运行:

bash

python web_ui.py

9.2 Docker部署

创建Dockerfile

dockerfile

FROM python:3.9-slimWORKDIR /app
COPY . .RUN apt-get update && apt-get install -y \gcc \python3-dev \&& rm -rf /var/lib/apt/lists/*RUN pip install -r requirements.txtEXPOSE 7860
CMD ["python", "web_ui.py"]

构建并运行:

bash

docker build -t rag-app .
docker run -p 7860:7860 rag-app

十、项目扩展思路

  1. 多文档管理:添加文档删除/更新功能

  2. 对话历史:实现多轮对话记忆

  3. API服务:使用FastAPI创建REST接口

  4. 定时同步:监控文档目录自动更新向量库

  5. 混合检索:结合关键词和向量搜索


通过本文,你已经成功搭建了一个功能完整的本地RAG应用。这个系统可以处理多种文档格式,支持中文问答,并且完全在本地运行,保障了数据隐私。根据你的需求,可以进一步扩展功能或优化性能。

http://www.xdnf.cn/news/7614.html

相关文章:

  • AI无法解决的Bug系列(一)跨时区日期过滤问题
  • 【Code】Foundations 2017- Catalogue, List of Tables, List of Figures
  • 【Tools】neovim操作指南
  • 【nRF9160 常用prj.conf配置与AT指令介绍】
  • 建筑设备分散管理痛点如何解?楼宇自控系统给出破局之道
  • 编程日志5.13
  • 2025.05.20【Treemap】树图数据可视化技巧
  • 专题六:记忆化搜索(递归优化的秘密武器)
  • 深入理解Redis Cluster:架构、原理与实践
  • Oracle资源管理器
  • Oracle ASM Rebalance Power 了解
  • Linux线程互斥与同步(上)(29)
  • 2025年PMP 学习二十三 16章 高级项目管理
  • Python的sys模块:系统交互的关键纽带
  • MySQL性能调优:从查询优化到分库分表
  • ubuntu14.04/16.06 安装vscode(实测可以用)
  • 在 Azure OpenAI 上使用 Elastic 优化支出和内容审核
  • 【Go-2】基本语法与数据类型
  • 基于C#的Modbus通信协议全面解析与实现指南
  • 文件操作和IO-2 使用Java操作文件
  • 迪菲-赫尔曼密钥交换算法深度解析
  • Java并发进阶系列:深度讨论官方关于jdk1.8ConcurrentHashMap的computeIfAbsent源代码修复逻辑
  • OpenCV 第6课 图像处理之几何变换(重映射)
  • javascript个人笔记 闭包/this/解构赋值/模板字符串/模块化
  • JavaScript计时器详解:setTimeout与setInterval的使用与注意事项
  • DNS:互联网的“通讯录”——计算机网络应用层中的域名系统详解
  • Android Framework学习七:Handler、Looper、Message
  • 力扣-快乐数
  • 便捷的Office批量转PDF工具
  • MinIO的安装和使用