当前位置: 首页 > ai >正文

DeepSeek11-Ollama + Open WebUI 搭建本地 RAG 知识库全流程指南

🛠️ Ollama + Open WebUI 搭建本地 RAG 知识库全流程指南

💻 一、环境准备
# 1. 安装 Docker 和 Docker Compose
sudo apt update && sudo apt install docker.io docker-compose -y# 2. 添加用户到 docker 组(避免 sudo 权限)
sudo usermod -aG docker $USER && newgrp docker# 3. 安装 Ollama(模型运行引擎)
curl -fsSL https://ollama.com/install.sh | sh
🐋 二、部署核心组件
# 1. 创建项目目录
mkdir ollama-rag && cd ollama-rag# 2. 创建 docker-compose.yml 配置文件
cat > docker-compose.yml << EOF
version: '3.8'
services:open-webui:image: ghcr.io/open-webui/open-webui:maincontainer_name: open-webuiports:- "3000:8080"  # Web 访问端口volumes:- ./data:/app/backend/datadepends_on:- ollamarestart: unless-stoppedollama:image: ollama/ollamacontainer_name: ollamaports:- "11434:11434"  # Ollama API 端口volumes:- ./ollama:/root/.ollama  # 模型存储目录restart: unless-stopped
EOF# 3. 启动服务
docker-compose up -d
⚙️ 三、模型配置与知识库构建
# 1. 下载嵌入模型(示例用 BGE-M3)
docker exec -it ollama ollama pull bge-m3# 2. 下载推理模型(示例用 Qwen2:7B)
docker exec -it ollama ollama pull qwen2:7b# 3. 下载重排序模型
docker exec -it ollama ollama pull qwen-reranker:4b-q4_k# 4. 访问 Open WebUI
# 浏览器打开:http://localhost:3000
# 首次登录创建管理员账户
📂 四、知识库配置(Open WebUI 操作)
1. 进入配置界面:
  • 点击“左下角”的【用户图标】,弹出快捷菜单,然后点击【Admin Panel】(【管理员面板】)
  • 顶部菜单选择【设置】(【Settings】),然后左侧菜单选择【文档】(【Documents】)
2. 配置模型
嵌入(Embedding)
语义向量模型引擎(Embedding Model Engine):选择Ollama
http://localhost:11434    API 密钥:(不填)
语义向量模型(Embedding Model)
quentinz/bge-large-zh-v1.5:latest 
警告:如果您修改了语义向量模型,则需要重新导入所有文档
嵌入层批处理大小 (Embedding Batch Size):1检索(Retrieval)
完整上下文模式(Full Context Mode)【关闭】混合搜索(Hybrid Search)【打开】
重排序引擎(Reranking Engine) :选择 外部(External)
http://localhost:11434     API Key:(不填)
重排序模型(Reranking Model)
设置重排序模型(例如:BAAI/bge-reranker-v2-m3)
Top K  :3
Top K Reranker: 3
相关性阈值: 0
注意:如果设置了最低分数,搜索只会返回分数大于或等于最低分数的文档。
3.上传文档
  • 左侧菜单 → RAG → 点击 Upload
  • 支持格式:PDF/DOCX/TXT/Markdown(建议单个文件<20MB)
4. 高级设置
chunk_size: 1024       # 文本切片长度
chunk_overlap: 128     # 切片重叠区域
hybrid_search: true    # 启用稠密+稀疏混合检索
instruction: "请用专业术语回答医疗问题" # 领域指令
🔍 五、验证 RAG 工作流
用户提问
Open WebUI 前端
Ollama 调用 bge-m3 生成查询向量
向量库检索 Top10 文档
Qwen-Reranker-4B 精排 Top3
Qwen2:7B 生成最终答案
⚠️ 六、性能优化技巧
  1. 硬件加速
    • NVIDIA GPU 用户:在 docker-compose.yml 添加:
ollama:environment:- NVIDIA_VISIBLE_DEVICES=allruntime: nvidia
  1. 模型量化(降低显存占用)
# 转换 7B 模型为 Q4_K_M 量化版(显存需求从 14GB → 6GB)
docker exec -it ollama ollama quantize qwen2:7b q4_k_m
  1. 中文优化配置
    • 嵌入模型切换为 bge-large-zh
docker exec -it ollama ollama pull bge-large-zh
  • 在 WebUI 的 RAG 设置中修改嵌入模型
🚨 七、故障排查
问题现象解决方案
上传文档后检索无结果检查文档编码(需 UTF-8)
重排序模型加载超时增加 Ollama 内存:docker-compose.yml 添加 shm_size: '2gb'
中文回答质量差1. 切换中文优化模型
2. 添加指令:instruction: "请用简体中文回答"

💡 生产环境建议

  • 敏感数据场景:启用 WebUI 的 HTTPS 加密(参考官方 TLS 配置文档)
  • 高并发需求:部署 Redis 缓存检索结果(可提升 3-5 倍响应速度)

✅ 部署完成效果

访问 http://localhost:3000 体验功能:

  • 左侧聊天:直接与大模型对话
  • RAG 入口:上传/管理知识库文档
  • 问答测试:输入问题自动检索知识库生成答案

© 著作权归作者所有

http://www.xdnf.cn/news/12735.html

相关文章:

  • windows10下搭建nfs服务器
  • 【分布式】分布式ID介绍和实现方案总结
  • 力扣算法题1
  • Vue部署到Nginx上及问题解决
  • 深入理解 React Hooks
  • 通过css实现正方体效果
  • 【免费数据】2005-2019年我国272个地级市的旅游竞争力多指标数据(33个指标)
  • C++11 右值引用
  • Pandas-如何正确将两张数据表进行合并
  • 自定义protoc-gen-go生成Go结构体,统一字段命名与JSON标签风格
  • 【Zephyr 系列 15】构建企业级 BLE 模块通用框架:驱动 + 事件 + 状态机 + 低功耗全栈设计
  • github开源协议选择
  • iview-admin静态资源js按需加载配置
  • STM标准库-TIM旋转编码器
  • JAVASCRIPT 前端数据库-V6--仙盟数据库架构-—-—仙盟创梦IDE
  • 深入浅出 Arrays.sort(DualPivotQuicksort):如何结合快排、归并、堆排序和插入排序
  • 2025年夏第九届河北工业大学程序设计校赛
  • Linux 上的 Tomcat 端口占用排查
  • 2025-06-08 思考-人被基因和社会关系双重制约
  • Psychopy音频的使用
  • 实验四:图像灰度处理
  • 自动化立体仓库堆垛机控制系统STEP7 OB1功能块
  • python打卡day48
  • 《解锁树莓派+Java:TinyML模型部署的性能飞升秘籍》
  • Java 面向对象进阶之多态:从概念到实践的深度解析
  • Windmill:开源开发者基础设施的革命者
  • Apache Spark详解
  • 【Pikachu】PHP反序列化RCE实战
  • 神经网络-Day48
  • 【threejs】每天一个小案例讲解:创建基本的3D场景