当前位置: 首页 > web >正文

DeepSeek12-Open WebUI 知识库配置详细步骤

📚 Open WebUI 知识库配置详细步骤(中英文对照)

🌐 界面语言切换
# 首次登录后切换语言:
1. 点击左下角用户头像 → Settings
2. 在 "General" 选项卡找到 "Language"
3. 选择 中文(简体)/English
4. 点击 "Save"

🔧 一、上传文档(知识库创建)

步骤中文界面English Interface操作说明
1左侧菜单 → 工作空间 → 知识库Left Menu → WorkSpace → Knowledge进入知识库管理页面
2点击 + 新建知识库Click + New Knowledge Base创建新知识库容器
3输入知识库名称 (如"产品手册")Enter name (e.g.“Product Docs”)仅支持英文/数字命名
4点击 上传文件Click Upload Files打开文件选择对话框
5选择文档 (PDF/DOCX/TXT/MD)Select files (支持多选)最大20MB/文件
6确认上传 → 等待处理完成Confirm → Wait for processing状态栏显示处理进度
1. 前提条件
  • 已安装 Open WebUI 0.6.13(通过 Docker 或 pip 安装)。
  • 已配置本地大语言模型(如 Ollama、DeepSeek 或 Hugging Face 模型)。
  • 确保已启动相关依赖服务(如 Ollama)。

2. 创建知识库
步骤 1:进入工作空间
  1. 登录 Open WebUI 后,点击左侧导航栏的 工作空间
  2. 知识库 子菜单下,点击 + 新建知识库
步骤 2:配置知识库基本信息
  1. 名称:输入知识库名称(如 公司政策)。
  2. 描述:简要说明知识库用途(可选)。
  3. 模型选择
    • 模型 下拉菜单中选择已配置的本地模型(如 deepseek-r1)。
    • 注意:此版本无 RAG 菜单项,需通过模型绑定实现知识库功能。
步骤 3:上传文档
  1. 点击 上传文档,支持以下格式:
    • 文本文件(.txt
    • PDF 文件(.pdf
    • Markdown 文件(.md
  2. 上传后,系统会自动解析并生成索引(无需手动触发)。
步骤 4:验证知识库
  1. 在对话界面选择已绑定的模型(如 test_model)。
  2. 输入与上传文档相关的问题,观察是否返回知识库中的内容。
  3. 若未返回结果,检查日志(路径:设置 > 日志)排查解析错误。

⚠️ 注意:中文文档需确认编码为 UTF-8,否则会出现乱码


⚙️ 二、高级配置(核心设置)

配置语义向量模型
  1. 进入 设置 > 管理员设置 > 文档
  2. 语义向量模型 部分:
    • 模型引擎:选择 OllamaHuggingFace
    • 模型名称:输入已部署的模型名称(如 bge-large)。
  3. 保存配置并重启服务生效。
调整存储路径
  1. 修改配置文件(如 config.yaml):
    knowledge_base:storage_path: "/your/custom/path"
文件上传限制

修改上传限制(如 config.yaml):

upload:allowed_extensions: [".pdf", ".txt", ".md"]max_file_size: 100000000  # 100MB
重启 Open WebUI 服务:

⚡ 三、高级设置(文本处理优化)

中英文通用配置位置:

高级选项 → 文本处理

参数推荐值说明
分块大小/chunk_size1024文本切片长度(token数)
分块重叠/chunk_overlap128切片间重叠避免信息割裂
元数据提取☑ 启用提取标题/作者等关键信息
中文专用分词器☑ 启用提升中文文档处理精度 (中文界面)
Chinese Tokenizer☑ EnableOptimize Chinese processing (英文界面)
# 配置文件示例
chunking:size: 1024overlap: 128
metadata_extraction: true
language_optimization:zh: true  # 中文优化

🎯 四、领域指令设置(Prompt 优化)

中文界面路径:

高级选项 → 指令模板

[系统] 你是一个{domain}领域专家,请根据知识库内容回答。
回答要求:
1. 使用专业术语
2. 引用来源片段
3. 不确定时回复"根据现有资料无法确定"
当前领域:医疗/法律/金融 (手动修改)
English Interface Path:

Advanced → Instruction Template

[System] You are a {domain} specialist. Answer based strictly on knowledge base.
Requirements:
1. Use professional terminology
2. Cite source snippets
3. Respond "Unanswerable" when uncertain
Current Domain: Medical/Legal/Finance (Edit manually)

✅ 五、验证与测试

  1. 知识库状态检查

    • 中文路径:知识库详情 → 处理日志
    • 英文路径:Knowledge Details → Processing Logs
    • 成功标志:
      ✅ 文档解析完成
      ✅ 向量生成: X 个分块
      
  2. 问答测试

    测试问题示例:
    中文:"产品X的主要功能是什么?"
    English: "What are the main features of Product X?"
    
  3. 结果验证

    • 点击回答区域的 来源/Sources 标签
    • 检查:
      1. 引用片段是否相关
      2. 页码标注是否准确
      3. 领域术语使用是否正确
      

💡 性能提示:首次检索较慢(需加载模型),后续请求响应应在 2-5 秒内

© 著作权归作者所有

http://www.xdnf.cn/news/12828.html

相关文章:

  • 音视频——I2S 协议详解
  • 【LeetCode 热题100】网格路径类 DP 系列题:不同路径 最小路径和(力扣62 / 64 )(Go语言版)
  • 【python深度学习】Day 48 PyTorch基本数据类型与操作
  • ArkUI-X与Android桥接通信之消息通信
  • STM32 低功耗设计全攻略:PWR 模块原理 + 睡眠 / 停止 / 待机模式实战(串口 + 红外 + RTC 应用全解析)
  • PHP环境极速搭建
  • 【Blender】Blender 通过 Python 实现模型大小压缩
  • 八股---7.JVM
  • 基于 React Native for HarmonyOS5 的跨平台组件库开发指南,以及组件示例
  • Cursor 编辑器, 使用技巧,简单记录一下
  • 求解一次最佳平方逼近多项式
  • 算法题(164):贴海报
  • 电力系统时间同步系统之三
  • 在 Java 中!(逻辑非)和 ||(逻辑或)的优先级关系
  • 生成模型从自回归到变分自动编码器
  • 【PhysUnits】15.18 Unit基础结构 (unit.rs)
  • 无需登录即可使用的Web应用网站
  • CMS、G1、ZGC、Shenandoah 的全面对比
  • 淘晶驰的串口显示屏T0 T1 K0 X2 X3 X5之间有何区别 各自的优势是啥 划分的依据是啥
  • 获取环境变量的两种方式:getenv()和environ
  • Nginx Stream 层精准定位ngx_stream_geoip_module
  • 指针的定义与使用
  • Mybatis-Plus的LambdaWrapper
  • 嵌入式面试高频(5)!!!C++语言(嵌入式八股文,嵌入式面经)
  • 将数据库表导出为C#实体对象
  • EMC测试
  • 6月7日day47打卡
  • [ACTF2020 新生赛]Include 1(php://filter伪协议)
  • 嵌入:AI 的翻译器
  • golang常用库之-go-i18n库(国际化)