【部署】读取制度类txt文件导入dify的父子分段知识库
回到目录
【部署】读取制度类txt文件导入dify的父子分段知识库
0. 背景
dify的知识库父子模式的分段效果不理想,一是按照500字强制分段,制度类一般编写内容质量高,章节内部的逻辑性强,强行分段可能对知识点造成破坏;二是子段的生成逻辑简单粗暴,按照父分段的标点符号简单分割,经过测试,召回效果非常不理想。 项目dify_import 0.1.0-release版本,支持读取高质量的txt制度类文件批量导入父子分段dify知识库并通过语言模型的推理产生相关关键字生成字段。
1. 搭建本地dify开发环境
参考 《win10的wsl环境下调试dify的api后端服务(20250511发布)
2. 登录dify,配置知识库
2.1. 创建一个父子分段知识库,名称"Regulation-IT"
[图01]
2.2. 知识库下手工创建<公司管理规定.txt>文档(可以是空文件)
[图02]
2.3. 工作室下创建chat bot 名称 “制度专家-IT”,并且关联上知识库 Regulation-IT
[图03]
2.4. 生成 "制度专家-IT"的api key
[图04]
3. 拉取、配置和运行dify_import
3.1. gitee拉dify_import源代码
3.2. 配置config.json参数
config.json
{"serverIP": "[根据实际修改]","userName": "[根据实际修改]","password": "[根据实际修改]","datasetName": "Regulation-IT","documentName": "公司管理规定.txt","fileName": "产品权限管理.txt","appKey": ""[根据实际修改]","
}
注:前三个参数根据实际环境配置
appKey是 2.4.生成的api key
并运行
> uv run .\child_chunks\20_dify_father_main.py
[图05]
4. 运行成功后,前台检查知识库导入是否成功
[图06]
这里的分段规则是1. 章节分段; 2.条例每500字以内生成一个分段
5. 在工作室-评测,调试和预览效果,非常完美!!
提示词
人员离职后,权限怎么处理
[图07]
对比一下没有引入知识库胡说八道的效果
[图08]
本文结束
回到目录