当前位置: 首页 > ops >正文

【Ragflow】27.RagflowPlus(v0.4.1):小版本迭代,问题修复与功能优化

概述

RagflowPlus v0.4.0 在发布后,收到了积极的反馈,同时也包含一些问题。

本次进行一轮小版本更新,发布 v0.4.1 版本,对已知问题进行修复,并对部分功能进行进一步优化。

开源地址:https://github.com/zstar1003/ragflow-plus

更新方法

下载仓库最新代码:

git clone https://github.com/zstar1003/ragflow-plus.git

使用docker启动:

# cpu模式
docker compose -f docker/docker-compose.yml up -d
# gpu模式
docker compose -f docker/docker-compose_gpu.yml up -d

首次启动会自动拉取最新版本镜像。

问题修复

1.修复解析excel文件时,依赖缺失的问题(issue#149)

2.修复解析pdf文件时,遇到空内容表格,出现异常的问题。

功能优化

1. 图像显示路径优化

之前的版本中,将图像的存储路径硬编码为es属性中,导致在局域网环境下访问时,容易出现图片不显示的情况。

v0.4.0版本中,易出现此问题

在本版本中,对每张图片的协议、ip地址和在minio中的相对路径进行解耦

在es中,只存储图片的相对路径地址,具体的访问ip地址可通过docker/.env中的MINIO_VISIT_HOST变量进行控制。

es中解析块属性可视化

通过这样的修改,可使问答时,图像稳定显示。

2. 容器连接通路优化

由于对minio的访问地址进行解耦,在后台管理中进一步修改连接配置database.py文件:

if is_running_in_docker():MYSQL_HOST = "mysql"MYSQL_PORT = 3306MINIO_HOST = "minio"MINIO_PORT = 9000ES_HOST = "es01"ES_PORT = 9200REDIS_HOST = "redis"REDIS_PORT = 6379

在docker环境中,直接通过服务名进行访问,而不再像之前的版本那样通过宿主机再间接访问。

之前版本访问路径(蓝色线条)现版本访问路径(红色箭头)

这样修改,有效避免了用户在上传文件时,容易出现超时未响应的情况,连接速度更快更稳定。

3. 图片插入位置优化

在之前的版本中,所有相关图像会在问答末尾一并输出。

本次对图像输出进行了改良,现在图像会出现在第一个相关块的引用位置,可在问答中间输出。

如有引用标记,该引用块有关联图像,则将其显示在下方

4. 增加文档撰写模式的缓存

在文档撰写模块中,新增了当前编辑文档内容的自动保存功能。

通过浏览器自带的Local storage,实现对每间隔1s对内容进行无感保存。

切换标签或刷新页面后,之前编辑的内容依然存在,不会消失。

刷新界面,文档界面依然存在

5. word导出支持自动图片下载插入

在文档撰写模块中,导出word文件时,会自动下载编辑区的图像块连接,实现图片的自动下载插入。

导出word效果

6. Top N上限增加

在聊天配置中,有一个Top N的选项,用来控制大模型能实际看到的前N个解析块数量。

原始默认的Top N上限为30,因为在每个块内容较多的情况下,如果塞入大模型的参考内容过多,会超过模型的最大输入上限。

考虑到部分用户应用的内容查询业务,每个块的内容很少,查询数量很多,因此增加Top N的上限为100,默认保持8不变。

当前版本可上调

问题反馈须知

当前的每轮版本更新都修改文件解析的逻辑,因此,读者在试用反馈问题时,建议新建知识库进行解析。

在后台管理系统中,新建知识库

通过知识库隔离,可防止不同版本的解析文件混杂在相同知识库中,造成异常情况。

总结

此次更新后,在局域网服务器中进行了一轮测试,目前已基本能满足个人应用场景的使用需求。

后续会将精力投入到大模型相关的基建拓展研究中,比如,embedding模型的效果如何评估,如何微调大模型。

之前定下的Ragflow-Plus的更新计划将会暂缓推进,如果有开发经验的读者想继续对此项目进行贡献,欢迎提交PR。

http://www.xdnf.cn/news/12802.html

相关文章:

  • 比较一组结构之间的变换
  • Python爬虫实战:研究PySocks库相关技术
  • Halcon案例(三):C#联合Halcon识别排线
  • 【整数逐位除法求余补〇完整版】2022-4-11
  • 1 Studying《Linux Media Documentation》
  • 深度学习模块缝合
  • 【redis】线程IO模型
  • 第16届蓝桥杯青少Stema11月 Scratch编程——初/中级组真题——行走的图形
  • GD图像处理与SESSiON
  • MySQL(63)如何进行数据库读写分离?
  • 进程与线程的区别
  • SQL Server从入门到项目实践(超值版)读书笔记 16
  • Linux多线程-进阶
  • 设计模式学习
  • AtCoder Beginner Contest 409
  • Continue 开源 AI 编程助手框架深度分析
  • C++17 和 C++20 中的新容器与工具:std::optional、std::variant 和 std::span
  • 学习python做表格6月8日补录
  • B站_Miachael_ee_通过GDB和OpenOCD对ESP32 进行JTAG Debug_笔记1
  • Python Day46
  • 【AI论文】MiMo-VL技术报告
  • 整数的字典序怎么算
  • 【FPGA开发】DDS信号发生器设计
  • 【题解-Acwing】1097. 池塘计数
  • OCCT基础类库介绍: Foundation Classes - Basics
  • 动手学深度学习pytorch(第一版)学习笔记汇总
  • 从零开始打造 OpenSTLinux 6.6 Yocto 系统(基于STM32CubeMX)(九)
  • 利用Pandas AI完成Excel大模型的结合实现自然语言问数
  • 第二十九章 数组
  • iptables实验