当前位置: 首页 > java >正文

RAGFLOW~Enable RAPTOR

Enable RAPTOR

        一种递归抽象方法,用于长上下文知识检索和摘要,在广泛语义理解和细微细节之间取得平衡。

        RAPTOR(递归抽象处理用于树状组织检索)是一种在2024年论文中引入的增强文档预处理技术。它旨在解决多跳问答问题,通过递归聚类和对文档片段进行摘要化来构建层次树结构。这使得在长文档中的上下文感知检索更加有效。RAGFlow v0.6.0在数据提取和索引之间的数据预处理管道中集成了RAPTOR用于文档聚类,如下图所示。

        我们使用这种新方法进行的测试在需要复杂多步骤推理的问题回答任务中展示了最先进的(SOTA)结果。通过结合RAPTOR检索与我们内置的分块方法和其他检索增强生成(RAG)方法,您可以进一步提高问题回答的准确性。

        警告:启用RAPER需要大量的内存、计算资源和tokens。

Basic principles

        在原始文档被分割成块之后,这些块根据语义相似性进行聚类,而不是按照它们在文本中的原始顺序。然后,通过系统的默认聊天模型将这些簇总结为更高层次的块。这个过程递归地应用,形成一个从下到上具有不同层次摘要的树结构。如图所示,初始块形成叶节点(显示为蓝色),并递归地总结为根节点(显示为橙色)。

        

        递归聚类和总结能够捕捉到广泛的理解(由根节点实现)以及多跳问答所需的细微细节(由叶节点实现)。

Scenarios

        对于涉及复杂多步骤推理的多跳问答任务,问题和答案之间通常存在语义差距。因此,使用问题进行搜索往往无法检索到有助于正确答案的相关片段。RAPTOR通过为聊天模型提供更丰富、更具上下文关联性和相关性的片段来解决这一挑战,使其能够全面理解而不丢失细节。

        知识图谱也可以用于多跳问答任务。详见构建知识图谱的详细信息。你可以使用任一方法或两者结合,但要确保理解涉及的内存、计算和标记成本。

Prerequisites

        系统的默认聊天模型用于总结聚类内容。在继续之前,请确保已正确配置聊天模型。

Configurations​

        RAPTOR功能默认是禁用的。要启用它,请手动在知识库的配置页面上打开“使用RAPTOR增强检索”开关。

Prompt

        以下提示将递归应用于聚类摘要,{cluster_content}作为内部参数。我们建议您现在保持不变。设计将在适当时候更新。

Please summarize the following paragraphs... Paragraphs as following:{cluster_content}
The above is the content you need to summarize.

​Max token​

        每个生成摘要块的最大标记数。默认为256,最大限制为2048。

Threshold

        在RAPTOR中,块根据其语义相似性进行聚类。阈值参数设置块被分组在一起所需的最小相似度。默认值为0.1,最大限制为1。较高的阈值意味着每个簇中的块较少,较低的阈值则意味着更多。

Max cluster

        创建的最大聚类数量。默认为64,最大限制为1024。

Random seed

        一个随机种子。点击+以更改种子值。

相关资料:

      1、 Enable RAPTOR | RAGFlow

      2、  https://huggingface.co/papers/2401.18059

http://www.xdnf.cn/news/16886.html

相关文章:

  • 亚像素级精度的二维图像配准方法
  • 上海月赛kk
  • HCLP--ospf综合实验
  • RabbitMQ-镜像队列(Mirrored Queues)
  • VMware 下 Ubuntu 操作系统下载与安装指南
  • RAGFLOW~knowledge graph
  • Redis的ZipList、SkipList和ListPack之间的区别
  • 【Linux】重生之从零开始学习运维之Mysql
  • Au速成班-多轨编辑流程
  • STM32学习记录--Day5
  • 《C++》STL--list容器详解
  • EasyExcel 公式计算大全
  • 谷歌Firebase动态链接将失效:如何选择深度链接替代方案?
  • 11.Layout-Pinia优化重复请求
  • 51单片机入门:模块化编程
  • 利用 AI 在 iPhone 上实现 App 文本情绪价值评估(下)
  • 【string类常见接口】
  • 智能Agent场景实战指南 Day 28:Agent成本控制与商业模式
  • C语言(02)——标准库函数大全(持续更新)
  • Spring Boot + MongoDB:从零开始手动配置 MongoConfig 实战
  • C语言:冒泡排序
  • 【3】交互式图表制作及应用方法
  • kafka快速部署、集成、调优
  • 香港正式启动稳定币牌照制度!推动中国的人民币国际化?
  • 智能Agent场景实战指南 Day 29:Agent市场趋势与前沿技术
  • ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and
  • 异步函数被调用多次,多次处理同一个文件导致占用,如何让异步函数按顺序执行?
  • 【Node.js安装注意事项】-安装路径不能有空格
  • RustFS:高性能文件存储与部署解决方案(MinIO替代方案)
  • 10.Linux 用户和组的管理