当前位置：首页 > news >正文

【速通RAG实战：进阶】10.RAG 进化论：Advanced与Modular架构解锁智能问答新维度

news 2025/8/26 19:48:20

在这里插入图片描述

1、 RAG 技术演进三阶段

RAG 技术在适应复杂应用场景和不断发展的技术需求中，经历了从最初的 Naive RAG （朴素 RAG），到流程优化的 Advanced RAG，再到更具灵活性的 Modular RAG 的演变。
这三个范式之间具有继承与发展的关系：

Advanced RAG 是 Modular RAG 的一种特例形式
而 Naive RAG 则是 Advanced RAG 的基础特例
通过这种逐步演进，RAG 技术不断优化，以应对更复杂的任务和场景需求
- Naive RAG：基础流程（索引→检索→生成），适用于简单场景。
- Advanced RAG：通过 检索前/中/后优化，提升复杂任务表现。
- Modular RAG：模块化设计 + 动态编排，实现灵活适配复杂需求。

2、 Advanced RAG 优化策略

1.定义与核心思想

Advanced RAG（Retrieval-Augmented Generation）是对传统RAG技术的优化，通过改进检索策略、动态更新知识库、多模态数据融合等方式，提升生成结果的准确性和上下文相关性。其核心目标是通过更智能的检索机制，减少生成模型的幻觉（Hallucination）问题。

2.检索策略

检索前：
- 滑动窗口分块：保留重叠文本，避免上下文割裂。
- 分层索引：句子级/段落级/文档级嵌入，适配不同查询粒度。
- 查询重写与扩展：增强查询语义（如“Nvidia财务表现” → “Nvidia 2021-2023年收入、利润趋势”）。
```
# 查询重写示例（伪代码）  
def query_rewrite(original_query):  return llm.generate(f"将以下查询重写为更具体的专业问题：{original_query}")  
```

检索中：

假设文档嵌入（HyDE）：生成假设答案辅助检索。

# HyDE 实现示例（伪代码）  
hypothetical_answer = llm.generate("假设回答：" + user_query)  
vector = embed(hypothetical_answer)  
results = vector_db.search(vector)

混合检索：结合语义（向量）与关键词（BM25）匹配。

from langchain.retrievers import BM25Retriever, EnsembleRetriever  
from langchain.embeddings import OpenAIEmbeddings  
from langchain.vectorstores import FAISS  # 稀疏检索（BM25）  
bm25_retriever = BM25Retriever.from_texts(texts)  
# 稠密检索（FAISS）  
embeddings = OpenAIEmbeddings()  
faiss_retriever = FAISS.from_texts(texts, embeddings).as_retriever()  
# 混合检索  
ensemble_retriever = EnsembleRetriever(  retrievers=[bm25_retriever, faiss_retriever],  weights=[0.5, 0.5]  
)

检索后：
- 重排序：基于相关性模型二次排序。
- 多跳推理：跨文档整合信息（如“技术演化”需多阶段检索）。

3. 动态知识更新：

实时将新数据写入向量数据库（如通过流处理框架Kafka），确保检索内容与时俱进。
支持增量索引更新，避免全量重建的开销。

4. 强化学习优化检索：

基于用户反馈（如点击率、修正记录）训练强化学习模型，动态调整检索权重。

5.应用场景

金融问答系统：实时检索市场新闻与财报数据，生成投资建议。
医疗诊断辅助：结合最新医学论文与患者病历，生成个性化诊断报告。

3、 Modular RAG 的核心设计

1.定义与架构设计

Modular RAG将传统RAG拆分为独立模块（如检索器、预处理器、生成器），通过标准化接口实现灵活组合与替换。模块化设计便于单独优化各组件，并支持分布式部署。

2.编排机制（Orchestration）

路由（Routing）：根据查询复杂度选择处理流程（直接回答 vs 深度检索）。
调度（Scheduling）：动态管理检索与生成的执行顺序。
知识引导（Knowledge Guide）：集成知识图谱辅助推理（如实体关系分析）。

3.模块化优势

自由组合检索策略（如分层索引 + HyDE）。
动态调整流程（复杂问题触发多轮检索）。

4.核心模块与交互流程

检索模块（Retriever）：

支持多种检索后端（Elasticsearch、FAISS、自定义API）。
可插拔设计，允许动态切换检索策略。

预处理模块（Preprocessor）：

对检索结果进行去噪、摘要或关键信息提取。
示例：使用NLP模型提取文本实体（如时间、地点）。

生成模块（Generator）：

接收预处理后的上下文，生成最终输出。
支持多模型切换（如GPT-4、Claude-2）。

5.实现示例（基于LangChain）

from langchain import LLMChain  
from langchain.retrievers import BM25Retriever  
from langchain.chains import RetrievalQA  # 自定义预处理函数  
def preprocess_docs(docs):  # 过滤低相关性文档（假设score为置信度）  return [doc for doc in docs if doc.metadata["score"] > 0.7]  # 模块化RAG流程  
retriever = BM25Retriever.from_texts(texts)  
qa_chain = RetrievalQA.from_chain_type(  llm=OpenAI(),  chain_type="stuff",  retriever=retriever,  chain_type_kwargs={"document_preprocessor": preprocess_docs}  
)  
response = qa_chain.run("如何优化RAG系统的检索速度？")

4、实战案例对比

问题：“分析Nvidia与Apple近三年财务表现，判断投资价值”。
Naive RAG：检索混乱（混合年份数据），生成结果片面。
Advanced RAG：
- 检索前：按年报章节分层索引，查询重写聚焦财务指标。
- 检索中：HyDE生成假设性财务分析，混合检索精准匹配。
- 检索后：重排序筛选高相关内容，生成深度对比报告。

5、 Advanced RAG与Modular RAG的结合实践

1.场景：智能客服系统

Advanced RAG优化检索：
1. 使用混合检索策略，同时匹配用户问题的关键词（BM25）与语义（向量检索）。
Modular RAG实现灵活部署：
1. 检索模块部署在GPU服务器，生成模块部署于边缘节点，降低响应延迟。

2.代码示例（分布式部署）

# 检索服务（独立微服务）  
from fastapi import FastAPI  
app = FastAPI()  
@app.post("/retrieve")  
def retrieve(query: str):  return ensemble_retriever.get_relevant_documents(query)  # 生成服务（调用检索API）  
import requests  
def generate_answer(query):  docs = requests.post("http://retriever-service/retrieve", json={"query": query}).json()  processed_docs = preprocess_docs(docs)  return llm.generate(context=processed_docs, question=query)