当前位置：首页 > news >正文

从0开始学习大模型--Day07--大模型的核心知识点

news 2025/9/4 6:27:10

AI常见名词

知识库

分为传统知识库与AI知识库，前者是单纯的存储各个领域的知识，后者则是与LLM结合，使AI系统能够更好地利用本地知识来响应查询和执行任务。比如，假如公司新来了个维修人员，他可以直接调用AI知识库去学习维修手册，痛点，需要注意的点以及不懂得地方都可以直接问AI知识库，在一定程度上起到了老师傅的作用。

向量化（Embeding）

向量化表示：Embeding是将文本数据(如单词、短语或整个文档)转换为数值向量的过程。这些数值向量捕捉到了文本项的语义和语法特征，使得计算机能够处理文本数据。

维度降低：通过Embedding，可以将每个文本项表示为一个较低维度的稠密向量，这些向量在较小的维度空间内保持了原始数据的重要特征。

语义关系：embedding向量能够编码语义信息，使得语义上相似的词汇在向量空间中彼此接近。这一特性使得embedding在信息检索、文本分类情感分析等任务中非常有效。

提示词工程（prompt engineer）

定义：指的是在与人工智能系统交互，如何精心设计和优化输入语句(prompts)的过程。这个过程关注于如何构造问题或命令，以从 AI 系统获取最有效和相关的回应。

目的：通过改进交互方式，提高与 AI 系统沟通的质量和效率。

关键性质：Prompt Engineering 重视语言的选择、上下文的应用，以及用户意图的明确表达。通过细致调整输入语句，可以优化 AI的理解和响应，从而提升整体的交互体验。

RAG（检索增强生成）

结合检索与生成：RAG 融合了信息检索和文本生成两种技术，先从大数据中检索信息，再基于这些信息生成文本。

增强生成质量：通过使用检索到的相关信息，RAG 旨在提高文本生成的相关性、准确性和深度。

应用于复杂查询：RAG 特别适用于需要广泛知识和深度理解的复杂查询，能够提供更丰富、更精确的回答。

接下来，我们用一张流程图来看大模型处理语句的过程：

大模型处理用户问题的过程

首先，我们要先构建大数据本身数据库，将本地数据通过非结构化处理变成文本文件（大模型一般都是处理文本，即使是图片也是存储成文本的形式），并将其切分成一个个文本块（大模型接受数据的量是有限的，一般不会读取一整个文档或一大段文字，而是切分成文本块一个个分析），再通过向量化存储在数据库中；当用户开始输入问题提问时，大模型会先将其向量化，与数据库中的向量作比对，将相似的向量提取出来，转成文本块，并与提示词模版相结合，从而变成一段更合理，更有逻辑性，能让大模型看懂的提示词输入给大模型，从而输出回答，在上述处理文本的过程，就是RAG。