当前位置：首页 > backend >正文

AI基础认知

backend 2025/6/29 11:10:53

一、认识LLM

LLM 通常是指大型语言模型（Large Language Model）。它是一种基于深度学习技术的人工智能基础模型，具有以下特点：

基于深度学习：一般基于 Transformer技术架构的神经网络，通过自注意力机制捕捉输入序列中的长距离依赖关系，实现对文本的全局理解。
处理自然语言：能够执行问答、文本生成、翻译、对话等多种自然语言处理任务，是生成式 AI 的一种形式。
参数规模庞大：为了理解自然语言，需要将自然语言拆分为最小粒度的参数（Tokens），一个大模型通常包含几十上百亿甚至数千亿参数。

LLM通过在海量文本数据上进行训练，学习语言的模式、结构和语义关联，逐步具备理解和生成自然语言的能力。其核心目标是通过概率建模，预测下一个词语或序列，最终生成连贯且符合上下文的文本。常见的LLM 有 GPT 系列、LLaMA、Mistral、BERT 等

二、认识RAG

RAG 即检索增强生成（Retrieval - Augmented Generation），是一种结合信息检索技术与语言生成模型的人工智能技术，用于增强大语言模型在处理知识密集型任务时的能力。

产生背景：

大语言模型输出结果可能不完全正确甚至错误，原因包括训练数据可能包含错误信息、过度泛化推理以及对知识的理解存在局限性等。此外，大模型还存在知识落后、输出难以解释、输出不确定等问题，RAG 正是为解决这些问题而诞生的一种优化方案。

工作原理：

检索：从预先建立的知识库中检索与问题相关的信息。首先将文本分割成较小的片段，使用文本嵌入模型将这些片段转换成向量，并存储在向量数据库中。当用户输入查询问题时，使用相同的文本嵌入模型将问题转换成向量，然后在向量数据库中检索与问题向量最相似的知识库片段，根据相似度得分对检索到的结果进行排序，选择最相关的片段作为后续生成的输入。

增强：将检索到的信息用作生成模型（即大语言模型）的上下文输入，以增强模型对特定问题的理解和回答能力。

生成：生成器会利用检索到的信息作为上下文输入，并结合大语言模型来生成符合用户需求的回答。

三、认识MCP

在 AI 中，MCP 指模型上下文协议（Model Context Protocol）。它是由 Anthropic 在 2024 年 11 月推出的一个开放协议，旨在统一 LLM 应用与外部数据源和工具之间的通信协议，为 AI 开发提供标准化的上下文交互方式。

核心功能

上下文共享：通过 MCP，可以将文件内容、数据库记录等 “背景资料” 提供给 AI，让 AI 的回答更准确。

工具调用：MCP 能让模型使用各种工具，如读写文件、调用 API 等。

灵活组合：它可以把不同的服务和组件串联起来，搭建各种 AI 工作流，简单高效。

安全保障：数据通过本地服务器传输，可保障敏感信息不会被传到云端泄露，保护隐私。

四、认识Agent

AI 中的 Agent 即智能体，是指能够在特定环境中自主执行任务或作出决策的实体。

关键特点

自主性：能在无直接外部干预下控制自身行为和内部状态，独立操作并决策。

社会能力：可与其他智能体（包括人类）交互和沟通，理解意图并在多智能体系统中协同工作。

反应性：能感知环境并对变化快速反应，根据传感器输入或外部事件调整行为。

主动性：不仅响应环境，还主动采取行动实现设计目标，能预测未来事件并采取预防措施。

智能性：使用人工智能技术，如机器学习、自然语言处理、计算机视觉等，提高决策和问题解决能力。

五、大模型中token的理解

1、token的定义

Token 是通过算法将文本（如单词、子词、字符甚至字节）分割后的最小单元，模型通过处理这些单元实现对语言的理解和生成。Token可能是一个字符、一个单词、或单词的一部分（如前缀/后缀），甚至标点符号。token的内容和数量由分词器（Tokenizer）决定：分词规则基于训练前的数据统计和算法（如Byte-Pair Encoding, BPE）。

2、Token的作用

模型的“输入语言”：模型无法直接理解文本，因此需要将Token转为向量进行处理。

如：句子 “Hello, world!” 经分词后得到 Token 序列：[“Hello”, “,”, “world”, “!”]，对应 Token ID 为[101, 102, 103, 104]。

模型通过计算这些数字序列的向量表示实现语义建模。

上下文窗口的限制：模型的上下文长度以Token数量计算（如GPT-4的“32K Token”限制）。

示例：1个英文句子 ≈ 5-10个Token，1个中文句子 ≈ 2-5个Token（因中文更紧凑）。

六、模型的上下文窗口长度

在大模型（如 GPT、Claude、LLaMA 等）中，8K、32K通常指模型的上下文窗口长度（Context Window Size），即模型单次处理的最大 Token 数（包括输入和输出），8K、32K等单位是token，1K 等于 1024 个 Token，所以 8K 意味着模型支持的上下文窗口约为 8192 个 Token，32K 则表示上下文窗口约为 32768 个 Token。这一指标直接影响模型能够理解和处理的文本长度，是评估模型能力的关键参数。

什么是上下文窗口：

定义：模型在一次调用中能够处理的最大 Token 数量（包括输入和输出）。

作用：决定了模型可以 “记住” 和关联的文本范围，例如：

在这里插入图片描述

不同上下文窗口长度应用场景不一样，如：

在这里插入图片描述

七、向量和向量库

1、什么是向量？

本质：向量是将文本转化为高维空间中的数值数组（如 [0.1, -0.3, 0.5, …]），每个维度代表文本的一种语义特征（如情感、主题、语法角色等）。

作用：通过向量，计算机可以用数学方法（如向量距离、相似度计算）衡量文本之间的语义关联，解决 “语义鸿沟” 问题（如 “计算机” 和 “电脑” 含义相近，向量距离应较近）。

2、如何生成？

大模型（如 Transformer 架构）通过编码器将输入的各类数据（如文本、图像、音频等）转化为向量，这个过程称为嵌入（Embedding），简称：EMB。

也就是通过模型的嵌入层（Embedding Layer）将输入转换为向量，例如：

OpenAI的text-embedding-ada-002

开源的BERT、Sentence-BERT

3、向量库（Vector Database）

基本概念：专门用于存储、检索高维向量的数据库，支持相似性搜索（Similarity Search）。

与传统数据库比较，向量库存在如下差异：

在这里插入图片描述

八、多模态

在大模型中，“多模态” 是指模型能够同时处理和理解多种不同类型的数据模态，如文本、图像、音频、视频等。在支持多模态的大模型中，输入的就不一定是文本或者其它的某一类；

九、FC、MCP、A2A

在大模型中，FC、MCP、A2A 是三种不同通信模式。

FC（Function Calling，函数调用技术）：由 OpenAI 推动，允许大语言模型（LLM）通过解析用户问题，判断是否调用预定义的外部函数或 API，从而实现与外部系统交互，扩展模型能力。例如模型可通过函数调用获取实时天气、股票行情等外部信息，将自然语言转换为 API 调用，最初在 GPT-3.5 和 GPT-4 模型上实现。

MCP（Model Context Protocol，模型上下文协议）：由 Anthropic 公司于 2024 年 11 月推出的标准化开放通信协议。旨在为大型语言模型提供标准化接口，实现与外部数据源和工具的无缝集成，让 AI 模型能动态发现并调用外部服务，无需预先定义固定代码。它基于 HTTP (S) 协议，通过 JSON 格式描述功能能力，具有模型无关性，任何具备兼容运行时的 LLM 均可使用，且与 API 网关及企业级认证标准兼容。

A2A（Agent-to-Agent，智能体到智能体协议）：由 Google 推出的开放智能体通信协议，旨在标准化不同 AI 智能体之间的通信与协作。可让不同平台和框架之间的 AI 智能体进行通信和协作，无需考虑底层技术，使多个专门的智能体能够发现、沟通并协作完成任务，每个智能体专注于某一方面，多个智能体可构成流水线共同完成任务，还支持多模态通信。

查看全文

http://www.xdnf.cn/news/12062.html