当前位置：首页 > news >正文

关于初学者对大模型的一些概念的理解

news 2025/7/13 4:21:19

在网上看到的一张图，我感觉还是比较清晰的，能快速对大模型有一个概念。

大模型及相关概念详解

大模型（Large Language Model, LLM）就是近年来人工智能领域的核心技术，基于海量数据和强大算力训练而成，能够处理自然语言理解、生成、推理等复杂任务。

1. 大模型（Large Language Model, LLM）

定义

大模型是指参数量巨大（百亿级、千亿级，甚至万亿级）的深度学习模型，核心是基于 深度学习 和 神经网络、Transformer架构，通过自监督学习（如掩码语言建模）从海量文本数据中学习语言规律。

Transformer 通过 “自注意力机制（Self-Attention）” 和 “多头注意力机制（Multi-Head Attention）” 实现高效的信息处理，相比于传统的 RNN（循环神经网络）和 CNN（卷积神经网络）具有更强的并行计算能力和更长的上下文理解能力。

核心特点

规模效应：参数量越大，模型表现通常越好（如GPT-3有1750亿参数）。
通用性：可处理多种任务（文本生成、翻译、问答等）。
上下文学习（In-Context Learning）：通过少量示例（Few-shot）即可适应新任务。

典型模型

GPT系列（OpenAI）：生成式预训练模型。
DeepSeek：把思考过程展示了出来，
等等

但是不要简单的认为大模型就只是AI对话，他的应用方向非常广泛，涵盖

自然语言处理（NLP）、计算机视觉（CV）、语音识别、科学计算、自动驾驶等领域。


NLP 语言 AI	智能对话、代码生成	chatgpt
计算机视觉（CV）	图片、检测等等	ViT
AI语言	智能语言	Whisper
智能机器人	无人车、机器人	Tesla FSD

当然除了这是比较广泛的还有很多领域可以使用AI，现在就是一个AI的时代，就像以前计算机刚开始的时候懂计算机，我感觉哈。。。

其次，我们可以根据AI开发自己的具有个性化的一些功能点，比如初高中刷题的时候，看题解真不一定看的懂，我们就可以通过调教AI，给他输入特点的公式概念和数学概念，他甚至可以把他思考的过程给你输出出来，还有PPT、手抄报、作文等等都可以通过AI来做。再比如在计算机领域，我们在开发应用的时候，还可以借助AI来帮我们实现个性化的推荐，我们只需要给他喂数据进行训练微调，相比于传统的推荐算法更加简单，门槛低了很多了，还有比如可以根据要求给我们生成图片，或者进行图片监测。

比如我实现过一个让大模型给我生成一个文本相似度计算的功能，我们知道当调用大模型的时候，如果问题过于复杂，他的响应时间会很慢，像DeepSeek等，就很慢，我们就可以设置一个缓存的功能，如果文本相似度比较高的话就直接返回缓存就可以了，当然这个功能比较有限，只适合于小规模的对话形式，对于大规模的问答来说，就显得比较鸡肋了，命中率很低，当时作为学习确实也能降低一点token的计算费用嘛。。

2. 关键概念解析

(1) 提示词（Prompt）

像我们在平时使用别人的AI对话模型时，豆包、deepseek、千问等等，如果要让他写一个算法，我们直接把题目复制过去的话，他回答就不一定是对，甚至大部分都不是对的，最多提供一个思路，还需要我们自己去调，但是我们可以再给他【输入格式】【输出格式】【最优解】【Java语言】【C++语言】【更多的测试用例让他自我验证】【指定类名，方法名，变量名】甚至还可以指定版本。再举个例子，我们需要从很多数据中进行筛选，就是一个简单的数据清洗的过程，引导模型的数据输出格式和过滤要求，以及一些原始数据就能够帮我们减少失误的概率。等等。

定义：用户输入给模型的指令或问题，用于引导模型生成预期输出。
类型：
- 零样本（Zero-shot）：直接提问，如“翻译这句话：Hello”。
- 少样本（Few-shot）：提供示例，如“苹果→apple；香蕉→banana；橘子→？”。
- 思维链（Chain-of-Thought）：引导模型分步推理，如“步骤1：计算成本；步骤2：...”。
优化技巧：
- 明确指令（如“用学术风格总结”）。
- 添加角色（如“你是一个资深医生”）。

(2) RAG（Retrieval-Augmented Generation）检索增强生成。

简单来说：就是让大语言模型在“生成答案”之前，先去找资料（检索）来增强它的知识，再用这些资料来生成更准确的回答。很多大模型是基于公开的资料训练出来的，而很多私域的信息他是没有学习过的，而很多知识是私有的知识，这就需要通过资料的方式增强他原来不熟悉的知识。
流程
1. 首先我们需要做数据准备，把你要用的资料收集好，比如：公司内部文档（PDF、Word、Markdown）、FAQ列表、产品手册等，然后清洗这些数据，比如去掉无关信息、切分成合理的小段。然后把每一小段文本用Embedding模型转成向量，把这些向量存到向量数据库里，比如FAISS、Milvus等。
  
  2、检索查询，当用户提问时，先用相同的Embedding模型把问题也转成向量。然后在向量数据库里用向量相似度搜索，找出最相关的几段资料（比如Top 5）。这些找到的内容就是上下文增强材料。
  
  3、生成回答，紧接着，就可以把用户的问题 + 检索到的资料一起，作为Prompt发给大语言模型（LLM）。这样可以保证模型只在资料范围内生成答案，降低幻觉。
优势：
- 解决模型“幻觉”问题（生成虚假信息）。
- 支持动态更新知识（无需重新训练模型）。
应用：客服系统、医疗问答。

(3) 微调（Fine-tuning）

定义：在预训练大模型基础上，用特定领域数据继续训练，使其适应具体任务。
方法：
- 全参数微调：更新所有参数，资源消耗大。
- LoRA（低秩适应）：仅训练少量低秩矩阵，高效且轻量。
应用场景：
- 法律、医疗等专业领域模型定制。
- 风格化文本生成（如莎士比亚风格）。

(4) 知识蒸馏（Knowledge Distillation）

定义：将大模型（教师模型）的知识“压缩”到小模型（学生模型）中，保持性能的同时减少计算资源需求。
技术：
- 软标签（Soft Labels）：教师模型输出的概率分布作为监督信号。
- 中间层匹配：对齐教师和学生模型的中间表示。
应用：移动端部署、边缘计算。

(5) Agent（智能体）

定义：具备自主决策能力的AI系统，可调用工具、与环境交互、完成多步任务。
核心能力：
- 工具使用：调用搜索引擎、API等。
- 记忆：保留对话历史或任务状态。
- 规划：拆解复杂任务（如“订机票→选酒店”）。
示例：
- AutoGPT：自主完成用户目标。
- ChatGPT Plugins：通过插件扩展功能。

(6) AIGC（AI-Generated Content）

定义：利用AI生成文本、图像、音频、视频等内容的技术。
应用场景：
- 文本：新闻写作、代码生成（GitHub Copilot）。
- 图像：Stable Diffusion、DALL·E。
- 视频：Runway ML生成动态内容。
伦理问题：
- 版权争议（训练数据来源）。
- 虚假信息（Deepfake）。

3. 延伸问题：幻觉（Hallucination）

大模型的“幻觉”指的是生成很多似合理但实际上错误或虚假的信息。

定义

模型生成与输入无关或事实错误的虚假信息，例如：

捏造不存在的论文引用。
提供错误的历史事件日期。

原因

训练数据噪声：模型学习到错误关联。训练数据本身可能包含错误信息、不完整数据、偏见信息，导致模型学到不真实的内容。以及训练数据可能过时。
概率生成机制：模型倾向于生成“流畅但不准确”的内容。
缺乏实时知识：无法获取训练数据之外的信息。
语言模型的“填空”机制，Transformer 语言模型本质上是一个 “填空预测器”，它是根据概率预测来选择下一个输出的词，而不是在“思考”正确答案。

解决方案

1、RAG，通过RAG的方式，让大模型在回答问题之前先检索真实数据，再让模型进行回答

2、Fine-tuning，即微调，通过微调的方式，给模型学习专业领域的知识，让他更好的回答，就是让大模型会使用工具的方案，联网查询、帮你操作本地文件、帮你调外部服务等待，不止Function Call，MCP、A2A都是可以让大模型更好的使用工具的技术方案。

3、限制AI的回答，比如在提示词中告诉他如果你不知道，直接就回答不知道

4、通过标注和反馈不断优化模型。并把反馈可以给到模型让模型调整。

5、让同一个模型多次生成同一个内容的答案，然后选择一个最终版本。

6、在问题回答之后，让 AI 自己检查自己的答案，并标记不确定的部分。

7、联网，在 AI 生成答案之前，先通过网络查询最新数据。

8、让 AI先写下推理过程，再得出最终结论，而不是直接给出答案。