当前位置: 首页 > news >正文

关于初学者对大模型的一些概念的理解

在网上看到的一张图,我感觉还是比较清晰的,能快速对大模型有一个概念。

大模型及相关概念详解

大模型(Large Language Model, LLM)就是近年来人工智能领域的核心技术,基于海量数据和强大算力训练而成,能够处理自然语言理解、生成、推理等复杂任务。


1. 大模型(Large Language Model, LLM)

定义

大模型是指参数量巨大( 百亿级、千亿级,甚至万亿级)的深度学习模型,核心是基于 深度学习 神经网络Transformer架构,通过自监督学习(如掩码语言建模)从海量文本数据中学习语言规律。

Transformer 通过 “自注意力机制(Self-Attention)” 和 “多头注意力机制(Multi-Head Attention)” 实现高效的信息处理,相比于传统的 RNN(循环神经网络)和 CNN(卷积神经网络)具有更强的并行计算能力和更长的上下文理解能力。

核心特点

  • 规模效应参数量越大,模型表现通常越好(如GPT-3有1750亿参数)。

  • 通用性可处理多种任务(文本生成、翻译、问答等)。

  • 上下文学习(In-Context Learning):通过少量示例(Few-shot)即可适应新任务。

典型模型

  • GPT系列(OpenAI):生成式预训练模型。

  • DeepSeek:把思考过程展示了出来,

  • 等等

但是不要简单的认为大模型就只是AI对话,他的应用方向非常广泛,涵盖

自然语言处理(NLP)、计算机视觉(CV)、语音识别、科学计算、自动驾驶等 领域。

 NLP 语言 AI

智能对话、代码生成

chatgpt

计算机视觉(CV)

图片、检测等等

ViT

 AI语言

智能语言

Whisper

智能机器人

无人车、机器人

Tesla FSD

当然除了这是比较广泛的还有很多领域可以使用AI,现在就是一个AI的时代,就像以前计算机刚开始的时候懂计算机,我感觉哈。。。

其次,我们可以根据AI开发自己的具有个性化的一些功能点,比如初高中刷题的时候,看题解真不一定看的懂,我们就可以通过调教AI,给他输入特点的公式概念和数学概念,他甚至可以把他思考的过程给你输出出来,还有PPT、手抄报、作文等等都可以通过AI来做。再比如在计算机领域,我们在开发应用的时候,还可以借助AI来帮我们实现个性化的推荐,我们只需要给他喂数据进行训练微调,相比于传统的推荐算法更加简单,门槛低了很多了,还有比如可以根据要求给我们生成图片,或者进行图片监测。

比如我实现过一个让大模型给我生成一个文本相似度计算的功能,我们知道当调用大模型的时候,如果问题过于复杂,他的响应时间会很慢,像DeepSeek等,就很慢,我们就可以设置一个缓存的功能,如果文本相似度比较高的话就直接返回缓存就可以了,当然这个功能比较有限,只适合于小规模的对话形式,对于大规模的问答来说,就显得比较鸡肋了,命中率很低,当时作为学习确实也能降低一点token的计算费用嘛。。


2. 关键概念解析

(1) 提示词(Prompt)

像我们在平时使用别人的AI对话模型时,豆包、deepseek、千问等等,如果要让他写一个算法,我们直接把题目复制过去的话,他回答就不一定是对,甚至大部分都不是对的,最多提供一个思路,还需要我们自己去调,但是我们可以再给他【输入格式】【输出格式】【最优解】【Java语言】【C++语言】【更多的测试用例让他自我验证】【指定类名,方法名,变量名】甚至还可以指定版本。再举个例子,我们需要从很多数据中进行筛选,就是一个简单的数据清洗的过程,引导模型的数据输出格式和过滤要求,以及一些原始数据就能够帮我们减少失误的概率。等等。

  • 定义用户输入给模型的指令或问题,用于引导模型生成预期输出。

  • 类型

    • 零样本(Zero-shot):直接提问,如“翻译这句话:Hello”。

    • 少样本(Few-shot):提供示例,如“苹果→apple;香蕉→banana;橘子→?”。

    • 思维链(Chain-of-Thought):引导模型分步推理,如“步骤1:计算成本;步骤2:...”。

  • 优化技巧

    • 明确指令(如“用学术风格总结”)。

    • 添加角色(如“你是一个资深医生”)。

(2) RAG(Retrieval-Augmented Generation)检索增强生成。

  • 简单来说就是让大语言模型在“生成答案”之前,先去找资料(检索)来增强它的知识,再用这些资料来生成更准确的回答。很多大模型是基于公开的资料训练出来的,而很多私域的信息他是没有学习过的,而很多知识是私有的知识,这就需要通过资料的方式增强他原来不熟悉的知识。

  • 流程

    1. 首先我们需要做数据准备,把你要用的资料收集好,比如:公司内部文档(PDF、Word、Markdown)、FAQ列表、产品手册等,然后清洗这些数据,比如去掉无关信息、切分成合理的小段。然后把每一小段文本用Embedding模型转成向量,把这些向量存到向量数据库里,比如FAISS、Milvus等。

      2、检索查询,当用户提问时,先用相同的Embedding模型把问题也转成向量。然后在向量数据库里用向量相似度搜索,找出最相关的几段资料(比如Top 5)。这些找到的内容就是上下文增强材料。

      3、生成回答,紧接着,就可以把用户的问题 + 检索到的资料一起,作为Prompt发给大语言模型(LLM)。 这样可以保证模型只在资料范围内生成答案,降低幻觉

  • 优势

    • 解决模型“幻觉”问题(生成虚假信息)。

    • 支持动态更新知识(无需重新训练模型)。

  • 应用:客服系统、医疗问答。

(3) 微调(Fine-tuning)

  • 定义:在预训练大模型基础上,用特定领域数据继续训练,使其适应具体任务。

  • 方法

    • 全参数微调:更新所有参数,资源消耗大。

    • LoRA(低秩适应):仅训练少量低秩矩阵,高效且轻量。

  • 应用场景

    • 法律、医疗等专业领域模型定制。

    • 风格化文本生成(如莎士比亚风格)。

(4) 知识蒸馏(Knowledge Distillation)

  • 定义:将大模型(教师模型)的知识“压缩”到小模型(学生模型)中,保持性能的同时减少计算资源需求。

  • 技术

    • 软标签(Soft Labels):教师模型输出的概率分布作为监督信号。

    • 中间层匹配:对齐教师和学生模型的中间表示。

  • 应用:移动端部署、边缘计算。

(5) Agent(智能体)

  • 定义:具备自主决策能力的AI系统,可调用工具、与环境交互、完成多步任务。

  • 核心能力

    • 工具使用:调用搜索引擎、API等。

    • 记忆:保留对话历史或任务状态。

    • 规划:拆解复杂任务(如“订机票→选酒店”)。

  • 示例

    • AutoGPT:自主完成用户目标。

    • ChatGPT Plugins:通过插件扩展功能。

(6) AIGC(AI-Generated Content)

  • 定义:利用AI生成文本、图像、音频、视频等内容的技术。

  • 应用场景

    • 文本:新闻写作、代码生成(GitHub Copilot)。

    • 图像:Stable Diffusion、DALL·E。

    • 视频:Runway ML生成动态内容。

  • 伦理问题

    • 版权争议(训练数据来源)。

    • 虚假信息(Deepfake)。


3. 延伸问题:幻觉(Hallucination)

大模型的“幻觉”指的是 生成很多似合理但实际上错误或虚假的信息。
 

定义

模型生成与输入无关或事实错误的虚假信息,例如:

  • 捏造不存在的论文引用。

  • 提供错误的历史事件日期。

原因

  1. 训练数据噪声:模型学习到错误关联。训练数据本身可能包含 错误信息、不完整数据、偏见信息,导致模型学到不真实的内容。以及训练数据可能过时。

  2. 概率生成机制:模型倾向于生成“流畅但不准确”的内容。

  3. 缺乏实时知识:无法获取训练数据之外的信息。

  4. 语言模型的“填空”机制,Transformer 语言模型本质上是一个 “填空预测器”,它是根据概率预测来选择下一个输出的词,而不是在“思考”正确答案。

解决方案

1、RAG,通过RAG的方式,让大模型在回答问题之前先检索真实数据,再让模型进行回答

2、Fine-tuning,即微调,通过微调的方式,给模型学习专业领域的知识,让他更好的回答,就是让大模型会使用工具的方案,联网查询、帮你操作本地文件、帮你调外部服务等待,不止Function Call,MCP、A2A都是可以让大模型更好的使用工具的技术方案。

3、限制AI的回答,比如在提示词中告诉他如果你不知道,直接就回答不知道

4、通过标注和反馈不断优化模型。并把反馈可以给到模型让模型调整。

5、让同一个模型多次生成同一个内容的答案,然后选择一个最终版本。

6、在问题回答之后,让 AI 自己检查自己的答案,并标记不确定的部分。

7、联网, 在 AI 生成答案之前,先通过网络查询最新数据。

8、 让 AI先写下推理过程,再得出最终结论,而不是直接给出答案。


4. 其他重要概念

(1) 多模态大模型

  • 定义:同时处理文本、图像、音频等多种输入输出的模型(如GPT-4V、Flamingo)。

  • 应用:医疗影像分析、跨模态搜索。

(2) 对齐(Alignment)

  • 目标:使模型行为符合人类价值观(如无害、诚实)。

  • 方法

    • RLHF(人类反馈强化学习):通过人类评分优化模型。

    • 宪法AI:预设伦理规则约束输出。

(3) 长上下文窗口

  • 挑战:传统Transformer的注意力机制复杂度随上下文长度平方增长。

  • 优化技术

    • 滑动窗口注意力(如Longformer)。

    • 稀疏注意力(如GPT-4的128K上下文支持)。

以上有部分是AI生成的,但是我改了很多,AI答的不太好,太笼统了不像人话。

我对大模型的认识也比较浅显哈。。欢迎大家指正。

http://www.xdnf.cn/news/592039.html

相关文章:

  • DAY8字典的简单介绍
  • matIo库及.mat数据格式介绍
  • CSS回顾
  • 【Leetcode 每日一题】3362. 零数组变换 III
  • 游戏如何应对反编译工具dnspy
  • “十四五”收官年:电能质量治理的数字化突围指南
  • 写作--简单句重难点
  • 求树的重心
  • 关于fastjson与fastjson2中parseObject操作的区别
  • Python 实现Web 请求与响应
  • 背包问题(1)
  • Java RestTemplate 通用请求工具类
  • 2024游戏安全白皮书:对抗激烈!PC游戏外挂功能数增长超149%,超85%移动外挂为定制挂(附获取方式)
  • 基于阿里云DashScope API构建智能对话指南
  • 写一个计划任务脚本(定时执行)
  • PostgreSQL跨数据库表字段值复制实战经验分
  • 对于从事FPGA行业的人来说,需要掌握哪些知识
  • ant design 日历组件a-calendar如何汉化
  • 二分算法的补充说明
  • 表格单元格多行文本溢出写法
  • 基于SpringBoot的美食分享平台设计与开发(Vue MySQL)
  • 高效数据库管理新体验:SQLynx 3.7 功能解析与团队协作场景实践
  • 06算法学习_58. 区间和
  • PrimeVue菜单组件深度解析:构建高效能的Web导航系统
  • 3 tomcat原理
  • 多元回归的假设检验
  • Linux中 I/O 多路复用机制的边缘触发与水平触发
  • 鸿蒙运动开发:计算户外运动步频与步幅,与地图路线绘制
  • 链表-环形链表||
  • 3.8.2 利用RDD计算总分与平均分