当前位置: 首页 > backend >正文

大模型原理初步了解

1.基础概念

Ai:人工智能,传统AI是一种弱AI,只能解决单一的问题,如图像识别,语音识别和转换

AGI:通用人工智能,是一种强AI,可以解决多场景、多领域的问题

图灵测试:把人类测试者和被测试的机器隔离进行文本对话,如果在5分钟之内,30%以上的人类未识别出对方是机器,则认为机器通过了测试,表现出与人类相当的智能。

机器学习:让计算机通过数据来学习,然后推导出要做什么,怎么做,⽽不是直接告诉它该怎么做。

深度学习:是机器学习的一个分支,通过神经⽹络模型来模拟⼈脑的学习⽅式,深度学习的“深度”是指它有很多层神经⽹络,这些层次结构可以帮助计算机从数据中学习到更复杂的模式。

强化学习:通过反馈机制进行学习,让计算机通过与环境的互动来学习如何做出决策,它不依赖于⼤量的标记数据,⽽是通过试错来学习

Transformer:大模型架构,所有大模型的基础

模型单位b:模型的参数量,1b代表十亿参数

蒸馏技术:将一个模型的预训练结果提炼到另外一个模型里面,就比如模型A从10万字的长文本中总结出1万字的核心内容,模型B不需要在从这10万字的长文本中重新总结,只需要从模型A总结出的1万字里再次总结即可。

2.GPT模式

G:Generative ⽣成式 

大模型能够通过深度学习算法对已有数据库进⾏学习,再根据输⼊的指令⽣成全新的内容,⽣成答案时,会基于上下⽂信息并预测单词的概率分布来⽣成下⼀个单词,并将其添加到已⽣成的答案中。也就是⼀边回答⼀边猜测:下⼀个词句该说什么才符合提问常⻅条件和语义逻辑,表现为逐字⽣成的打字机效果

P:Pre-trained 预训练

为了让模型在⻅到特定任务数据之前,先通过学习⼤量通⽤数据来捕获⼴泛有⽤的特征,从⽽提升模型在⽬标任务上的表现和泛化能⼒。
GPT利⽤海量语料数据进⾏预先训练、深度学习,从⽽使得模型能够掌握⾃然语⾔的语法、语义和知识等⽅⾯的信息,构建⼀个千亿级参数的知识数据库以供检索

T:Transformer 大模型架构

通过神经⽹络模型来模拟⼈脑的学习⽅式,从⽽实现对复杂数据的更⾼效的分析和学习,能够更准确地理解语义、创造出新的内容

3.Transfomer架构

Transformer整体上由Encoder、Decoder构成

大模型本质上是一堆数学公式的集合,公式不能直接处理字符串,所以需要先把字符串转换为公式可以处理的数字。

Encoder:可以理解为对输⼊的文本翻译成公式能处理的数字,将⽂本翻译到包含:词意、语序、权重的语义空间⾥

Decoder:可以理解为⽣成⽂本,将上边语义空间的内容又转换为人类能理解的⽂本

Transformer的核⼼机制:Self-Attention(⾃注意⼒机制):找到⼀句话中重要的字/词,类似于⼈阅读⼀句话,会判断出这句话的重点

4.文本映射到语义空间

⼀段⽂本要映射到语义空间需要经过两步处理:Tokenizer、Embedding

Tokenizer

GPT使⽤BPE(Byte Pair Encoding)作为Tokenizer(分词器),它的原理是:

  • 第一步:先将训练集中的文本拆成一个个字或词,末尾用</w>标识,并统计这个字或词在训练集文本中出现的总频率
  • 第二步:在把一个字或词拆成⼀个个字节,并统计这个字节在训练集文本中出现的总频率
  • 第三步:把频率最高的字节合并成一个新的符号
  • 第四步:基于新的符号再次统计频次,再进⾏⼀轮新的合并,最终达到⽬标⼤⼩

⽽这符号的集合称之为词汇表,字符称之为token

当然这整个过程运用到很多算法,这篇文章中不深入探讨......

Embedding

Embedding是一种将高维数据映射到低维空间的方法,常用于将离散、非连续的数据转换为连续的向量表示,以便计算机处理。

Embedding的⼀种实现⽅式是Word2Vec,Word2Vec就是将一个词在不同维度(场景)下的语义映射到多维空间⾥,⽐如"King"在性别维度表⽰男性,在权利维度表⽰国王,这个多维空间也称为语义空间。维度越多表⽰的词的语义越精细。Word2Vec最初的标准是最⾼300维,GPT-3最⾼为12288维,GPT-4最高为15360维。

Word2Vec 的核心思想可以概括为“物以类聚,人以群分”,即词向量模型通过捕捉词汇间的共现关系,将相似的词汇投射到相似的向量空间中,词跟词之间的距离代表词跟词之间的语义相似度。

Embedding的过程就是把Token转化为向量的过程,所以每个大模型的背后必定有一个庞大的向量数据库。

向量⽰意:[-0.0065131098963320255,-0.000946083921007812,0.013477202504873276,..]

5.Decoder

当输入文本时,Decoder就开始工作了,此时只输出一个start标志

大模型给我们输出的内容不是一次性生成的,而是循环多次生成的,每一次都会将之前生成的文本映射到语义空间,并加入语序顺序

当上一个字生成后,会根据语义找到下一个概率最高的一个字生成

所以Decoder的大体思路是:一边去回顾之前生成的内容,一边去找和这个语义最相近的字,然后统计它的概率,找到概率最大的字输出

Deocder也需要用到Self-Attention机制

6.deepseek大模型特点

两个模型:
V3:⾮推理型模型,根据预定义的指令和规则来⽣成内容,简单来说就是“用户说什么,它做什么”

R1:可推理模型,擅⻓处理复杂任务,它在数学、代码、⾃然语⾔推理等任务上,性能⽐肩OpenAI o1正式版,尤其是中⽂能⼒很强。推理型模型会进行分步骤思考,⽣成的内容具备较⾼的准确性和可解释性。

Moe架构:

混合专家模型(Mixture of Experts:MoE)由多个专业化的⼦模型(即“专家”)组合⽽成(注意不是多个独⽴的⼦模型,⽽是⼀个模型内部划分多个⽹络结构),每⼀个“专家”都处理其擅⻓的领域内的任务。⽽决定哪个“专家”参与解答特定问题的,是⼀个称为“⻔控⽹络”的机制,相当于⼀个路由器。

MoE的核⼼思想:

  • 专家(Experts):⼤模型内部被拆分成多个⼩模型,每个小模型专⻔学习某⼀类知识
  • 路由器(Router):每当用户输⼊⼀个问题时,模型里有⼀个“智能调度员”(⻔控⽹络”),它会判断这个问题应该交给哪⼏个专家处理。
  • 结果组合:选中的专家们各⾃给出答案,再把这些结果智能地组合成最终输出。


MoE架构的优势:

  • 省资源:每次只⽤一部分专家,计算量⼤幅降低。
  • 效果更好:每个专家专注⾃⼰的领域,整体更专业。
  • 模型可以更⼤:因为计算量可控,可以组合更多“专家”提升能力

MLA技术:

MLA技术(Multi-head Latent Attention,多头潜在注意⼒)是⼀种改进的注意力机制设计,主要⽬的是在保持模型性能的同时,显著提升计算效率。

MLA的核心思想:

  • 分组合作(Multi-head): 每组负责总结不同的信息重点
  • 信息摘要(Latent):每个小组不直接传递原始信息,⽽是先对信息进⾏压缩和摘要,形成简化的“潜在表⽰”。
  • ⾼效交互:小组之间通过摘要后的信息进⾏交流,⼤幅减少需要处理的数据量,同时保留关键关联。

MLA的优势:

  • 更省资源:通过信息压缩,减少不必要的计算,尤其适合处理⻓⽂本(如整本书、⻓代码)。
  • 更快速度:分组和摘要机制让计算并⾏化更⾼效,提升训练和推理速度。
  • 保持性能:关键信息在摘要过程中被保留,模型效果不受明显影响。

(这是我自己的学习总结,如有错误,请谅解,也欢迎留言纠正,十分感谢)

http://www.xdnf.cn/news/4861.html

相关文章:

  • 软件工程之形式化说明技术深度解析
  • Vulfocus靶场-文件上传-1
  • 通义灵码编码插件支持MCP
  • 从0到1构建前端监控系统:错误捕获、性能采集、用户体验全链路追踪实战指南SDK实现
  • Vue.js Watch 侦听器:深入理解与应用
  • 键盘弹起导致页面上移
  • C语言—指针2
  • git命令积累(个人学习)
  • 3.2.3 掌握RDD转换算子 - 2. 过滤算子 - filter()
  • HTTP学习
  • 机器学习实操 第二部分 神经网路和深度学习 第17章 编码器、生成对抗网络和扩散模型
  • 数据结构(二)——线性表的链式表示和实现
  • Linux网络编程day7 线程池and UDP
  • PostgreSQL安装与升级cron插件
  • 如何使用极狐GitLab 软件包仓库功能托管 terraform?
  • MATLAB 在医疗行业的应用
  • ImGui 基础用法
  • 第5章 深度学习和卷积神经网络
  • 飞算 用到妙处 AI辅助编程 - 双击方法名,自动识别到上下文中很方便
  • macOS Python 环境配置指南
  • Java死锁问题全解析:从原理到实战解决方案
  • 6:点云处理—QT三维窗口显示
  • Screeps Arena基础入门
  • 碰一碰发视频一键成片功能开发实践与技术解析
  • 字符宽度介绍
  • 仿LISP运算 - 华为OD机试真题(A卷、JavaScript题解)
  • 特征工程概述
  • QT 文件选择对话框 QFileDialog
  • DL/T645-2007电表协议简介以及请求应答帧格式
  • RSAC 2025观察:零信任+AI=网络安全新范式