大模型原理初步了解
1.基础概念
Ai:人工智能,传统AI是一种弱AI,只能解决单一的问题,如图像识别,语音识别和转换
AGI:通用人工智能,是一种强AI,可以解决多场景、多领域的问题
图灵测试:把人类测试者和被测试的机器隔离进行文本对话,如果在5分钟之内,30%以上的人类未识别出对方是机器,则认为机器通过了测试,表现出与人类相当的智能。
机器学习:让计算机通过数据来学习,然后推导出要做什么,怎么做,⽽不是直接告诉它该怎么做。
深度学习:是机器学习的一个分支,通过神经⽹络模型来模拟⼈脑的学习⽅式,深度学习的“深度”是指它有很多层神经⽹络,这些层次结构可以帮助计算机从数据中学习到更复杂的模式。
强化学习:通过反馈机制进行学习,让计算机通过与环境的互动来学习如何做出决策,它不依赖于⼤量的标记数据,⽽是通过试错来学习
Transformer:大模型架构,所有大模型的基础
模型单位b:模型的参数量,1b代表十亿参数
蒸馏技术:将一个模型的预训练结果提炼到另外一个模型里面,就比如模型A从10万字的长文本中总结出1万字的核心内容,模型B不需要在从这10万字的长文本中重新总结,只需要从模型A总结出的1万字里再次总结即可。
2.GPT模式
G:Generative ⽣成式
大模型能够通过深度学习算法对已有数据库进⾏学习,再根据输⼊的指令⽣成全新的内容,⽣成答案时,会基于上下⽂信息并预测单词的概率分布来⽣成下⼀个单词,并将其添加到已⽣成的答案中。也就是⼀边回答⼀边猜测:下⼀个词句该说什么才符合提问常⻅条件和语义逻辑,表现为逐字⽣成的打字机效果
P:Pre-trained 预训练
为了让模型在⻅到特定任务数据之前,先通过学习⼤量通⽤数据来捕获⼴泛有⽤的特征,从⽽提升模型在⽬标任务上的表现和泛化能⼒。
GPT利⽤海量语料数据进⾏预先训练、深度学习,从⽽使得模型能够掌握⾃然语⾔的语法、语义和知识等⽅⾯的信息,构建⼀个千亿级参数的知识数据库以供检索
T:Transformer 大模型架构
通过神经⽹络模型来模拟⼈脑的学习⽅式,从⽽实现对复杂数据的更⾼效的分析和学习,能够更准确地理解语义、创造出新的内容
3.Transfomer架构
Transformer整体上由Encoder、Decoder构成
大模型本质上是一堆数学公式的集合,公式不能直接处理字符串,所以需要先把字符串转换为公式可以处理的数字。
Encoder:可以理解为对输⼊的文本翻译成公式能处理的数字,将⽂本翻译到包含:词意、语序、权重的语义空间⾥
Decoder:可以理解为⽣成⽂本,将上边语义空间的内容又转换为人类能理解的⽂本
Transformer的核⼼机制:Self-Attention(⾃注意⼒机制):找到⼀句话中重要的字/词,类似于⼈阅读⼀句话,会判断出这句话的重点
4.文本映射到语义空间
⼀段⽂本要映射到语义空间需要经过两步处理:Tokenizer、Embedding
Tokenizer:
GPT使⽤BPE(Byte Pair Encoding)作为Tokenizer(分词器),它的原理是:
- 第一步:先将训练集中的文本拆成一个个字或词,末尾用</w>标识,并统计这个字或词在训练集文本中出现的总频率
- 第二步:在把一个字或词拆成⼀个个字节,并统计这个字节在训练集文本中出现的总频率
- 第三步:把频率最高的字节合并成一个新的符号
- 第四步:基于新的符号再次统计频次,再进⾏⼀轮新的合并,最终达到⽬标⼤⼩
⽽这符号的集合称之为词汇表,字符称之为token
当然这整个过程运用到很多算法,这篇文章中不深入探讨......
Embedding:
Embedding是一种将高维数据映射到低维空间的方法,常用于将离散、非连续的数据转换为连续的向量表示,以便计算机处理。
Embedding的⼀种实现⽅式是Word2Vec,Word2Vec就是将一个词在不同维度(场景)下的语义映射到多维空间⾥,⽐如"King"在性别维度表⽰男性,在权利维度表⽰国王,这个多维空间也称为语义空间。维度越多表⽰的词的语义越精细。Word2Vec最初的标准是最⾼300维,GPT-3最⾼为12288维,GPT-4最高为15360维。
Word2Vec 的核心思想可以概括为“物以类聚,人以群分”,即词向量模型通过捕捉词汇间的共现关系,将相似的词汇投射到相似的向量空间中,词跟词之间的距离代表词跟词之间的语义相似度。
Embedding的过程就是把Token转化为向量的过程,所以每个大模型的背后必定有一个庞大的向量数据库。
向量⽰意:[-0.0065131098963320255,-0.000946083921007812,0.013477202504873276,..]
5.Decoder
当输入文本时,Decoder就开始工作了,此时只输出一个start标志
大模型给我们输出的内容不是一次性生成的,而是循环多次生成的,每一次都会将之前生成的文本映射到语义空间,并加入语序顺序
当上一个字生成后,会根据语义找到下一个概率最高的一个字生成
所以Decoder的大体思路是:一边去回顾之前生成的内容,一边去找和这个语义最相近的字,然后统计它的概率,找到概率最大的字输出
Deocder也需要用到Self-Attention机制
6.deepseek大模型特点
两个模型:
V3:⾮推理型模型,根据预定义的指令和规则来⽣成内容,简单来说就是“用户说什么,它做什么”
R1:可推理模型,擅⻓处理复杂任务,它在数学、代码、⾃然语⾔推理等任务上,性能⽐肩OpenAI o1正式版,尤其是中⽂能⼒很强。推理型模型会进行分步骤思考,⽣成的内容具备较⾼的准确性和可解释性。
Moe架构:
混合专家模型(Mixture of Experts:MoE)由多个专业化的⼦模型(即“专家”)组合⽽成(注意不是多个独⽴的⼦模型,⽽是⼀个模型内部划分多个⽹络结构),每⼀个“专家”都处理其擅⻓的领域内的任务。⽽决定哪个“专家”参与解答特定问题的,是⼀个称为“⻔控⽹络”的机制,相当于⼀个路由器。
MoE的核⼼思想:
- 专家(Experts):⼤模型内部被拆分成多个⼩模型,每个小模型专⻔学习某⼀类知识
- 路由器(Router):每当用户输⼊⼀个问题时,模型里有⼀个“智能调度员”(⻔控⽹络”),它会判断这个问题应该交给哪⼏个专家处理。
- 结果组合:选中的专家们各⾃给出答案,再把这些结果智能地组合成最终输出。
MoE架构的优势:
- 省资源:每次只⽤一部分专家,计算量⼤幅降低。
- 效果更好:每个专家专注⾃⼰的领域,整体更专业。
- 模型可以更⼤:因为计算量可控,可以组合更多“专家”提升能力
MLA技术:
MLA技术(Multi-head Latent Attention,多头潜在注意⼒)是⼀种改进的注意力机制设计,主要⽬的是在保持模型性能的同时,显著提升计算效率。
MLA的核心思想:
- 分组合作(Multi-head): 每组负责总结不同的信息重点
- 信息摘要(Latent):每个小组不直接传递原始信息,⽽是先对信息进⾏压缩和摘要,形成简化的“潜在表⽰”。
- ⾼效交互:小组之间通过摘要后的信息进⾏交流,⼤幅减少需要处理的数据量,同时保留关键关联。
MLA的优势:
- 更省资源:通过信息压缩,减少不必要的计算,尤其适合处理⻓⽂本(如整本书、⻓代码)。
- 更快速度:分组和摘要机制让计算并⾏化更⾼效,提升训练和推理速度。
- 保持性能:关键信息在摘要过程中被保留,模型效果不受明显影响。
(这是我自己的学习总结,如有错误,请谅解,也欢迎留言纠正,十分感谢)