当前位置：首页 > backend >正文

大模型原理初步了解

backend 2025/7/3 20:53:00

1.基础概念

Ai：人工智能，传统AI是一种弱AI，只能解决单一的问题，如图像识别，语音识别和转换

AGI：通用人工智能，是一种强AI，可以解决多场景、多领域的问题

图灵测试：把人类测试者和被测试的机器隔离进行文本对话，如果在5分钟之内，30%以上的人类未识别出对方是机器，则认为机器通过了测试，表现出与人类相当的智能。

机器学习：让计算机通过数据来学习，然后推导出要做什么，怎么做，⽽不是直接告诉它该怎么做。

深度学习：是机器学习的一个分支，通过神经⽹络模型来模拟⼈脑的学习⽅式，深度学习的“深度”是指它有很多层神经⽹络，这些层次结构可以帮助计算机从数据中学习到更复杂的模式。

强化学习：通过反馈机制进行学习，让计算机通过与环境的互动来学习如何做出决策，它不依赖于⼤量的标记数据，⽽是通过试错来学习

Transformer：大模型架构，所有大模型的基础

模型单位b：模型的参数量，1b代表十亿参数

蒸馏技术：将一个模型的预训练结果提炼到另外一个模型里面，就比如模型A从10万字的长文本中总结出1万字的核心内容，模型B不需要在从这10万字的长文本中重新总结，只需要从模型A总结出的1万字里再次总结即可。

2.GPT模式

G：Generative ⽣成式

大模型能够通过深度学习算法对已有数据库进⾏学习，再根据输⼊的指令⽣成全新的内容，⽣成答案时，会基于上下⽂信息并预测单词的概率分布来⽣成下⼀个单词，并将其添加到已⽣成的答案中。也就是⼀边回答⼀边猜测:下⼀个词句该说什么才符合提问常⻅条件和语义逻辑，表现为逐字⽣成的打字机效果

P：Pre-trained 预训练

为了让模型在⻅到特定任务数据之前，先通过学习⼤量通⽤数据来捕获⼴泛有⽤的特征，从⽽提升模型在⽬标任务上的表现和泛化能⼒。
GPT利⽤海量语料数据进⾏预先训练、深度学习，从⽽使得模型能够掌握⾃然语⾔的语法、语义和知识等⽅⾯的信息，构建⼀个千亿级参数的知识数据库以供检索

T：Transformer 大模型架构

通过神经⽹络模型来模拟⼈脑的学习⽅式，从⽽实现对复杂数据的更⾼效的分析和学习，能够更准确地理解语义、创造出新的内容

3.Transfomer架构

Transformer整体上由Encoder、Decoder构成

大模型本质上是一堆数学公式的集合，公式不能直接处理字符串，所以需要先把字符串转换为公式可以处理的数字。

Encoder：可以理解为对输⼊的文本翻译成公式能处理的数字，将⽂本翻译到包含:词意、语序、权重的语义空间⾥

Decoder：可以理解为⽣成⽂本，将上边语义空间的内容又转换为人类能理解的⽂本

Transformer的核⼼机制：Self-Attention(⾃注意⼒机制)：找到⼀句话中重要的字/词，类似于⼈阅读⼀句话，会判断出这句话的重点

4.文本映射到语义空间

⼀段⽂本要映射到语义空间需要经过两步处理：Tokenizer、Embedding

Tokenizer：

GPT使⽤BPE(Byte Pair Encoding)作为Tokenizer(分词器)，它的原理是：

第一步：先将训练集中的文本拆成一个个字或词，末尾用</w>标识，并统计这个字或词在训练集文本中出现的总频率
第二步：在把一个字或词拆成⼀个个字节，并统计这个字节在训练集文本中出现的总频率
第三步：把频率最高的字节合并成一个新的符号
第四步：基于新的符号再次统计频次，再进⾏⼀轮新的合并，最终达到⽬标⼤⼩

⽽这符号的集合称之为词汇表，字符称之为token

当然这整个过程运用到很多算法，这篇文章中不深入探讨......

Embedding：

Embedding是一种将高维数据映射到低维空间的方法，常用于将离散、非连续的数据转换为连续的向量表示，以便计算机处理。

Embedding的⼀种实现⽅式是Word2Vec，Word2Vec就是将一个词在不同维度(场景)下的语义映射到多维空间⾥，⽐如"King"在性别维度表⽰男性，在权利维度表⽰国王，这个多维空间也称为语义空间。维度越多表⽰的词的语义越精细。Word2Vec最初的标准是最⾼300维，GPT-3最⾼为12288维，GPT-4最高为15360维。

Word2Vec 的核心思想可以概括为“物以类聚，人以群分”，即词向量模型通过捕捉词汇间的共现关系，将相似的词汇投射到相似的向量空间中，词跟词之间的距离代表词跟词之间的语义相似度。